论文部分内容阅读
博弈是人工智能领域的重要研究主题,人工智能技术的发展在很多方面得益于博弈的发展。围棋作为博弈研究的主要内容之一,因其具有搜索空间大和难以建立评价函数的难点,使得传统的搜索方法很难获得令人满意的对弈性能。近年来,基于卷积神经网络的围棋棋步预测方法逐渐成为解决围棋博弈问题的一种有效途径。这是因为,第一,棋步预测方法通过监督学习来预测人类高水平棋手的走棋,该过程并不需要进行深度搜索,因此能够避免围棋分支因子高的问题;第二,棋步预测方法与人类棋手在对弈时的思考方式相一致;第三,由于卷积神经网络能够直接从原始图像中识别出视觉模式,并通过逐层的特征提取来提升分类的准确性,故可对围棋棋局进行有效地评估,从而克服对围棋中的模糊概念建立可计算模型的困难。利用卷积神经网络构建围棋棋步预测模型极大地促进了围棋博弈的发展,但就目前的研究现状来看仍有很大的发展空间。本文针对基于卷积神经网络的围棋棋步预测方法开展了以下三个方面的研究工作:1)对基于卷积神经网络的围棋棋步预测方法进行了综述。首先,简要介绍了围棋博弈的难点,通过对蒙特卡洛树搜索方法的分析,指出围棋棋步预测方法才是解决围棋博弈问题的有效途径;然后,从卷积神经网络的整体结构、各层子结构以及网络的训练三个方面阐述了与围棋棋步预测相关的卷积神经网络基础知识;最后,从棋局的特征表示、网络结构的特点、评价方法和性能分析三个问题入手,总结了卷积神经网络在围棋棋步预测中的已有研究,并对该领域的未来研究做了进一步的展望。2)为了进一步提高围棋棋步预测的准确率以提升围棋程序的对弈水平,提出了一种基于影响函数评估的卷积神经网络围棋棋步预测方法。首先,利用影响函数评估围棋棋局的影响值分布;然后,对这些影响值进行规范化处理,并生成用于训练卷积神经网络的影响特征;最后,将影响特征与其它特征一并用于训练基于卷积神经网络的围棋棋步预测模型。我们基于Zobrist的影响函数、陈克训的影响函数和Yen等人的影响函数进行了对比试验,实验结果表明:结合影响函数的策略可有效提高基于卷积神经网络的围棋棋步预测准确率,从而提升围棋程序的对弈水平。3)基于卷积神经网络的围棋棋步预测方法,设计并实现了一款围棋人机对弈软件DeepStone,它能够进行九路、十三路和十九路的对弈。首先,简要介绍了DeepStone的交互界面和功能架构;然后,阐述了DeepStone中所使用的SGF棋谱文件解析、卷积神经网络、蒙特卡洛树搜索和数学形态学等关键技术;最后,通过实际的对弈测评了DeepStone的性能。实验结果表明:DeepStone能够战胜较强的基于蒙特卡洛树搜索的围棋程序。另外,该系统在第十届全国计算机博弈锦标赛中荣获了九路围棋项目一等奖(冠军)、十三路围棋项目一等奖(冠军)和围棋(十九路)项目一等奖(亚军)的好成绩。