论文部分内容阅读
近年来,随着人工智能的快速发展,越来越多的智能设备进入普通民众的视野,如谷歌的无人车等。这些设备之所以被称为智能设备,是因为它们拥有一套完备的感知、决策和学习未知环境的智能系统。智能设备获取智能一般有两种方式,一种是依靠人工预先编程,为设备建立一定的专家知识库和推理机制,另一种是依靠自学习的方式来逐渐提高设备的智能,也就是通过与未知环境的交互,学习经验或者知识并且更新当前知识结构。第一种方式具有很大的局限性,他获取的“智能”很大程度上受限于专家知识库、并且知识内容结构都比较单一,无法得到实时更新。所以自学习为主要手段的人工智能逐渐成为新的发展方向。 强化学习(Reinforcement Learning,RL)作为一种较为成熟的机器学习算法,由于其自学习以及强大的决策能力已经引起了学者的极大兴趣。深度学习(DeepLearning,DL)作为另一种兴起的机器学习算法,由于强大的高维数据感知和分类的特性,已经成为人工智能领域未来发展最有前途的领域之一。而人工智能发展的趋势是追求更高的“智慧”,其主要两个方面——信息感知与动作决策,这两个方面正好对应上文所说的深度学习和强化学习,两者的结合从而开始引领人工智能发展的新方向——深度强化学习(Deep Reinforcement Learning,DRL)。 本文首先针对传统的最优问题,提出了基于历史数据再训练的强化学习算法,验证了该算法能够一定程度上加快传统算法的学习效率和收敛速度,并给出了该算法的收敛性分析。在此基础上,本文提出了基于历史数据权重采样的深度强化学习算法以及基于SARSA学习的深度强化学习算法,并将这两种算法应用到视频游戏中,分别得到了比基于历史数据一致采样的深度强化学习算法更优的实验结果。其中,基于历史数据权重采样的深度强化学习算法能够更有效的处理历史数据中包含大量回报为0的“深海救援”等游戏。而基于SASRA学习的深度强化学习算法尽管在算法训练初期学习效率较慢,但其能在后期收敛过程中获得更高的回报和更平稳的收敛特性。因而,基于历史数据再训练的强化学习能够加快传统算法的收敛速度,并且收敛性能够得到保证;基于历史数据权重采样的深度强化学习算法能够改善学习过程中历史数据中存在大量冗余数据的问题,而基于SARSA学习的深度强化学习算法能够使学习过程更加平稳且在能获得更优的平均回报。