面向数据高效利用的深度强化学习方法及应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:whzjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能的快速发展,越来越多的智能设备进入普通民众的视野,如谷歌的无人车等。这些设备之所以被称为智能设备,是因为它们拥有一套完备的感知、决策和学习未知环境的智能系统。智能设备获取智能一般有两种方式,一种是依靠人工预先编程,为设备建立一定的专家知识库和推理机制,另一种是依靠自学习的方式来逐渐提高设备的智能,也就是通过与未知环境的交互,学习经验或者知识并且更新当前知识结构。第一种方式具有很大的局限性,他获取的“智能”很大程度上受限于专家知识库、并且知识内容结构都比较单一,无法得到实时更新。所以自学习为主要手段的人工智能逐渐成为新的发展方向。  强化学习(Reinforcement Learning,RL)作为一种较为成熟的机器学习算法,由于其自学习以及强大的决策能力已经引起了学者的极大兴趣。深度学习(DeepLearning,DL)作为另一种兴起的机器学习算法,由于强大的高维数据感知和分类的特性,已经成为人工智能领域未来发展最有前途的领域之一。而人工智能发展的趋势是追求更高的“智慧”,其主要两个方面——信息感知与动作决策,这两个方面正好对应上文所说的深度学习和强化学习,两者的结合从而开始引领人工智能发展的新方向——深度强化学习(Deep Reinforcement Learning,DRL)。  本文首先针对传统的最优问题,提出了基于历史数据再训练的强化学习算法,验证了该算法能够一定程度上加快传统算法的学习效率和收敛速度,并给出了该算法的收敛性分析。在此基础上,本文提出了基于历史数据权重采样的深度强化学习算法以及基于SARSA学习的深度强化学习算法,并将这两种算法应用到视频游戏中,分别得到了比基于历史数据一致采样的深度强化学习算法更优的实验结果。其中,基于历史数据权重采样的深度强化学习算法能够更有效的处理历史数据中包含大量回报为0的“深海救援”等游戏。而基于SASRA学习的深度强化学习算法尽管在算法训练初期学习效率较慢,但其能在后期收敛过程中获得更高的回报和更平稳的收敛特性。因而,基于历史数据再训练的强化学习能够加快传统算法的收敛速度,并且收敛性能够得到保证;基于历史数据权重采样的深度强化学习算法能够改善学习过程中历史数据中存在大量冗余数据的问题,而基于SARSA学习的深度强化学习算法能够使学习过程更加平稳且在能获得更优的平均回报。
其他文献
交交变频同步电机调速系统具有容量大、输出转矩高及过载倍数大等优点,适合于大容量、低速运转的生产机械,已广泛应用于轧钢机及矿井提升机等调速工艺。 通过对交交变频同步
学位
本文在参阅国内外大量文献的基础上,回顾和总结了前人在经济负荷分配(Economic Load Dispatch,ELD)方面的研究和应用,分别对传统的动态规划算法、具有小概率“逃出”局部极限的模拟退火算法及Hopfield神经网络算法用于经济负荷分配问题进行研究讨论。在此基础上,将研究成果进行模拟仿真,取得了较好的结果并得出了很多有价值的结论。 经济负荷分配是电力系统中一典型的优化问题,当前
随着国民经济的快速发展与国内GDP指数的迅速提高,社会经济生活等各个方面对电力能源的需求空前增长。而前几年,我国电力行业发展缓慢,导致近些年来,电力供应不足,缺口很大,严重影响了国民经济各生产部门的正常运行和人们的日常生活。2003年底开始,全国电力项目建设发生井喷式增长,大量低容量、未审批项目违规上马,同样对于电力行业稳定健康持续发展具有很大影响。分析造成这种状况背后的深层原因:一方面由于国民经
大天区面积多目标光纤光谱天文望远镜(LAMOST)是国家“九、五”重大科学工程项目之一。预计2005年底建成之后,每个观测夜将获得1~2万条光谱数据,预计所获得的光谱数据总量达107
遥感图像变化检测是遥感图像处理中的热点研究问题,在自然环境监测、灾情分析、城市规划管理、军事区域监视等领域具有十分重要的应用价值。目前遥感图像变化检测技术正向着精
自适应光学系统是一个涉及光、机、电、算的复杂系统。无论在设计前期还是在使用中都会遇到大量棘手问题。具体而言,在设计前期,会有光学系统器件参数选取的问题,电控系统电
CCD(电荷耦合器件)广泛应用于光电探测领域。面阵式CCD相机成像技术涉及CCD芯片驱动、模拟与数字电路混合处理设计、视频合成技术、信号处理技术、微功耗电源管理等。其核心
随着商用一米以下分辨率的光学卫星图像的出现(Quickbird,Ikonos),大规模、经常性的地图更新和监测是可负担和实际可行的。在图像处理和计算机视觉领域,人们研究如何从遥感数据
随着以太网技术的迅猛发展,工业以太网在工业控制领域扮演着越来越重要的角色。工业以太网作为一种新兴的网络技术,已在工业系统的管理层和控制层得到广泛应用,并有向下延伸