【摘 要】
:
强化学习能够处理人工智能领域中很多复杂的问题,具有广泛的应用前景。其中,函数逼近方法可以有效地处理强化学习中大规模、连续状态和动作空间问题,时序差分(TD)算法可以在
论文部分内容阅读
强化学习能够处理人工智能领域中很多复杂的问题,具有广泛的应用前景。其中,函数逼近方法可以有效地处理强化学习中大规模、连续状态和动作空间问题,时序差分(TD)算法可以在无模型环境中利用经验进行在线学习。本文围绕基于函数逼近的TD算法,在梯度下降方法和最小二乘方法的基础上对权重更新方法进行研究,并提出一些新的更新方法。主要研究包括以下三个部分:(1)最小二乘方法可以提高TD算法的收敛速度,但不准确的状态分布和不合理的探索会导致算法难以取得令人满意的收敛效果,并容易陷入局部最优的困境。针对该问题,提出双权重最小二乘方法。该方法利用两权重的配合求解目标权重,既能保证算法较快的收敛速度,也能增强算法的探索能力并提高算法的学习性能。(2)最小二乘方法对计算资源的消耗较高,并会随着状态规模的扩大而增加。梯度下降方法虽然收敛速度慢甚至会有发散的危险,但对计算资源的消耗较低。针对这种情况,提出权重梯度下降方法。该方法利用最小二乘的投影操作将值函数误差转换成权重误差,并结合半梯度下降方法更新权重。权重梯度下降方法可以应用于各种基于值函数的TD算法,该方法虽然在收敛速度上不及最小二乘方法,但是对计算资源的消耗更低,同时该方法也拥有比半梯度下降方法更好的收敛性能与学习效果。(3)深度强化学习拥有强大的感知能力和处理事务的决策能力,使强化学习迎来了更广阔的发展空间。利用权重梯度下降方法优化深度强化学习算法时,需要考虑对算法稳定性影响的几个重要因素,如非线性函数的投影操作、权重误差的求解以及各网络层输出值的变化等。针对上述情况,提出混合权重梯度下降方法。该方法将权重梯度下降方法与梯度下降方法相结合,能有效应用于各种基于值函数的TD深度强化学习算法中,并提升算法的学习性能。
其他文献
振动信号在土木、航空、大型机械等许多领域都具有重要的研究意义,是各界学者的广泛关注的一个重要问题,振动传感器的研究是进行振动信号监测的重要一环。光纤光栅传感器具有
在物联网高速发展的今天,蓝牙(Bluetooth)已经成为了应用最广泛的短距离无线通信协议。在蓝牙家族中,BLE(Bluetooth Low Energy)由于其低功耗的特性,备受各种智能设备的青睐。BLE也因此在蓝牙家族中占据了举足轻重的地位。目前针对BLE的攻防研究大多集中于破解消费级智能设备和挖掘操作系统的BLE协议栈漏洞,而针对BLE链路层本身的攻防研究则十分罕见,相关的工具仅有GitHu
二氧化氮气体在工业、航空等领域起着重要作用,同时也是一种常见的污染气体。人体短时间暴露在1 ppm浓度的二氧化氮环境中,呼吸道系统便会受到损伤。长时间暴露在二氧化氮超
数字图像处理是使用计算机对图像进行除噪、增强、修复、分割等处理的技术,其中数字图像修复技术是图像处理技术研究的热门领域。图像修复是指通过对破损图像中有效信息的处
语言是人类进行信息表达和交流的重要工具。通过运用语言,人类既可以描述客观事实,又可以表达主观思想。随着深度学习技术的快速发展,自然语言生成(Natural Language Generat
二手房价格一直是人们极为关注的问题,它的准确预测对城市规划、民众购房、市场调控与监管都具有重要意义。由于影响房价的因素诸多,传统的线性回归模型已经无法解决非线性的
内蒙古霍各乞矿床是华北陆台北缘西段的狼山地区的大型铜多金属硫化物矿床。主要赋矿岩性为狼山群第二岩组内的一套包括变质硅质岩的热水沉积变质岩与陆缘碎屑岩。矿体主要以层状、似层状、透镜状岩赋矿层位展布,与地层产状总体一致,变质沉积特征显著。霍各乞矿床含矿条带状石英岩主要呈层状产出,石英条带与硫化物互层。霍各乞含矿石英岩中 w(Fe)/w(Ti)>20、w(Al)/w(Al+Fe+Mn)<0.
在全球知识型经济的竞争浪潮下,创新活动作为竞争的源动力正大规模开展起来。而技术机会作为技术创新及市场创新活动的基础,是企业和行业提高技术创新能力的关键,也是提高其国际竞争力的关键。在企业技术创新的过程中,任何一个创新项目的确立,都必须考察并评估其技术机会的大小,所以对于技术机会的研究一直是技术创新的重要组成部分。从文献文本中挖掘技术的知识信息一直是技术机会分析的重要手段之一,因此,通过从专利文档、
无人机发展至今已有100多年历史,科学技术水平的不断提高和人们需求的变化使得无人机从军事领域逐渐地走向民用领域。目前,无人机已在农业植保、摄影航拍、气象监测、森林防
近五十年来,人类对自然资源的过度开发利用导致生物多样性丧失的规模和速度远超过任何历史时期,其变化是不可逆的。而生态系统是由有机部分与自然环境相结合的动态整体,比单