【摘 要】
:
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数
【机 构】
:
苏州科技大学电子与信息工程学院,苏州科技大学
【基金项目】
:
国家自然科学基金(61772357,61672371),江苏省重点研发计划项目(BE2017663),江苏省研究生科研与实践创新计划项目(SJCX18-0881)
论文部分内容阅读
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。
其他文献
维修电工分布于各行各业,是一种通用性技术,要求从业人员有扎实的理论基础和实践经验,高级维修电工涉及多门学科,模拟电子、数字电子、变频器、PLC、电力电子、机床电气、自
为高效地挖掘和分析复杂网络,提出一种基于三角形子图的复杂网络过滤压缩算法NIIET。设计一种节点重要性排序算法NRSA选取高、低重要性节点并进行过滤,以降低计算规模并缩短
《红楼梦》里,晴雯病中被赶出大观园后,宝玉去探望她,发现晴雯独自睡在“芦席土炕”上,渴了半日,要宝玉给她倒茶。宝玉只找到了一个不像茶壶的“黑沙吊子”和满是油膻之气的疑似茶碗,他拿水洗了两次,才斟了半碗,还是感觉“太不成茶”,“只一味苦涩,略有茶意而已”。但晴雯却如饮甘霖。这让宝玉非常感慨:“往常那样好茶,她尚有不如意之处,今日这样看来,可知古人说的‘饱饫烹宰,饥厌糟糠’。又道是‘饭饱弄粥’,可见都
结构洞通常指社交网络中处于信息扩散关键位置的节点,此类节点对社交网络舆情控制、影响力分析、信息传播等具有重要作用。为快速准确地找到社交网络中的结构洞,提出一种基于