共享经验的多主体强化学习研究

来源 :计算机工程 | 被引量 : 0次 | 上传用户:SAGDGJGU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
合作多主体强化学习的关键问题在于如何提高强化学习的学习效率。在追捕问题的基础上,该文提出一种共享经验的多主体强化学习方法。通过建立合适的状态空间使猎人共享学习经验,根据追捕问题的对称性压缩状态空间。实验结果表明,共享状态空间能够加快多主体强化学习的过程,状态空间越小,Q学习算法收敛越快。
其他文献
弹性模量是木材中较重要的力学参数.国标中木材横纹抗压弹性模量的测量是采用杠杆式引伸仪来测量物体的变形(GB1927~1943-91),也有学者采用电测法来测量(龚蒙,1995;李维秸,198
2010年3月25日,江森自控在江苏无锡千禧大酒店举办亚洲技术研发中心成立五周年庆典,政府有关部门、中国制冷学会、中国制冷空调工业协会和全国各建筑设计院、有关高等院校、
贵州省毕节贵耀材料科技有限公司(以下简称贵耀公司)向河流直接排污,对附近村民的生产生活造成不良影响,环保部门曾对其处罚,但该公司的排污行为仍然持续,2016年11月22日,贵
螺旋弹簧非独立悬架是一种复合式悬架,装有该类后悬架的轿车,其后桥的结构形式对后悬架的刚度特性有重要影响。通过对螺旋弹簧非独立悬架刚度分析,推导了该类悬架的后桥各主
期刊
自今年4月起,三菱电机空调影像设备(上海)有限公司(MLC)空调事业部产品技术巡展系列活动在全国包括上海、苏州、青岛、郑州、南昌、长沙、深圳、合肥、北京、绍兴等地陆续进
Currently, Global Positioning System (GPS) techniques are becoming a much larger part of the surveying industry. Many companies are now using GPS in their every
As one of the divisions in China Southern Power Grid, Yunnan Power Grid Corporation has conducted research and demonstration projects on multiple smart grid tec
一致性问题是分布式虚拟环境中的基本问题.该文分析和总结了分布式虚拟环境中不一致问题产生的原因和将导致的结果,提出用面向对象方法中的对象-属性-事件机制解决实体状态的
Pedestrian safety related to public bus transit is an integral part of promoting sustainability especially in the urban setting. This concept has received signi