一种共享经验元组的多agent协同强化学习算法

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:lygcctv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q学习算法是一种最受欢迎的模型无关强化学习算法。本文通过对Q学习算法进行合适的扩充,提出了一种适合于多agent协作团队的共享经验元组的多agent协同强化学习算法,其中采用一种新的状态行为的知识表示方法使得状态行为空间得到缩减,采用相似性变换和经验元组的共享使得学习的效率得到提高。最后将该算法应用于猎人捕物问题域。实验结果表明该算法能够加快多个猎人合作抓捕猎物的进程,有利于协作任务的成功执行,并能提高多agent协作团队的协作效率,因此该算法是有效的。 Q learning algorithm is one of the most popular model-independent reinforcement learning algorithms. This paper proposes a new multi-agent cooperative reinforcement learning algorithm based on the shared experience tuple which is suitable for multi-agent collaborative team through the appropriate expansion of Q learning algorithm. A new knowledge representation method of state behavior makes the state behavior space Is reduced, the efficiency of learning is improved by the similarity transformation and the sharing of empirical tuples. Finally, the algorithm is applied to the hunter-catching problem domain. Experimental results show that this algorithm can speed up the process of multiple hunters cooperating to capture prey, which is beneficial to the successful execution of collaborative tasks and improves the collaboration efficiency of multi-agent collaborative teams. Therefore, this algorithm is effective.
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
振动深松技术是在原有的深松技术的基础上和引进日本的先进设备,通过消化、吸收、创新,成功地创造和形成适合我国国情的振动深松技术.在解决土壤板结、建立“土壤水库”、草
简述了祁连山自然保护区森林生物多样性特征,森林病虫鼠害发生与生物多样性的关系,说明导致森林病虫鼠害大发生的森林生物多样性原因在于:森林树种、森林类型及其分布状况比
研究了平原高沙土在保持1990年作物单产水平、保持一定单产增长率条件下,不同种植制度、不同培肥措施下的有机质消长规律,提出了提高土壤有机质的技术途径:优化种植制度不仅
对杨属(Populus)白杨组(SectionPopulus)9种核型进行了分析,结果如下:银白杨(P.albaL.),2n=28=1M+30m+4sm(1SAT)+1st(1SAT)+2t;新疆杨(P.albavar.pyramidalis),2n=38=1M+24m+
对嘉陵江短尾鮠的繁殖作了研究,主要研究了短尾鮠的生殖群体、繁殖力和胚胎发育。采用LRH-A、HCG加鲢脑垂体催产短尾鮠获得成功,催产适宜水温23~26℃,效应时间10~14h,胚胎发育
为了给小麦杂种F2代在生产上的利用提供信息与依据,对冬小麦的蛋白质含量、面筋含量、沉淀值、面团流变学特性等主要品质性状和产量性状的遗传特性及F2代杂种优势的研究进展
随着电力系统容量的增大,接地故障导致的零序电流也逐渐增加,而目前的变压器差动保护在消除零序电流时,均未计及电流互感器误差的影响,存在误动的可能.分析了当变压器电源侧
简述了各向异性介质FDTD方法,并用FDTD方法分析了三维各向异性有耗介质板的瞬态后向散射.根据各向异性介质板后向散射与入射电磁波极化方向有关的特点,利用其后向RCS的谐振特
本文设计了使用CMOS工艺 ,单片集成的L波段数字声广播 (DAB)接收机模拟前端 .接收机前端应用了三种方法来提高镜像抑制度 :低中频双正交weaver结构比一般的同相 /正交 (I/Q)