基于深度强化学习的多智能体路径规划

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:diod
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国科技的高速发展,多智能体系统已在工业、军事、救援等方面发挥着重要作用,而有效的路径规划,是各类多智能体系统高效作业的前提。在丰富的任务场景下,更大规模智能体的高效路径规划,能够大幅提升生产生活的效率。因此,本文利用深度强化学习方法,研究多智能体路径规划问题的建模、训练算法及神经网络结构,进一步地,针对复杂地图场景对神经网络结构进行改进,并将以上基于深度强化学习的多智能体路径规划算法应用于三维动力学仿真环境,实现了复杂多变地图场景下,较大规模智能体的实时路径规划。主要研究内容如下:(1)基于深度强化学习的多智能体路径规划算法。针对现存方法对地图变化适应性一般,且随着智能体规模增大计算耦合度增大影响计算实时性的问题,利用能够自学习的深度强化学习方法构建一种分布式的多智能体路径规划算法。首先,利用局部信息对路径规划问题进行MDP建模。其次,改进损失函数,对其引入最短路径约束以提高智能体对路径寻优的学习效率。再次,将以上设定应用于A3C并行训练框架以实现快速、样本丰富的训练。最后,设计神经网络结构,并对以上多智能体路径规划算法进行训练与测试,分析结果表明本算法能够实现多达上百个智能体的路径规划,各项性能优于传统算法。(2)基于循环神经网络及注意力机制改进的多智能体路径规划算法。针对输入状态较为复杂,普通神经网络不能有效进行特征提取的问题,在(1)的基础上对神经网络结构进行改进。首先,针对路径规划问题时序性特点,提出引入循环神经网络,对前置时序信息加以利用。更进一步地,针对普通神经网络对地图中关键信息利用不足的问题,提出引入注意力机制,在通道、空间两个层面进行注意力机制计算。对以上两种算法进行训练与测试,分析结果表明平均流通量有所提高。最后,在基于ROS与Gazebo机器人3D动态仿真平台中对本文所提出算法进行环境搭建与实验,证明算法在实际应用中的有效性。
其他文献
高校思政课实践教学作为思政课立德树人的重要组成部分,在实施过程中出现了学生参与度不高、规划不科学等问题。虚拟仿真技术作为当下一种新型教学手段,对思政课实践教学具有打造立体实践模式、提高学生参与度和优化教学等价值。为充分彰显虚拟仿真技术在高校思政课实践教学中的价值,采取“嵌入型”教学、科学规划虚拟仿真技术和选择内容、优化教学实施方案等应用策略。
本文为构建绿色旅游经济与区域物流的耦合协调评价指标体系,对浙江省2014—2020年绿色旅游经济子系统与区域物流子系统的耦合协调程度进行实证分析。结果显示,浙江省7年内绿色旅游经济与区域物流综合发展水平不断提升,物流发展水平总体滞后于绿色旅游经济的发展,两个子系统之间的耦合协调度由2014年的0.29上升至2020年的0.88,整体呈上升趋势。浙江省应加强旅游物流人才队伍的建设,培养复合型人才;构
扩展互作用振荡器(Extended Interaction Oscillator,EIO)是一类具有高功率、宽带宽等优点的新型真空电子器件,在毫米波至太赫兹波段有着广泛的应用。随着理论、实践研究的不断深入,真空电子器件的全局优化不断发展,如何实现高频率、宽带宽、高功率等多个目标的共渡性问题成为高频段微波器件设计的研究重点。本文是在W波段多间隙耦合腔研究基础上,结合扩展互作用振荡器工作特点,基于多目
从标签基本原则、标注内容、标注位置、引导语等方面逐一解读《化妆品标签管理办法》的最新监管要求,并分析相关审核案例,从而帮助化妆品生产经营企业深入了解新条例发布后的化妆品标签监管新要求。
农牧业循环经济发展的分析研究对西北地区生态保护和经济发展具有重要意义。本文以青海省为研究区域,基于2011—2020年的数据,采用熵值法和DEA法对农牧业循环经济发展水平和投入产出下的相对效率进行评价分析。结果表明:(1)2011—2020年,青海省农牧业循环经济发展水平总体表现出上升趋势,经历了上升、下降再快速上升的3个阶段,第三阶段综合评级指数得分明显高于第一和第二阶段,青海省农牧业循环经济逐
教学能力比赛作为职业院校教师教学能力提升的重要引擎,不仅能快速提高教师的综合教学能力,更能带来教学方式和学习方式的变革。本文基于虚拟仿真教学环境视角,探析高职院校教师信息化能力提升对策,提出了以教学能力比赛为风向标,构建"赛教融合"新模式、多元协同开发优质教学资源库、校企合作实现教师业务能力内涵式发展的提升思路。
目的 探讨老年高血压患者给予知信行健康教育模式干预对服药依从性的影响。方法 选取2020年6月-2021年6月合肥市第二人民医院收治的共计90例老年高血压患者,采用随机摸球法分成A组(n=45)与B组(n=45),B组给予常规健康教育模式干预,A组给予知信行健康教育模式干预,比较两组患者服药依从性、知信行水平及血压水平。结果 A组服药依从性与B组相比前者明显更高(P<0.05);两组干预后知信行评
实际生活中存在大量多目标优化问题,传统的优化方法通过将多目标优化问题转化为单目标优化问题进行求解,只能得到一个解,无法满足实际需求。多目标进化算法,由于其基于种群的结构,可以在一次运行中产生一组有效的解,从而被广泛应用于解决多目标优化问题。然而,多目标进化算法也面临着收敛慢,难选择高质量的父代以及难保留一组具有良好收敛性和多样性的个体等问题。本文从多目标进化算法的局部搜索及选择策略等方面展开了深入
<正>作为中国传统文化中必不可少的一部分,中医的历史和中国的文明一样悠久。在中医千年的历史长河中,扁鹊、华佗、张仲景、孙思邈、李时珍等一代又一代名医不断积累治病救人的经验,为中医药学的发展作出了突出贡献。他们所传递的不仅仅是医学技术的进步,更是悬壶济世的医学情怀。“人命至重,有贵千金,一方济之,德逾于此。”从中学开始,刘伟敬就开始阅读与中医相关的书籍,书中所讲述的故事、传达的精神,让他对中医充满了
期刊