基于深度强化学习的多智能体协同围捕效率与抗干扰能力研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xzh19870715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能不断地深入人类的工作与生活,在军事、工业、医学等领域开始研究人工智能用于解决重点问题。多智能体围捕-逃逸问题便是其中之一。研究多智能体围捕-逃逸问题能够有效地解决导弹防卫,无人机群控制等任务中的控制难题。目前有关多智能体围捕-逃逸问题的研究大多还是从经典的控制理论出发,这一方法削弱了智能体数学模型的精度,具有很大的局限性。而深度强化学习虽然能够使智能体自主地迭代策略,但极大地增加了系统的计算量,使得此方法目前只适用于较少个体的群体在较为简单环境下的围捕。本文运用深度强化学习研究多智能体围捕-逃逸问题。重点针对深度强化学习应用于多智能体中出现的计算量大,训练效率低,抗干扰能力弱的问题。首先,为了消除实际奖励相对于环境变化存在的滞后,运用概率分布的思想,本文用概率形式奖励值替换了深度确定性梯度策略中的Q函数,设计了基于概率分布奖励的多智能体深度强化学习算法。其次,为给智能体构建具有适应性的群体结构,我们评估个体对于群体的贡献,设计了事件驱动的多智能体信用分配框架,当策略迭代陷入局部最优困境时,事件驱动机制会触发信用分配算法,使得群体策略偏向于贡献更高的个体,改变群体结构,提升策略迭代效率。最后,为使围捕者群体具有抗干扰的能力,本文构建干扰者与干扰信息模型,同时为围捕者群体设计了共识性网络。在每一次策略迭代的过程中更新共识性网络参数,使得群体具备判断并排除干扰信息的能力。本文在python3.6环境下的Spyder平台对所提出的算法进行了仿真实验。实验结果表明,本文所提出的概率分布奖励的强化学习算法与事件驱动的多智能体信用分配算法在个体数量增加的复杂围捕环境下相较于其他算法提升了围捕效率。具有群体共识的多智能体深度强化学习算法使围捕者群体能够在具有干扰信息的环境下进行较高效率的围捕。仿真实验验证了上述所提算法的可行性和有效性。
其他文献
随着信息技术的快速发展,融合图像颜色信息的三维场景重建技术广泛应用在增强现实、智能驾驶、文物保护等许多领域,构建高分辨率和大范围场景的三维重建模型具有重大意义。目前,基于移动平台上的点云和图像融合是大范围场景三维重建的重要方法,本文以移动平台上的点云和图像融合为背景,以提高融合图像和点云信息的三维重建分辨率和点云配准精度为目标,研究移动三维场景重建的关键算法。具体研究内容如下:首先,本文阐述了移动
第一部分:锶-铁羟基磷灰石/小肠粘膜脱细胞基质复合支架的制备及表征目的探讨SrFe HA/SIS复合支架制备方法及其成型后的材料体系表征变化。方法(1)以四水合硝酸钙(Ca(NO3)2·4H2O)、六水合氯化铁(Fe Cl3.6H2O)、硝酸锶(Sr(NO3)2)、氨水(NH3)和磷酸氢二铵((NH4)2HPO4)为原料,以超声辅助化学沉淀法合成锶-铁共取代羟基磷灰石(SrFe HA)纳米粉末材料
由于伺服系统的时变、非线性、强耦合的特征,伺服参数调整一直是业内研究热点。当前主流伺服调整软件一般是基于PC端运行,使用便捷性受到一定限制,本文结合移动终端在工业软件领域的应用趋势,开发了一款基于Android操作系统的伺服调整软件,可通过手机等移动终端,实现对伺服驱动参数快速地调整。针对伺服调整平台无线通讯、人机交互和参数快速调整的应用特征,引入基于Wi-Fi无线通讯和MQTT协议的技术,结合基
交流伺服系统具有体积小、高响应、高精度等特点,广泛应用于数控机床、高端电子装备及机器人等自动化设备中。但在电子封装摆臂、机器人连杆机构等柔性连接应用场景,系统容易出现机械振动,影响系统动态响应及控制精度,严重时还会损坏设备。针对上述现象,本文提出一种基于模型跟踪的交流伺服系统控制方法,通过构建模拟实际伺服系统的参考模型,辨识参考模型特征参数,整定参考模型控制参数,提升系统输入响应性能与运动跟随精度
随着光通信技术的发展,波长选择开关的需求越来越多,而基于硅基液晶(LCoS)空间光调制器的波长选择开关因其稳定性高、带宽灵活可调的优势,具有很好的应用潜力。然而,在波长选择开关系统中由像差、LCoS空间不均匀性等因素引起的波前畸变会导致插入损耗、串扰等性能指标的劣化,本文围绕LCoS-WSS光学系统中波前畸变的测量及其补偿开展研究,主要工作如下:首先根据波长选择开关的功能需求仿真设计了基于LCoS
工件的尺寸测量是机加工领域的关键环节,尺寸的正确性会直接影响产品品质,准确地测量出结果才能有效判断良品和次品。微波谐振腔作为通信基站的重要部件,其尺寸直接影响通信的准确性与稳定性。运用机器视觉技术,可以极大地提高测量的效率、精度和可靠性。本文以准确测量微波谐振腔的关键尺寸为最终目的,着重设计良好的特征匹配算法对待测结构进行准确定位,在定位的基础上使用传统的图像处理算法精确测量工件相应尺寸。论文首先
在区块链技术的研究中,一致性算法是其中很重要的一个研究内容。以工作量证明(PoW,Proof of Work)为代表的区块链一致性算法虽然去中心化程度高,但存在确认时间长、吞吐量低、弱一致性等问题。除了PoX类一致性算法之外,实用拜占庭容错算法(PBFT,Practical Byzantine Fault Tolerance)在一致性算法中也占据了重要的地位,PBFT不存在分叉问题,但是在一个节点
基于深度视频的三维人体行为识别是当前计算机视觉领域非常具发展潜力和活跃的研究课题之一。本文围绕当前三维人体行为研究中面临的两个主要挑战展开研究,一是在不同视角下观测范围下人体行为的形态变化非常大;二是人体行为存在较大的类内差异性和类间重叠性。对此,本文在不依赖人体关节点信息的前提下,针对如何对深度视频序列下三维人体行为进行有效特征表达,同时提高其特征辨识力,开展了多视角特征示例融合、三维空间人体行
航空工业中常常需要对飞机机身等桶型构件外形的形位误差如对称度等进行检验,以保证飞机机身加工质量要求。目前通常采用激光雷达对飞机机身进行测量,然后对点云进行分析检验,但是由于飞机机身整体尺寸较大,激光雷达在单个站位无法完全测量,需要进行转站操作。传统的转站操作一般是在待检测物体周围建立一个测量场,测量场周围布置导轨,机器人携带激光雷达在导轨上移动进行转站测量,但是这种测量方式存在测量场无法转移,测量
随着数字信息化时代的到来,信息的处理与传输得到了极大的发展。可随之而来数据信息泄密问题也愈发严重,其中基于屏幕拍摄的内部人员泄密隐蔽性强、可溯源性差。因此,研究对移动终端泄密的溯源具有重要的现实意义。通过向保护屏幕中写入可溯源水印的方式,在发生敏感信息泄密时,能够进行泄密信息溯源,定位到泄密人员。针对传统屏幕水印方案在嵌入数字水印时存在的问题,提出了基于交换链的屏幕水印方案。基于Windows的屏