【摘 要】
:
深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG
论文部分内容阅读
深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出一种基于群体目标状态的奖励函数。针对这种奖励函数下,奖励值稀疏,影响学习速率,将基于优先级的经验重放方法扩展至多智能体领域,提高样本利用率,挖掘训练潜能。最后在合作导航场景中进行仿真实验,验证方法的有效性。
其他文献
船舶上层建筑及是一般船舶提供船上人员活动居住,且在一定时候提供船舶浮力的建筑物,其上门的设置影响到船舶稳性、人员脱险和出入便利等方面。从载重线公约中对上层建筑风雨
按照《1974年国际人命安全公约》(以下简称《人命安全公约》)的规定,除去客船以外,其他适用船舶通称为货船.公约对客船的破舱稳性规定是,不论其尺度大小,一律应进行计算校核;而
3月20日,中国水泥行业巨头-海螺水泥领军人物郭文叁董事长应邀出席中国水泥协会在杭州召开的"2015年中国大型水泥企业领导人圆桌会议"。他盛赞中国水泥协会搭建了这样一个大企
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
随着市场经济发展进步和城市化进程速度加快,我国建筑市场得到良好的发展,但在激烈的市场竞争下,建筑施工企业想要提高竞争优势,就必须增强成本管理水平和能力。本文主要阐述
在新课程改革中出现的"亲生共读"提案中,提出教师与学生应当共同阅读、共同学习,旨在探讨师生之间的共同言语信号,发展全新的师生关系。教师应当在阅读教学中努力实现互助共
瑞士施泰德铁路公司(Stadler)已经向瑞典地铁有限公司(MTR Express)交付了首批6列Flirt型城际电力动车组,此批列车于2015年3月投入运营。
Stadler has delivered the first
《阿凡达》是一部主题突出、艺术特色鲜明的经典影片。该片开创了电影创作立体化时代,将3D技术完美运用于视觉传达之中,将科幻主题与动画效果完美统一于视觉艺术之中,开辟了
由于受多方面因素的制约,我国许多企业在公路工程的各个阶段工程地质勘察工作方面仍然存在着一系列的问题,严重阻碍了我国公路工程行业的发展和进步。因此,为了尽快改变这一