一种基于团队马尔可夫博弈的多agent协同强化学习算法

来源 :复旦学报(自然科学版) | 被引量 : 0次 | 上传用户：shi123abc

【摘要】

：

研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学

【作者】

：

王长缨陈文伟姚莉

【机构】

：

国防科技大学

【出处】

：

复旦学报(自然科学版)

【发表日期】

：

2004年5期

【关键词】

：

团队博弈模型马尔可夫协同协作最大化行为策略强化学习算法多AGENT系统智能系统 reinforcement learning multi-a

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究多agent系统的学习行为对于智能系统的适应性是至关重要的.针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法.协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略.实验对该算法进行了验证,结果表明该算法是有效的.

其他文献

明目固本颗粒质量控制与药效学评价

目的提高和完善明目固本颗粒的质量控制方法,并评价其体内效能。方法采用TLC法对方中菊花、枸杞子进行鉴别;采用HPLC法测定样品中绿原酸的含量。色谱条件：色谱柱为Welchrom C1

期刊

明目固本颗粒药效学高效液相色谱薄层色谱法Mingmu guben Granule pharmacodynamics HPLC TLC

浅谈儿童音乐启蒙教育中视唱练耳课程开设的意义

儿童启蒙音乐教育的水平高低决定着民族精神文明能否全面发展。在儿童启蒙教育中，视唱练耳课程是基础性课程，能够培养儿童学习音乐的能力，能培养儿童音乐审美性，培养儿童的创造力

期刊

启蒙视唱练耳意义

北京奥运会后中国全民健身发展情况研究

2008年北京奥运会的申办进程以及申办成功，深刻地影响着全民健身活动开展的深度和广度，人们对全民健身活动的认识进一步增强，健身活动设施的建设得到了较快发展，全民健身活动的开

期刊

北京奥运会全民健身

浅谈低年级识字教学

识字、写字是阅读和写作的基础，是低年级教学的重点，常言道“人生识字聪明始”，可见识字的重要。为了能够更好的完成识字教学的任务，笔者在教学实践中有了一点心得，即教学中要注意

期刊

识字教学对比讲解引导记忆

我国农业机械自动化技术与应用

现今各国都在大力发展农业机械自动化的研究许多成果已经达到实用化的阶段，下面主要介绍我国自动化的应用现状。我国现已装置的农业机械自动化，我国目前已经装备的农业机械自动

期刊

农业机械自动化

几何教学中培养小学生空间观念的教学策略研究

本文主要分析小学生学习几何特点、形成空间观念的心理特点及形成障碍，探讨通过直观教学、实践操作等方法培养小学生空间观念的教学策略，明确小学数学教师在教学过程中注意培养

期刊

几何图形空间观念教学策略

英语高效课堂教法初探

新时期基础教育课程改革，无疑是中国教育史上的一场巨大变革。课堂教学的有效性，也就成了教育界人士常常谈论的论题。“教学”一词中的教，在英文中为teach，有“给人示例”的意思

期刊

高效课堂语法教学课堂教学

浅谈对质量管理的认识和建议

质量是企业生存和发展的第一要素,在激烈的市场竞争中,企业应充分认识质量管理对企业发展的作用和影响。

期刊

质量管理全面质量管理

中国近现代史纲要专题教学模式探索

“中国近现代史纲要”（以下简称“纲要”课）作为一门思想政治理论课，它主要是从历史教育的角度承担着对大学生进行思想政治教育的功能。教学实践证明，采取专题式教学模式可以有效

期刊

中国近现代史纲要专题教学模式

有限元仿真在压电陶瓷粉末模压成型中的应用

介绍了压电陶瓷粉末模压成型的研究现状,以及粉末材料有限元仿真所用的Drucker-Prager-Cap连续模型和屈服准则。基于有限元仿真法,论述了模压过程中摩擦行为、加载行为等工艺

期刊

模压成型连续模型压电陶瓷工艺参数

一种基于团队马尔可夫博弈的多agent协同强化学习算法

其他学术论文