The Cooperative Multi-agent Learning with Random Reward Values

来源 :上海交通大学学报(英文版) | 被引量 : 0次 | 上传用户:wjbbio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
This paper investigated how to le the optimal action policies in cooperative multiagent systems if the agents’ rewards are random variables, and proposed a general two-stage leing algorithm for cooperative multiagent decision processes. The algorithm first calculates the averaged immediate rewards, and considers these leed rewards as the agents’ immediate action rewards to le the optimal action policies. It is proved that the leing algorithm can find the optimal policies in stochastic environment. Extending the algorithm to stochastic Markov decision processes was also discussed.
其他文献
本文针对鲁迅小说复调问题研究中理论适用性论证的缺失,尝试对鲁迅小说是否是复调小说进行回答。通过对复调小说理论的梳理,本文得出结论,认为复调是小说文体的特性,判断复调小说
<正>随着我国国民经济水平的稳步提高以及人民精神文化生活的不断丰富,旅游文化产业近几年迅速地发展起来。旅游文化活动从概念上来说,主要是鉴赏异国、异地的传统文化、追溯
凝聚民心是红岩精神在新时代的本质体现。“红岩服务模式”从增强党组织凝聚力做起,着力夯实党的组织基础;以广大党员志愿者的自发行动和多样化的服务方式,增强公共服务供给
陈学智先生一生低调,倾心作画,绘画题材广泛,山水、花鸟、人物无所不写,山水尤精,笔墨老辣醇厚,赋予物象真情。特别善作大幅,大而不散不碎且见气韵。近年喜作四尺整幅,皆势奇
[目的]了解昆明地区居民糖尿病(DM)患病现状及其特征,探讨糖尿病预防控制策略。[方法]采用多阶段随机抽样方法,随机抽取20岁及以上常住居民5381人,进行糖尿病流行病学调查,包
[目的]为了解柳州市不同食品中铅镉污染状况。[方法]按照国家标准方法GB/T5009-2003对样品进行前处理,采用石墨炉原子吸收光谱法检测铅、镉含量。[结果]共检测7类163件食品,
甲午战争文学是甲午战争期间和其后产生的包括诗歌、小说、散文等纯文学作品以及具有一定文学性的非纯文学性作品的总和。甲午战争对中国人造成了前所未有的伤害和冲击,甲午战
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
案例简介:王某,男,1951年2月生,1968年12月参加工作,先后在潞安矿务局当工人、保管员。1983年入党。1990年任潞安矿务局调研室副主任,1991年任某挂职煤炭副县长,1997年任某县
随着社会资源应用结构不断变革,智能照明控制系统的应用,已成为电力资源应用的发展新趋向。基于此,本文以小型办公场所为例,分析智能化照明控制系统的设计结构,使智能化控制