求解随机博弈的启发式强化学习研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:daxiaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文致力于用基于启发式学习+Q-学习的启发式Q-学习来解决在非合作泛和博弈框架下随机博弈的Nash均衡解的求解问题。决定一个有限状态随机博弈的Nash均衡解是否存在是一个NP-hard问题。因此,常规基于迭代式学习的Q-学习方法不能求解较大规模的随机博弈。我们试图对学习过程中出现的各阶段博弈的回报做出启发式评估并不断地修改相应得启发式Q-值来逼近最优学习。基于这样的思想,我们提出了多agent的启发式Q-学习方法(MHQL)并且严格证明了该方法的正确性、收敛性及可接受的求解时间复杂度。实验结果显示我们的方法较迭代式的Q-学习而言可以大量地减少无效和重复学习从而加速收敛。该方法可视为一般泛化的启发式Q-学习的基本框架来设计更好的启发式学习规则。
其他文献
粒子群算法(简称PSO)是由Kennedy和Eberhart于1995年提出的一类随机群集智能优化算法。Kennedy和Eberhart对鸟群的觅食行为进行研究发现,单只鸟的能力是非常有限的,但是它们
学位
随着互联网络的广泛应用,网络攻击技术和攻击工具在近几年也飞速进步,使得网络安全的形势同益严峻。入侵检测技术是现代网络安全模型中的重要环节,然而现有的入侵检测系统往往只
本文对软件体系结构的历史发展、演变做了一定的研究。简要介绍了应用软件体系结构发展,从传统的客户机/服务器两层结构一直到以浏览器/服务器为代表的三层典型结构,同时指出了
随着Internet技术的高速发展和普及,企业对信息化建设的重视程度不断增加,迫切要求把Internet技术应用到企业信息化市场的开拓工作中去,因此现在利用Web技术,开发基于浏览器的B/S
随着计算机和网络技术的快速发展,用户之间的协同工作进入了通过互联网进行协同工作的时代,协同技术被应用于各个场景,时时刻刻影响着人们的生活。协同技术的实现大多是基于
Internet现在已经成为获取信息的重要源泉。但随着Internet上的信息呈指数级别的增长,用户逐渐被淹没在信息的海洋中,全面,及时的获取感兴趣的新闻和信息已经变得越来越难。
本文的研究工作基于“搏邦综合业务管理平台”(IBMP Office)的设计与实现,有效地将Web Service技术应用到综合管理平台的研发中。 先就系统使用的Web Service技术进行了研
随着网络技术的不断发展,Internet技术已经渗透到日常生活和工业生产的各个领域。这使得远程监测成为现实。JAVA是当前比较流行的一种网络设计语言,它最大的优点就是操作平台的
随着科学技术的迅速发展,人们生活各个方面都发生了重大的变化。监控技术的重要性正在逐渐被人们所认识和重视。目前,监控技术已经广泛应用于生产、生活等各个领域。铁路部门作