求解随机博弈的启发式强化学习研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：daxiaa

【摘要】

：

本文致力于用基于启发式学习+Q-学习的启发式Q-学习来解决在非合作泛和博弈框架下随机博弈的Nash均衡解的求解问题。决定一个有限状态随机博弈的Nash均衡解是否存在是一个NP-

【作者】

：

李建伟

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2008年期

【关键词】

：

启发式强化学习 Q-学习随机博弈 Nash均衡解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文致力于用基于启发式学习+Q-学习的启发式Q-学习来解决在非合作泛和博弈框架下随机博弈的Nash均衡解的求解问题。决定一个有限状态随机博弈的Nash均衡解是否存在是一个NP-hard问题。因此，常规基于迭代式学习的Q-学习方法不能求解较大规模的随机博弈。我们试图对学习过程中出现的各阶段博弈的回报做出启发式评估并不断地修改相应得启发式Q-值来逼近最优学习。基于这样的思想，我们提出了多agent的启发式Q-学习方法(MHQL)并且严格证明了该方法的正确性、收敛性及可接受的求解时间复杂度。实验结果显示我们的方法较迭代式的Q-学习而言可以大量地减少无效和重复学习从而加速收敛。该方法可视为一般泛化的启发式Q-学习的基本框架来设计更好的启发式学习规则。

其他文献

PSO算法研究及其基于改进PSO算法的回归模型的参数估计

粒子群算法(简称PSO)是由Kennedy和Eberhart于1995年提出的一类随机群集智能优化算法。Kennedy和Eberhart对鸟群的觅食行为进行研究发现,单只鸟的能力是非常有限的,但是它们

学位

粒子群算法粒子群算法回归模型回归模型参数估计参数估计智能优化智能优化

社交网络的链路预测研究与应用

学位

网络入侵检测系统的报警关联分析技术研究

随着互联网络的广泛应用，网络攻击技术和攻击工具在近几年也飞速进步，使得网络安全的形势同益严峻。入侵检测技术是现代网络安全模型中的重要环节，然而现有的入侵检测系统往往只

学位

入侵检测网络安全攻击场景数据挖掘

基于.NET的企业信息管理系统的设计与实现

本文对软件体系结构的历史发展、演变做了一定的研究。简要介绍了应用软件体系结构发展，从传统的客户机/服务器两层结构一直到以浏览器/服务器为代表的三层典型结构，同时指出了

学位

企业信息管理分布式系统多层架构

.NET平台上N层Web应用程序的构建

随着Internet技术的高速发展和普及，企业对信息化建设的重视程度不断增加，迫切要求把Internet技术应用到企业信息化市场的开拓工作中去，因此现在利用Web技术，开发基于浏览器的B/S

学位

企业信息信息化市场浏览器

基于协同机制的数据采集系统的研究与实现

随着计算机和网络技术的快速发展,用户之间的协同工作进入了通过互联网进行协同工作的时代,协同技术被应用于各个场景,时时刻刻影响着人们的生活。协同技术的实现大多是基于

学位

协同编辑并发控制对等网络JXTA

基于用户兴趣模型的web推荐系统的研究与实现

Internet现在已经成为获取信息的重要源泉。但随着Internet上的信息呈指数级别的增长,用户逐渐被淹没在信息的海洋中,全面,及时的获取感兴趣的新闻和信息已经变得越来越难。

学位

用户兴趣用户兴趣兴趣模型兴趣模型web推荐系统web推荐系统加权向量加权向量聚类学习聚类学习

Web Service在Web应用程序中的研究与应用

本文的研究工作基于“搏邦综合业务管理平台”(IBMP Office)的设计与实现，有效地将Web Service技术应用到综合管理平台的研发中。先就系统使用的Web Service技术进行了研

学位

Web应用应用程序综合业务管理平台开发模式

基于Web的远程监测系统的研究

随着网络技术的不断发展，Internet技术已经渗透到日常生活和工业生产的各个领域。这使得远程监测成为现实。JAVA是当前比较流行的一种网络设计语言，它最大的优点就是操作平台的

学位

远程网络状态监测远程监测

铁路客票运行环境综合监测系统设计与实现

随着科学技术的迅速发展，人们生活各个方面都发生了重大的变化。监控技术的重要性正在逐渐被人们所认识和重视。目前，监控技术已经广泛应用于生产、生活等各个领域。铁路部门作

学位

铁路客票服务器监测代理数据库监测

求解随机博弈的启发式强化学习研究

其他学术论文