Agent强化学习中的POMDP算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:chencr33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Agent的强化学习技术是目前分布式人工智能和计算机科学技术的重要研究内容之一。强化学习是一种无导师的学习技术,能够利用不确定的环境奖赏值找到最优的行动策略。由于具有这种优点,因此在Agent的学习机制的研究中,它被认为是一种理想的构建智能Agent的技术。尽管强化学习技术已有很多研究成果和应用范例,但是还有许多没有解决的问题,不完全感知问题就是其中一个难点问题。目前对于这类问题一般采用POMDP模型进行求解。 部分可观察的马尔可夫决策过程(POMDP)为随机环境下决策和规划问题的建模提供了一个完美的理论框架。在随机环境中,对系统状态的观察都是间接的,会出现失真或者是误差。POMDP提供了处理两种不确定性的统一框架,即行动结果的不确定性,以及行动反馈信息的不确定性。然而,由于求解POMDP模型的计算复杂度高的问题,使得它在现实中的应用往往只局限于一些较简单的问题。值迭代算法是求解POMDP问题的一种标准算法,它通过动态规划更新的操作来不断优化值函数。 值迭代算法的求解效率并不高,这是因为以下的两个原因。第一,每次DP更新。操作都需要在连续的信念空间上遍历所有的信念状态;第二,值迭代需要经过很多次的DP更新操作才能达到收敛。因此,本文的研究工作就主要围绕如何提高值迭代算法的效率这一问题展开。本文的主要工作包括以下的几个方面: 1)详细介绍了POMDP模型的定义,以及相关的一些基础理论知识,并对重点的一些概念如值函数也进行了详细的分析,包括值函数的定义以及它的重要属性。同时,还对POMDP理论的研究现状进行了介绍; 2)介绍了求解POMDP问题的两种基本算法:值迭代算法和策略迭代算法,并详细分析了值迭代算法,介绍了几种典型的值迭代算法; 3)在已有值迭代算法的基础上,提出并实现了一种改进的值迭代算法,通过理论分析确保改进算法的收敛性; 4)利用实验研究证明了该改进算法在效率上比起原来的标准值迭代算法有了很大的提高;并将该算法应用到了我们设计的NDSocTeam球队中。
其他文献
该文从谈判支持的理论基础及发展和基于Web的谈判支持的现状分析入手,结合Web开发的特点和软件工程的思想,进行了较洋细的系统需求分析,在此基础上论述基于Web的谈判支持系统
该文探讨了消息服务体系的基本框架和它所支持的消息的可靠传递机制.Web services是由一系列开放的,平台无关的协议所组成的基于网络的组件规范.该文提出一种基于Web service
该文首先从分布式应用体系发展过程阐述了WEB服务产生的需求背景.然后具体介绍了WEB服务技术基础.依次阐述了WEB服务的思想模型、架构体系和协议栈,并详细说明了WEB服务最重
该文结合CBIR技术和临床医务人员诊断疾病的专业知识提出了一种基于人类感知分类的图像特征提取和检索方法;在分析了高维索引所面临问题的基础上,提出了一种成本模型;然后根
该文首先介绍了网络安全所受到的威胁:黑客的攻击与病毒的传播.简单介绍了当前系统所存在的一些弱点及黑客攻击的手段. 其次介绍了入侵检测技术的发展:入侵检测系统模型的发
Internet的飞速发展产生了众多基于网络的复杂应用程序。这些程序基于不同的平台和标准,相互之间很难交互,不仅不利于改造和维护,而且大量重复开发浪费了有限的网络和企业资源。
建筑图三维重建的研究对象是多类信息综合描述且描述形式灵活的建筑图。它以实现计算机自动抽取图中二维图形对象的几何及语义信息、完成信息的综合、重建出建筑物整体模型为
网络和多媒体技术的普及,导致了网络上的通信量急剧增多,伴随着网络带宽需求的快速成长。为了达到减少网络的重复传输率,提高带宽的使用率,网络缓存技术是最常见的一种解决技术。
随着计算机技术的迅速发展,以Internet为代表的全球性信息化浪潮日益深刻,信息网络技术的应用正在日益普及和广泛,应用层次正在逐渐深入,应用领域扩展到党政部门信息系统、金融业
现代的机构(企业)的结构有从面向功能的金字塔型组织结构转向面向过程的网络化的组织结构的趋势,这一趋势对机构(企业)的管理手段提出了更高的要求,机构(企业)的各个功能模块之