连续状态空间的强化学习问题

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:LoneStrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习作为一种强有力的机器学习方法,其有效性已经在很多领域得到证明。它研究的是一个很普遍的问题:即如何在一个未知的动态环境中学习,以找到最优的行为策略。强化学习给人的希望是非常诱人的:只需要给出目标,agent就会利用环境给出的奖励和惩罚信号,通过与环境不断进行试错式交互来自动地完成,而不必人为的告诉agent如果去完成目标。因此,近年来强化学习受到越来越多的关注。   本文首先介绍了强化学习的基本理论和经典算法,讨论了各种算法之间的区别和联系以及算法间的融合。由于传统强化学习算法存在的问题足通常假设状态空间和行为空间是离散的,因此可以用和状态一一对应的查找表来表示状态的价值函数,但是实际上很多问题的状态空间是连续的,意味着查找表不再适用,从而大大地限制了强化学习方法在实际中的应用。对于状态空间连续,行为空间离散的强化学习问题,通常的处理方法是使用函数近似器替代离散的查找表。不幸的足这种方法往往会大大减弱算法的收敛性,很可能使学习过程不收敛,甚至在学习的起始阶段就失败了。   因此,我们引入了基于核方法的强化学习,其特点是基于实例的价值函数估计和基于核方法的泛化。基于核方法的强化学习不仅能够直接处理具有连续状态空间的强化学习问题,而且在适当的假设条件下,可以在理论上保证,随着实例数目的增加,一定能收敛到最优的价值函数,也就是说这种方法在统计意义上是一致的,尽管如此,目前基于核方法的强化学习算法还很少,本文主要创新在于提出了三个不同版本的基于核方法的蒙特卡罗算法(KBMC),它们把随机搜索算法,传统的蒙特卡罗方法和基于核方法的强化学习结合起来,能有效地处理具有连续状态空间和离散行为空间的强化学习问题,并在mountain car问题上进行一系列的实验,实验结果表明KBMC算法与经典的Sarsa,(λ),Q(λ),Actor-Critic(λ)算法相比,能收敛到更好的策略。
其他文献
科学数据库经过二十多年的发展,积累了大量的数据资源。随着网络技术的发展和科学研究的进步,科学数据库将成为科研工作的基础设施之一,并将成为未来科学研究必不可缺的资源。作
学位
在大脑接收的来自外部世界的感知信息中,80﹪以上是通过视觉系统进行加工处理的.最近二十多年来,视觉信息加工的机制是脑科学、神经生物学、认知心理学和计算机科学等学科研究
嵌入式技术作为计算机技术和电子通讯技术的交叉学科,其在科学研究、工程设计、军事技术等领域得到了广泛的应用。在一般情况下,嵌入式应用的执行都有着相当严格的时间限制,有些
学位
各种高科技领域的强劲需求不断推动着数据库规模的迅速膨胀,传统的集中式数据库系统已经难以满足这种数据密集型应用的需要,因此,开发高性能、低成本的并行数据库系统将有重大意
学位
伴随着计算技术的发展,在实际应用需求的推动下,数值计算得到了长足进步。数值软件尤其是并行数值软件是当前数值计算的关键环节。日益增多的大规模、复杂实际应用问题,对数值软
学位
XML(eXtensible Markup Language,可扩展标记语言)定义了一种数据格式,这种数据格式允许用户自己定义标记,来描述特定应用领域的数据,以这种格式描述的数据形成的文件称为XML
随着计算机技术的迅速发展和硬件水平的快速提升,尤其是近年来高性能计算机和并行技术的发展,气象、生态问题的高性能计算应用显得日益重要。本课题内容基于国家973项目“高性
学位
计算机网络的迅速发展推动了信息化和全球化的进程。企业与企业之间,企业的各部门之间,信息交换越来越频繁。由于地理位置的分布性和所采用的技术的多样性,直接导致了数据资源的
学位
互联网技术和应用的飞速发展对网络信息传输安全和服务质量保证提出了严峻的挑战,建立高可信的网络服务已经成为网络应用发展的迫切需求。目前可信网络相关技术的研究重点集
学位