基于测地高斯核的策略迭代强化学习

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:tushudasha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一类重要的机器学习方法,经典查找表形式的强化学习方法在大规模或者连续空间任务中普遍面临“维数灾难”问题,而基于逼近技术的近似强化学习方法则克服了此问题。目前,近似强化学习方法已经成功地应用到了自动控制、人工智能以及智能机器人等领域,是强化学习研究领域的一个热点。本文主要从值函数逼近方面对近似强化学习方法展开研究。基函数的选取工作对于基于值函数逼近的近似策略迭代至关重要。针对基于线性值函数逼近的强化学习算法存在基函数选取困难的问题,选择在图上具有光滑性且计算简单的测地高斯核以更好地逼近光滑且不连续的值函数。针对基于测地高斯基的强化学习方法中存在的一些问题,提出两点改进算法。第一,对于状态空间在欧氏空间不连续的强化学习任务,测地高斯基直接在欧氏空间内求取最短路径的结果不理想;针对此问题,引入流形学习中基于谱图理论的拉普拉斯特征映射算法,提出一种基于状态图流形测地高斯基的策略迭代强化学习方法;基于流形距离构造的高斯基函数提高了值函数的估计精度,Agent能够更快地学习到最优策略。第二,为了体现相同状态下不同动作之间的差异性及相似性,直接在状态-动作图上构造基函数;鉴于普通测地高斯基单一的可调参数对值函数泛化性能的限制性,引入加权多宽度高斯核函数,提出一种基于状态-动作图加权多宽度测地高斯基的策略迭代强化学习;通过加权多宽度测地高斯基的多参数调节提高基函数的学习能力和泛化能力,从而提高算法的精度。分别采用2房间和4房间格子世界问题进行仿真分析,仿真结果验证了所提方法的有效性与可行性。
其他文献
清晨,打开档案库房厚重的大门,几缕阳光从窗口透进来,均匀的斜涂在密集架中的档案盒上,档案盒的土黄色在阳光映照下变得粉粉的,如处子的肌肤.那种亲切感又一次袭上心头,一年3
管道运输是一种新兴、经济的运输方式,尤其在输送气体和液体物品方面具有天然的优势,在国民经济中发挥着重要作用。近年来,随着我国管道保有量的快速增加和服役时间的增长,因管道
摩托车起动电机是在摩托车起动瞬间,仅仅工作几秒至几十秒时间的短时工作电机。其主要作用是帮助摩托车发电电机在起动过程中克服阻力矩,并达到一定的转速,以满足发电机的点
技术创新是企业的原动力rn技术创新已成为现代企业实现经济实质性增长的基本途径,并且逐步成为企业的自觉行为,其动力源自经济全球化一体化的影响和我国对企业技术创新的普遍
随着计算机技术,通信技术,显示技术,现场总线技术及其他高新科学技术的发展,造就了新一代的集散控制系统(DCS),它越来越广泛应用于各种工业领域,并将会成为工业控制系统应用的主流
矿井中的瓦斯检测问题,历来是影响煤矿安全的重大问题。广大科研人员为了更好地解决该问题,不断研究更加稳定、可靠的智能化瓦斯监控系统。由于井下环境错综复杂,随着智能化瓦斯
感应耦合电能传输(Inductively Coupled Power Transfer,ICPT)技术是一种基于电磁感应原理,综合利用现代电力电子技术、磁场耦合技术、大功率高频变换技术和现代控制理论等技术的一种新兴无线电能传输技术,具有广阔的应用前景。近年来,国内外的科研团队和企业对ICPT技术的研究和应用开发越来越深入,但是目前对ICPT系统的研究主要集中在电能变换和补偿、耦合机构设计、主电路控
随着新型网络应用的不断涌现和用户数量的迅速增长,使得Internet的流量急剧增长,越来越严重的网络拥塞问题逐渐暴露出来。Internet中拥塞控制机制对保证Internet的稳定具有十分
无线电能传输技术(Wireless Power Transmission Technique)是近年兴起的一种电源与用电设备间非物理接触的电能接入技术。ICPT(Inductive Coupled Power Transfer)和ECPT(El
面向用户订货的多品种、小批量生产将会是21世纪的主导生产模式,同时,制造业正朝着精益生产和敏捷制造方向发展。在这样的生产环境下,生产计划安排、车间生产调度等都成为企