固定长度经验回放对Q学习效率的影响

来源 :计算机工程 | 被引量 : 0次 | 上传用户:huwei00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种固定长度经验回放的思想,并将该思想与一步Q和pengQ(λ)学习算法相结合,得到了相应的改进算法。该文采用不同的回放长度L将改进的算法应用在网格环境和汽车爬坡问题中进行了仿真。结果表明,改进的一步Q学习算法在两个例子中都比原算法具有更好的学习效率。改进的PengQ(λ)学习在马尔呵夫环境中对选择探索动作非常敏感。增大L几乎不能提高学习的效率,甚至会使学习效率变差;但是在具有非马尔可夫属性的环境中对选择探索动作比较不敏感,增大L能够显著提高算法的学习速度。实验结果对如何选择适当的L有着指导作用。
其他文献
针对目前电力系统的信息整合需求,设计基于Web services的电力系统多层分布式信息整合模型。该模型可以跨越不同企业数据源、应用体系和开发语言的界限,以服务的形式封装数据
一是信息公开、透明运作。严格贯彻执行政府采购法规文件,对采购目录以内的或采购限额标准以上的项目应采尽采,截止11月底共审批集中采购788项,其中公开招标172项、竞争性谈判20
2015年12月4日,某科研所参照采用政府采购程序中的竞争性谈判方式,就某火车站客服系统联合维保项目进行采购,向电子公司、信息科技公司等三家公司发出竞争性谈判邀请函,并在
【正】 沈阳故宫是清入关前(1625—1643年)清太祖努尔哈赤和太宗皇太极所建造的宫殿。目前在国内现存的宫殿建筑群中,可与北京故宫相媲美。它是清代多民族统一国家形成雏形的
对两种基于UDP实时流媒体拥塞控制机制——探讨基于丢包率的控制和基于往返时延(Round-trip Time,RTT)的控制,提出一种在接收端通过单向延时预测拥塞的算法。与前两种拥塞驱动机
按照单播树、多播树和网状3种重叠网络构建方式分析现有的P2P应用层组播结构,提出构建P2P应用层组播时深度与宽度的平衡、如何利用叶子结点、网络波动的影响等几个普遍问题.
近日,国家税务总局集中采购中心完成2017年第二季度国税系统台式计算机批量集中采购工作。近年来,采购中心针对批量集中采购项目时效性强、采购频次高、配送服务网点多等难点问
[案例回顾]投诉人:B公司被投诉人:A公司2014年7月27日,某项目在某市公共资源交易网发布中标公示,A公司被确定为本项目第一中标候选人,B公司被确定为本项目第二中标候选人。2014年7
本文回顾了两个依法招标建设工程项目“有效投标不足3个”的评标案例,并对案例进行了剖析,从3个方面提出判定余下的有效投标是否具有明显竞争性的方法;介绍了亳州市解决“有
近日,河北省在上海举行政府和社会资本合作(PPP)项目推介会。从推介会上获悉,截至目前,全省已签约落地PPP项目77个,总投资2204亿元,投资额居全国第三位,形成了一批优质资产,在稳增长、