加强学习主要算法的比较研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:cocksun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出了加强学习的两个应用以及今后的研究方向。
其他文献
针对泉南高速公路柳南段交通事故,采用累计频率法对道路黑点进行鉴别,曲线中累计频率大于95. 0%路段有12处,即为事故黑点(段)。结合贝叶斯定理,建立了道路联合概率分布模型,
枇杷是福建省名优水果,比较耐瘠,红壤丘陵或山地都适合栽培,很多果农开发坡地建枇杷园.然而,在生态条件差的北坡地建枇杷园,水土易流失,土层薄,土质差,缺水缺肥,栽后成活率极
1月24日,广西《中华人民共和国城乡规划法》(以下简称《城乡规划法》)宣贯会在南宁召开。会议提出,以科学发展观为指导,深入贯彻实施《城乡规划法》,围绕我区国民经济和社会发展“
文章分析了经济学中传统非线性建模方法的不足,提出利用基于多智能体的整体建模仿真方法来建立经济系统的非线性仿真模型,作者利用swarm仿真软件平台生成了一个产品供求关系的
PDF417二维条码具有信息容量大、保密性好、纠错能力强等优点,特别适合于电子商务中物流配送对电子邮票的需求。文章在分析电子邮票的需求和二维条码的特点基础上,建立了基于PDF417二维条码技术的电子邮票服务系统。
1 阆中果树生产的基本情况阆中市是全国历史文化名城、四川省辖市,面积1 800多km2,人口86万,农业人口70万,年均温17.1℃,年降雨量998.5 mm,年日照时数1 460小时.
《公路路基设计规范》(JTG D30—2004)对挡土墙的设计首次提出了以荷载分项系数法为主的设计方法,即滑移和倾覆稳定采用分项系数法设计、地基承载力采用容许应力法设计。根据荷
《广西壮族自治区实施〈城市市容和环境卫生管理条例〉办法(修订案)》(以下简称(《办法》)已经自治区第十届人民政府第82次常务会议修订通过,并于2008年1月1日实施。12月14日,自治区
1月4日至9日,自治区建设厅、自治区商务厅在南宁联合组织召开了边境口岸城镇规划审查会。会议对硕龙镇、爱店镇等边境口岸城镇的总体规划和口岸区域详细规划进行审查。自治区
1月29日,自治区建设厅厅长宋继东率厅办公室、人教处、计财处等处室负责人,赴广西城乡规划院、自治区建设工程质量安全监督总站、广西建筑科学研究设计院、广西建筑工程检测中