【摘 要】
:
强化学习是解决决策和控制问题的一种有效方法,然而对数据依赖性高、学习时间长、易发生维数灾难,如何提高强化学习的学习效率成为关键。多粒度模型描述方法以智能体为中心,
论文部分内容阅读
强化学习是解决决策和控制问题的一种有效方法,然而对数据依赖性高、学习时间长、易发生维数灾难,如何提高强化学习的学习效率成为关键。多粒度模型描述方法以智能体为中心,是一种对环境和对象进行建模的信息表示方法,而迁移学习能够通过对先前特征信息和数据经验的学习,将一个或多个源域任务的学习经验用于解决新的任务。由于环境存在不确定性,单纯的迁移强化学习可能会存在负迁移等问题,因此本文在强化学习、多粒度模型和迁移学习研究的基础上,提出基于迁移学习的多粒度强化学习方法。在多粒度强化学习中,对环境模型进行粒度化,提高强化学习和迁移学习算法对环境的认知和理解,避免维数灾难和负迁移,从而提高迁移强化学习的效率。学习过程中使用多粒度模型作为知识迁移的对象和载体,在不同粒度之间架起了学习迁移的桥梁,设计了多粒度迁移强化学习算法。此外,针对提出的算法,利用迷宫问题和倒立摆问题进行了多组实验仿真,并完成了移动机器人导航控制实验,以验证所研究方法的有效性。本文具体内容包括:(1)定义了多粒度模型,系统提出了基于迁移学习的多粒度强化学习算法,包括从细粒度到粗粒度的迁移、粗粒度到细粒度的迁移,以及相似任务不同粒度间的迁移,详细说明了算法原理及流程;(2)针对典型应用,即栅格迷宫问题、倒立摆控制问题以及室内导航问题,分别设计了数值仿真实验和实际系统实验,验证基于迁移学习的多粒度强化学习算法的有效性,并对实验结果进行分析与讨论。相关结果对于强化学习算法及典型应用的研究具有重要的参考价值和实用意义。
其他文献
1991、10、26—11、9省长吴官正应联合国粮农组织的邀请,率省政府代表团访问墨西哥和美国。1991、11、1—11、4全省二轻工业工作会议暨轻工集体企业第四次职代会在南昌召开。
一个完整的住房市场,应当由住房买卖市场和住房租赁市场共同构成。合理的住房市场是保障民生、促进经济和谐发展的重要条件之一。但是目前惠州市乃至我国,明显存在“重售轻租
通过对平面磨床加工过程中波纹产生的各种原因的分析,提出了解决问题的方法和途径,从而确保平面磨削的加工质量。
现将国务院批转劳动部、财政部、国家计委《关于进一步改进和完善企业工资总额同经济效益挂钩意见的通知》(国发[1989]25号)转发给你们,同时结合我省实际情况,提出如下意见,
我省优秀运动员在第十一届亚运会上夺得了七枚金牌、十三枚奖牌,为国家争得了荣誉,为江西人民争了光。为表彰优秀运动员及教练员对我国体育事业作出的突出贡献,省人民政府一
“十二五”时期,广东适应经济发展新常态,圆满完成了“十二五”时期目标任务。“十三五”时期是全面建设小康社会的决胜阶段,广东省稳中求进,继续推进供给侧结构性改革,适当
为解决煤与瓦斯突出矿井巷道掘进速度慢、矿井采掘接续紧张、回采期间上隅角瓦斯频繁超限等难题,提出了柔模泵注混凝土沿空留巷技术。根据薛湖煤矿地质及工程条件,基于分离岩
随着中国经济的持续发展,汽车作为便捷、高效的交通工具逐渐进入了千家万户,但与此同时也发生了越来越多的交通事故,产生了许多刑事案件。其中,准确认定交通肇事后的逃逸行为一直是难题,这其中涉及到“逃逸”行为的定义、“逃逸”的主客观要件,以及“因逃逸致人死亡”的界定等一系列困扰刑法理论界与实务界的疑难、争议问题。基于此,本文将对上述难题展开进一步研究,以期能对促进相关司法实践的统一性和准确性贡献智识。本文
基于2012年30省份30部门的区域间非竞争型投入产出表,通过投入产出模型测算出生产和消费双重视角下省域间的实际碳排放量,并结合SBM-DEA模型度量碳排放效率。研究结果表明,大
非语言类专业"专业+韩语"教学中存在学生学习韩语动力衰减、缺乏合适有效的教材、与专业课学时冲突等问题。教师应引导学生明确学习目的,增强学习动机;选择合适有效的教材,探索