【摘 要】
:
针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏,不能对每个动作进行奖赏分配,无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR,关心的是完成任务过程中的每个动作和趋势,实时对其进行奖赏.并提出了一种基于过程奖赏和优先扫除PrioritizedSweeping-PS的强化学习算法PS-CR。借助机器人觅食任务进行了仿真研究,并与Q学习算法、基于过程奖赏的
【机 构】
:
中国科学技术大学自动化系,安徽,合肥,230027 中国科学院自功化研究所,北京,100080
【出 处】
:
2008系统仿真技术及应用学术会议
论文部分内容阅读
针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏,不能对每个动作进行奖赏分配,无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR,关心的是完成任务过程中的每个动作和趋势,实时对其进行奖赏.并提出了一种基于过程奖赏和优先扫除PrioritizedSweeping-PS的强化学习算法PS-CR。借助机器人觅食任务进行了仿真研究,并与Q学习算法、基于过程奖赏的Q学习算法Q-CR和优先扫除算法PS进行了对比.结果表明本文提出的强化学习算法在系统性能和学习速度上都有很大的提高,并能适用于动态环境.
其他文献
介绍一种使用三辊Y型轧机冷轧双金属管时,孔型系统设计计算的方法.本孔型系统采用圆—圆—圆—圆,具有四道次孔型系统的连轧机轧制外管直径为φ50mm,厚度为3mm,内管直径φ43mm,厚度为2mm的双金属管材.这对选择合理的双金属管连轧系统孔型参数具有重要意义.
爆炸轧制法是先通过爆炸复合制坯,再进行轧制生产复合板的一种方法.本文研究了爆炸轧制法生产的钛/钢复合板的界面金相、结合界面的元素分布情况以及退火温度对界面结合强度的影响等问题,结果表明:爆炸轧制法生产的钛/钢复合板的界面呈平直状,在界面钢侧有一脱碳层;界面钢层上的Ti元素含量只有在一定范围内时才能得到较高的结合强度的复合板;退火温度对界面的结合强度影响较大,而保温时间影响不明显.
介绍了一种新型完全冶金结合双金属复合管,并对其制备工艺进行了阐述.采用该制备工艺进行了现场生产试验,并对制得的新型复合管进行了性能检验,结果表明,具有优良的综合性能.新工艺缩短了工艺流程,有效降低了生产成本,提高了成材率,为冶金结合双金属管的生产提供了一种全新的方法.
介绍了套筒类双金属管的生产工艺与应用领域,提出建立套筒类双金属管的专用生产线,提高技术水平和生产效率,降低金属消耗和生产成本.从而推动机械行业的技术进步,促进绿色制造目标的实现.
粒子群优化算法PSO已经成功地应用于解决寻优问题.标准的粒子群算法以及惯性权值线性递减粒子群算法等存在着收敛慢、容易陷入局部最优的缺陷.针对粒子群优化算法的这两个显著缺陷提出了一种新型的自适应粒子群优化算法,使用基于粒子适应度的惯性权值函数自适应调节每个粒子的惯性权值,使得粒子速度更新更有层次,更新速度更均匀。实验结果表明该算法有着较快的收敛速度以及较好的发现全局最优的能力,印证了自适应调整惯性权
本文主要分析了GL Studio模型向Vega Prime场景移植的原理及常见的实现方法,提出了基于数据库技术驱动GLStudio模型的方法,在实际项目开发中取得了良好的效果,具有较好的通用性.
为了研究“人在回路”式导弹远程控制问题,开展了远程操控仿真研究.本文进行了相应的系统结构设计和模块设计,重点研究了飞行控制仿真、雷达图像实时生成技术等核心技术问题,并在实践中运用成熟的“Creator+Vega+VC”视景仿真方法加以实现,具有一定的实践意义.
多星测控调度是一个复杂的NP-hard问题,对其模型的研究一直是求解的关键和难点。本文对多星测控调度的特点进行了描述,分析了其约束条件和优化目标,综合考虑了任务支持度、设备均衡性和任务集中性等优化目标,建立了该问题的多目标优化模型.最后,将模型应用于一个6站10星测控调度问题,进行了调度仿真,并与单目标优化模型进行了比较分析.仿真表明,该模型是适用的.
通过对HLA中RTI的定义和DirectX中DirectPlay提供的网络通信管理功能的介绍,论述了一种基于DirectPlay的RTI的设计与实现过程.通过RTI的实现,封装了DirectPlay的COM接口,实现了类对象间的属性,参数传递,简化了分布式系统设计的复杂性,同时利用DirectPlay提供的灵活可靠的网络通信管理以及与Windows平台的无缝连接,简化了RTI设计过程的难度,提高了
阐述了继电保护措施的应用在未来舰船综合电力系统中的必然性和重要性。归纳总结出设计保护方案时必须考虑的舰船电网特点.分析短路时应该注意的发电机和电动机所供的短路电流.利用PSCAD/EMTDC软件对舰船所用的传统保护措施进行了仿真,分析了基于该软件建立舰船干馈式交流电网模型和保护方案应该遵循的一般原则和要求.观察短路故障状态下开关的动作情况和电压电流波形,得到良好结果.为利用仿真软件来观察舰船电网短