【摘 要】
:
针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;
【机 构】
:
深圳职业技术学院教育技术与信息中心,中南大学信息科学与工程学院,先进控制与智能自动化湖南省工程实验室
论文部分内容阅读
针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据先验知识和观察数据采用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的贝叶斯强化学习方法实现学习过程的快速收敛,从而达到在线学习的目的.仿真结果表明该算法能够满足实时系统性能的要求.
其他文献
可逆逻辑作为量子计算,纳米技术,低功耗设计等新兴技术的基础,近年来得到了越来越多的关注和研究.然而,大多数可逆逻辑综合方法对函数真值表表达形式的依赖使得综合电路规模
探讨了教师书面修正性反馈对学生英语写作的积极作用,提出了存在的问题以及如何给出及时、有效反馈的可行性建议。
建筑学专业学生的培养本身就是一项系统的工程,需要从多个方面努力。但是,就目前的情况来看,设计意识的培养尤为重要。
介绍了信阳市环境信访工作9年来的工作现状及特点,分析了环境信访问题形成的客观原因和主观原因,提出了优化当前信访工作的对策及建议。
主要从工程的进度和投资控制、工程的质量控制等方面探讨了高速公路路基填筑监理的注意事项,使监理工程师能够因地制宜采取有效工程技术措施,对填筑过程进行全面检查,严格把
计算机作为传递信息、反馈系统、传递数据的载体,其地位和作用在现实生活中也越来越明显。因此,如何在充满神奇与创新的计算机课上,激发学生的创新探索潜能,是摆在每一位教师