论文部分内容阅读
针对复杂连续系统设计有效的在线再励学习系统跨越从再励学习理论到实际应用的鸿沟,这是该论文所要研究的中心问题.围绕这一中心,论文按如下的线索对相关的理和技术问题作了全面的研究:离散马尔可夫过程下的快速再励学习算法-具有连续状态空间的再励学习问题-先验知识的利用.作为复杂连续系统的实例,论文主要以移动机器人的导航问题为研究平台对所提出的算法和有关方法进行了仿真实验.