Q学习算法中网格离散化方法的收敛性分析

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:shangxiao15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法,要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间,在本文中,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Q学习算法求得的最优解依概率1收敛于原连续问题的最优解。
其他文献
提出用遗传算法来优化控制参数的P-F-PI(比例-模糊-比例积分)控制器,控制机器人手臂定位系统。P-F-PI控制器是在大偏差时用比例控制,在中偏差时用F控制,接近稳态时用PI控制,而这三个控制器的切换参数
人力资源是一种可以不断开发并不断增值的增量资源,商业银行应该做到人才整体素质超前于其事业发展,形成有效的人才拉动机制,以人才的创新开发能力促进自身发展。当前商业银
摘 要:市场经济条件下,医疗市场的竞争越来越激烈,尤其是民营医院的兴起和发展,与公立医院展开了激烈的竞争,其中争夺优秀医护人员是竞争的一个重要表现,要想争夺和留住优秀的医疗人才,医院必须重视和加强人力资源管理,构建起更加科学、完善的人力资源管理制度。文章根据现有的研究资料,结合在医院人力资源管理工作中的经验,分析了新时期医院加强人力资源管理工作的重要性,指出这是时代发展的必然要求,也有利于提高工作
作者报告了首先采用B超引导下用无水酒精行癌周边封锁和中心连续缓慢滴注渗透法治疗早、中、晚期肝癌26例,结果①癌体变坚硬穿阻大18例,酒精难以注入14例;②癌缩小12例,轮廓
期刊
针对智能交通系统(TTS)基础上中主要基础理论之一的动态交通分配问题,在现有研究成果的基础上,提出了更接近真实路网的多起点多旋点交叉口设置有交通信号控制(Traffic Signal Control)时的动态配流模型,给