Q学习算法中网格离散化方法的收敛性分析

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：shangxiao15

【摘要】

：

Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法，要用Ｑ学习算法来求解有连续状态和决策空间的随机最优控制问题，则需要先离散化问题的状态和决策空间，在本文

【作者】

：

蒋国飞高慧琪

【机构】

：

北京理工大学自动控制系,100081

【出处】

：

控制理论与应用

【发表日期】

：

1999年2期

【关键词】

：

Q学习算法网格离散化收敛性马尔可夫决策 QLearning dynamic programming Markovian decision proble

【基金项目】

：

国家自然科学基金资助项目 !( 6 96 740 0 5 )

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法，要用Ｑ学习算法来求解有连续状态和决策空间的随机最优控制问题，则需要先离散化问题的状态和决策空间，在本文中，我们证明了在满足一定的Ｌｉｐｓｃｈｉｔｚ连续性和有关集合为紧集的条件下，随着网格密度的增加，空间离散化后Ｑ学习算法求得的最优解依概率１收敛于原连续问题的最优解。

其他文献

基于遗传算法的P—F—PI控制器人手臂定位控制中的应用

提出用遗传算法来优化控制参数的Ｐ－Ｆ－ＰＩ（比例－模糊－比例积分）控制器，控制机器人手臂定位系统。Ｐ－Ｆ－ＰＩ控制器是在大偏差时用比例控制，在中偏差时用Ｆ控制，接近稳态时用ＰＩ控制，而这三个控制器的切换参数

期刊

P-F0PI控制器遗传算法机器人手臂定位控制P-F-PI controller genetic algorithm robot

对加强商业银行基层员工队伍建设的思考

人力资源是一种可以不断开发并不断增值的增量资源,商业银行应该做到人才整体素质超前于其事业发展,形成有效的人才拉动机制,以人才的创新开发能力促进自身发展。当前商业银

期刊

人力资源服务效能资源整合职业发展路径绩效考评留人机制

海浪预报知识讲座——第七讲海浪的地理分布与季节变化（Ⅲ）

期刊

灾害性海浪波高海浪预报地理分布季节变化

钩端螺旋体病肺出血型的X线诊断(附四例报告)

期刊

钩端螺旋体病X线诊断肺出血型钩体病肺结核诊断学支气管扩张弥漫性白细胞总数X线征象

风暴潮预报知识讲座第一讲风暴潮的定义、分类与某些统计事实

期刊

风暴潮预报大气扰动台风类型成因知识讲座

优维显过敏反应一例报告

期刊

过敏反应碘造影剂优维显不良反应物理化学反应特异质反应过敏试验非离子型武汉市病人的自觉症状

市场经济环境下加强医院人力资源管理的重要性与方法

摘要：市场经济条件下，医疗市场的竞争越来越激烈，尤其是民营医院的兴起和发展，与公立医院展开了激烈的竞争，其中争夺优秀医护人员是竞争的一个重要表现，要想争夺和留住优秀的医疗人才，医院必须重视和加强人力资源管理，构建起更加科学、完善的人力资源管理制度。文章根据现有的研究资料，结合在医院人力资源管理工作中的经验，分析了新时期医院加强人力资源管理工作的重要性，指出这是时代发展的必然要求，也有利于提高工作

期刊

市场经济医院人力资源管理重要性方法

超声引导下经皮肝穿刺注入无水酒精治疗肝癌的评价

作者报告了首先采用B超引导下用无水酒精行癌周边封锁和中心连续缓慢滴注渗透法治疗早、中、晚期肝癌26例,结果①癌体变坚硬穿阻大18例,酒精难以注入14例;②癌缩小12例,轮廓

期刊

B超肝癌

1311例CT增强扫描发生过敏反应的处理及护理分析

期刊

过敏反应CT增强扫描护理分析造影剂医学影像学地塞米松静脉推注碘过敏试验硫酸镁溶液湿敷过敏性休克

交叉口有交通信号控制时用户最优动态配流模型

针对智能交通系统（ＴＴＳ）基础上中主要基础理论之一的动态交通分配问题，在现有研究成果的基础上，提出了更接近真实路网的多起点多旋点交叉口设置有交通信号控制（ＴｒａｆｆｉｃＳｉｇｎａｌＣｏｎｔｒｏｌ）时的动态配流模型，给

期刊

智能交通系统动态配流交通信号控制交叉口intelligent transportation system dynamic traffic assign

Q学习算法中网格离散化方法的收敛性分析

其他学术论文