基于最小最大逼近强化学习的误差分析

来源 :控制与决策 | 被引量 : 0次 | 上传用户：lovepc

【摘要】

：

在基于动态规划的强化学习中，利用状态集结方法可以减小状态空间的大小，从而在一定程度上克服了维数灾的困难，同时还可以加快学习速度。但状态集结是一种逼近方法，由此产生的问题

【作者】

：

吴沧浦刘念泉

【出处】

：

控制与决策

【发表日期】

：

2000年2期

【关键词】

：

强化学习动态规划函数逼近误差分析优化控制 reinforcement learning Markov decision problem dynami

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在基于动态规划的强化学习中，利用状态集结方法可以减小状态空间的大小，从而在一定程度上克服了维数灾的困难，同时还可以加快学习速度。但状态集结是一种逼近方法，由此产生的问题是，状态集结后的Ｑ－ｈａｔ强化学习收敛所得的最优Ｑ值函数与集结前相应的最优Ｑ值函数会有多大的误差。为此提出了基于最小最大逼近强化学习的误差估计。

其他文献

模糊元图：一种构造模糊知识库的新方法

在分析了现有模糊图论结构的基础上，对模糊超图和模糊有向图进行扩充，提出一种新的图论结构－模糊元图，并将其应用于飞行器邦联诊断中的模糊知识库构造，实际应用表明，基于模糊元图的

期刊

模糊知识库模糊元图故障诊断图论飞行器fuzzy knowledge base fuzzy rule fuzzy inference fault

巨块型肝癌的治疗方式及临床疗效与卫生经济学分析

目的分析两种不同治疗方式在巨块型肝癌中的临床疗效及卫生经济学指标。方法纳入2008.1—2015.1在本院住院的42例巨块型肝癌,按肝动脉栓塞化疗(TACE)术与立体定向γ刀放疗两

期刊

巨块型肝癌TACEγ刀放疗卫生经济学

利用模糊神经网络实现数值信息与语言信息的融合

提出一种数值信息与语言信息融合的实现方法,融合是通过一个模糊神经网络完成的.该方法可用于对既有语言型变量,又有数值型变量的系统建立模型.实现融合的关键是对语言变量定

期刊

模糊神经网络隶属函数数值信息语言信息信息融合信息处理fusion linguistic variable fuzzy neural networ

某军队医院住院患者医疗欠费原因分析

住院欠费是各医疗机构普遍存在的社会问题，欠费已影响到医院的建设和发展，也影响到医务人员的工作热情和医疗服务质量，应引起足够的重视。为此，对某军队医院自2000--2014年HIS系

期刊

军队医院住院患者医疗欠费military hospitals in patients medical treatment arrearage

只有社会主义能够救中国——略论1920－1921年建党之际“社会主义问题”的论战

“只有社会主义能够救中国”这是中国人民长期探索救国救民真理所得出的历史结论。近年来，一些坚持资产阶级自由化的人，打着“反思”的旗号，散布所谓“70年前中国人就‘不应该选

期刊

马克思主义中国人社会自由化历史道路

从“√2/2是不是分数”看实数的教学

上海市中考卷中曾有这样一题：“√2/2___分数（填‘是’或者‘不是’）．”其得分率仅为42％．这是一道与实数概念有关的试题，主要考查实数的体系与分类．然而这样一道简单的概念题为什么会

期刊

实数分数教学个别学生数概念得分率上海市概念题

卫勤分队参加中美两军人道主义救援联合实兵演练实践

对抽组卫勤分队赴美参加两军人道主义救援联合实兵演练进行总结，这是我国陆军首次成建制参加在美国本土举行的军事演练，也是建院64年来首次走出国门参与外军联演，使命光荣，责任重

期刊

中美联合演练实兵演练减灾救援人道主义救援joint exercises between China and USAreal maneuverreli

开环可重入生产系统的排队网络模型及求解算法

将开环可重入生产系统的模型化成非线性矩阵方程可解的形式 ,在此基础上研究系统在随机调度策略下的不可约性。对缓冲区半无限系统的稳态分布求解表明 ,非线性矩阵方程理论是

期刊

可重入生产系统排队网络模型求解算法半导体re-entrant lines non-linear matrix equations multiclas

参数不确定系统的鲁棒灵敏度设计

应用Schur补公式讨论了参数不确定系统的灵敏度问题,给出了灵敏度的设计方法.指出灵敏度设计不同于扰动抑制的设计,求解灵敏度应首先求解一个输出注入问题.最后用算例说明了

期刊

灵敏度线性矩阵不等式参数不确定系统鲁棒性sensitivityLMIpolytopic uncertaintyoutput injection

快乐的园地——七台河市欣源中学

期刊

基于最小最大逼近强化学习的误差分析

其他学术论文