连续时间MDP折扣模型的单调最优策略

来源 :中山大学 | 被引量 : 0次 | 上传用户：ahanyin

【摘要】

：

本文在期望折扣总报酬准则和期望折扣总费用准则下首次研究连续时间马尔可夫决策过程(简记为MDP)单调最优策略的存在性问题，给出使得最优策略关于系统状态单调(不减或不增)的

【作者】

：

廖恭图

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2010年期

【关键词】

：

MDP折扣模型单调最优策略最优策略可加函数充分条件

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文在期望折扣总报酬准则和期望折扣总费用准则下首次研究连续时间马尔可夫决策过程(简记为MDP)单调最优策略的存在性问题，给出使得最优策略关于系统状态单调(不减或不增)的充分条件.在介绍相关背景及预备知识之后，本文首先给出可加函数的定义以及一些与取到其极值点的单调性问题相关的主要性质；然后在上述两种不同的折扣准则下，分别就转移速率q(j|i，a)有界与无界两种情形，探讨单调最优(平稳)策略的存在性.具体说来，先给出使得从决策模型的原始数据出发递归地定义的一组函数序列和该序列的极限函数关于系统状态单调的条件，再给出进一步条件保证在文献Guo&Hernández-Lerma(Springer-Verlag，New York，2009)的基础上构造的最优平稳策略关于系统状态是单调不减(或单调不增)的.此外，给出了两个例子以进一步阐明本文得到的单调最优策略存在的结果和条件，还得到一些有趣的新结果.最后，本文介绍了两个与连续时间MDP单调最优策略有关的两个有待研究的问题.

其他文献

关于算子加权有界性的几个结果

奇异积分算子理论不仅在调和分析中是一个十分活跃的领域，而且在微分方程中也得到越来越多的应用．文中首先介绍了Ap权函数的基础知识和理论，并在此基础上对加权有界性问题做了进

学位

奇异积分算子交换子权函数有界性理论函数分解理论

综合害虫控制策略研究

本文试图在尽可能反映现实的情况下分别用三种不同的动力系统：常微分方程,脉冲微分方程以及时滞泛函微分方程来研究食饵具有流行病的带Holling Ⅱ型功能性反应的食饵-捕食模型

学位

食饵-捕食模型害虫控制全局渐近稳定性持续生存

时滞差分系统解的长时间状态

差分方程已成为数学研究特别是动力系统中的一个重要分支,具有重要的理论意义和应用价值.近年来,随着电子计算机的迅速发展,差分方程系统理论不但在数值分析及特殊函数论等领

学位

时滞差分系统解离散神经网络长时间状态差分方程

浅析纯电动客车躁声源及识别方法

介绍了纯电动客车噪声源及其识别方法,重点分析纯电动客车与内燃机客车的噪声源差异,阐述纯电动客车躁声形成机理,为纯电动客车噪声优化研发工作提供参考.

期刊

自媒体时代互联网引领警务发展的思考

随着互联网技术的不断发展,随之而来的论坛、贴吧、微信、微博的使用使社会进入自媒体时代。自媒体时代下加强网络警察队伍建设是社会发展的必然要求。本文从自媒体发展的现

期刊

媒体时代自媒体网络警察工作水平社会舆论环境个人传播媒介素养拟态环境传播特点移动媒体

模相关时滞离散奇异马尔可夫跳跃系统的H<,∞>滤波器设计

本文研究了一类时滞为模相关,含有不确定参数的离散奇异马尔可夫跳跃系统的H∞滤波器设计问题。　　考虑如下形式的离散奇异马尔可夫跳跃系统:Ex(k+1)=A～(rk)x(k)+～Ad(rk)x(k

学位

首届“双新双创”博览会开幕吉林展团精彩纷呈

11月9日,由农业部和江苏省人民政府主办的首届全国新技术新农民创业创新博览会在苏州国际博览中心隆重开幕。博览会上,集中推出一批“互联网+”现代农业新技术、新模式、新业

期刊

双新专业展区现代农业创新典型占地面积人民政府平方米副主任高广居第

半群，环与对应的零因子图

零因子图的相关研究是近年来一个相当热门的课题.它主要涉及了图论和代数两个方面的知识.研究主要有两种方向,其一是通过对零因子图结构的分析来讨论相关半群或者环的代数结

学位

易变质产品的生产批量和定价问题的研究

生产批量和定价决策问题是公司在面临不确定的市场需求和激烈的市场竞争时，获得最大利益的综合决策问题.随着经济的快速发展，资源和环境问题越来越突出，单纯地追求利益的最大化

学位

易变质产品生产批量定价决策闭环供应链均值一标准差模型

多复变数双全纯映射几类子族在某方向上的偏差定理

本文在多复变数的背景下,以双全纯映射子族为研究对象,从新角度用一种新的方法给出了它们的偏差定理,从而进一步完善了多复变数几何函数理论。全文共五章。　　本文的第一

学位

多复变数函数双全纯映射子族偏差定理

连续时间MDP折扣模型的单调最优策略

其他学术论文