连续时间MDP折扣模型的单调最优策略

来源 :中山大学 | 被引量 : 0次 | 上传用户:ahanyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在期望折扣总报酬准则和期望折扣总费用准则下首次研究连续时间马尔可夫决策过程(简记为MDP)单调最优策略的存在性问题,给出使得最优策略关于系统状态单调(不减或不增)的充分条件.在介绍相关背景及预备知识之后,本文首先给出可加函数的定义以及一些与取到其极值点的单调性问题相关的主要性质;然后在上述两种不同的折扣准则下,分别就转移速率q(j|i,a)有界与无界两种情形,探讨单调最优(平稳)策略的存在性.具体说来,先给出使得从决策模型的原始数据出发递归地定义的一组函数序列和该序列的极限函数关于系统状态单调的条件,再给出进一步条件保证在文献Guo&Hernández-Lerma(Springer-Verlag,New York,2009)的基础上构造的最优平稳策略关于系统状态是单调不减(或单调不增)的.此外,给出了两个例子以进一步阐明本文得到的单调最优策略存在的结果和条件,还得到一些有趣的新结果.最后,本文介绍了两个与连续时间MDP单调最优策略有关的两个有待研究的问题.
其他文献
奇异积分算子理论不仅在调和分析中是一个十分活跃的领域,而且在微分方程中也得到越来越多的应用.文中首先介绍了Ap权函数的基础知识和理论,并在此基础上对加权有界性问题做了进
本文试图在尽可能反映现实的情况下分别用三种不同的动力系统:常微分方程,脉冲微分方程以及时滞泛函微分方程来研究食饵具有流行病的带Holling Ⅱ型功能性反应的食饵-捕食模型
差分方程已成为数学研究特别是动力系统中的一个重要分支,具有重要的理论意义和应用价值.近年来,随着电子计算机的迅速发展,差分方程系统理论不但在数值分析及特殊函数论等领
随着互联网技术的不断发展,随之而来的论坛、贴吧、微信、微博的使用使社会进入自媒体时代。自媒体时代下加强网络警察队伍建设是社会发展的必然要求。本文从自媒体发展的现
本文研究了一类时滞为模相关,含有不确定参数的离散奇异马尔可夫跳跃系统的H∞滤波器设计问题。   考虑如下形式的离散奇异马尔可夫跳跃系统:Ex(k+1)=A~(rk)x(k)+~Ad(rk)x(k
学位
零因子图的相关研究是近年来一个相当热门的课题.它主要涉及了图论和代数两个方面的知识.研究主要有两种方向,其一是通过对零因子图结构的分析来讨论相关半群或者环的代数结
学位
生产批量和定价决策问题是公司在面临不确定的市场需求和激烈的市场竞争时,获得最大利益的综合决策问题.随着经济的快速发展,资源和环境问题越来越突出,单纯地追求利益的最大化