论文部分内容阅读
本文在期望折扣总报酬准则和期望折扣总费用准则下首次研究连续时间马尔可夫决策过程(简记为MDP)单调最优策略的存在性问题,给出使得最优策略关于系统状态单调(不减或不增)的充分条件.在介绍相关背景及预备知识之后,本文首先给出可加函数的定义以及一些与取到其极值点的单调性问题相关的主要性质;然后在上述两种不同的折扣准则下,分别就转移速率q(j|i,a)有界与无界两种情形,探讨单调最优(平稳)策略的存在性.具体说来,先给出使得从决策模型的原始数据出发递归地定义的一组函数序列和该序列的极限函数关于系统状态单调的条件,再给出进一步条件保证在文献Guo&Hernández-Lerma(Springer-Verlag,New York,2009)的基础上构造的最优平稳策略关于系统状态是单调不减(或单调不增)的.此外,给出了两个例子以进一步阐明本文得到的单调最优策略存在的结果和条件,还得到一些有趣的新结果.最后,本文介绍了两个与连续时间MDP单调最优策略有关的两个有待研究的问题.