论文部分内容阅读
针对离散状态连续时间下的劣化系统检测与维修问题,本文建立了半马尔科夫决策过程(Semi-Markov Decision Process,SMDP)模型。由于状态的转移概率难以求解,以及为了避免结果陷入局部最优值,本文使用Q学习与模拟退火(Simulated Annealing,SA)相结合的算法对该问题进行求解,得到系统最佳的维修策略。最后通过仿真分别得出平均和折扣准则下的优化结果,表明了方法的可行性。另外还通过仿真数据讨论了检测间隔的设定对最优平均代价的影响,其结果与实际情况相符合。