论文部分内容阅读
在控制理论研究和控制工程实践中,非线性系统的最优控制都是一个重要的主题.为了克服动态规划方法在求解此类问题中的不足,结合强化学习思想的自适应动态规划(Adaptive Dynamic Programming,ADP)方法逐渐成为控制科学特别是智能控制领域的研究热点之一.作为构建具有人脑智能行为的智能系统的重要方法,ADP有着广泛的应用前景.但是,它的方法体系还没有得到完善,利用ADP方法研究非线性系统最优控制的许多理论与技术问题还有待解决.为此,在国家自然科学基金重点项目“基于数据的非线性控制系统分析与设计(61034002)”等的资助下,本项课题基于ADP方法进一步研究非线性离散系统的最优控制问题,提出适合不同情形的迭代ADP算法,逐步扩展ADP方法的使用范围.本文的主要工作和贡献体现在以下四个方面.
1.研究ADP方法的高级实现结构并用于求解未知非线性离散系统的最优控制问题.由于许多实际系统难以建立精确的数学模型,而且现有的实现结构不能同时达到计算误差小和直接输出代价函数的目标,本文首次提出采用全局二次启发式规划(Globalized Dual Heuristic Programming,GDHP)技术的迭代ADP算法并给出改进的收敛性证明方法,以此求解具有未知动态非线性系统的最优控制问题.此外,为了简化ADP方法的实现结构,本文同时研究只需要构造模型网络和评判网络的迭代ADP算法.仿真结果表明,这里提出的控制方案不仅能够成功地解决未知非线性系统的最优控制问题,而且可以获得令人满意的控制效果.
2.提出有限时间迭代ADP算法并求解非线性离散系统的有限时间最优跟踪控制问题.首先通过系统变换将跟踪控制问题转化为误差系统的调节器设计问题,然后引入有限时问迭代ADP算法并给出收敛性分析,由此得到的反馈控制能够保证代价函数在ε误差界内接近其最优值.最后分别采用启发式动态规划和二次启发式规划技术来实现算法,并通过仿真实例验证所提方法的可行性.
3.基于迭代GDHP算法设计具有控制约束非线性离散系统的最优控制策略.首先引入非二次型形式的代价函数来处理控制约束,然后基于迭代ADP算法设计最优反馈控制并进行相应的收敛性分析.在具体的算法实现过程中,分别构建模型网络、评判网络和执行网络以近似被控系统、代价函数及其偏导数和控制律.仿真结果显示本文提出的方法能够有效地克服控制约束现象.
4.利用迭代ADP算法研究具有未知动态非仿射非线性离散系统的最优控制.提出针对非仿射非线性情形的迭代ADP算法,将相关结论推广至实际中广泛存在的一般非线性系统,进而研究具有控制约束未知非仿射非线性离散系统的最优控制,并通过仿真实例验证迭代GDHP算法在求解此类问题中的优越性.