论文部分内容阅读
非线性系统的最优控制问题一直以来都是控制理论和工程应用中的热点研究领域.人们在寻求解决这类问题方法的过程中,逐步建立起变分法、最大值原理和动态规划等理论.这些理论通常需要非线性系统满足一定的特性,比如具有确定的数学模型和清晰的系统结构等.然而,随着控制对象的多样化、状态空间的复杂化、以及动态系统的不确定性,这些理论逐渐难以适用于现代智能控制理论的研究.同时,这些理论本身也存在一些缺陷,比如变分法难以解决控制存在约束的问题;最大值原理只能得到最优控制的必要条件,不能解决一般化非线性系统的最优控制问题;动态规划在求解最优控制过程中,容易出现“维数灾”现象. 为了克服这些理论在求解最优控制问题中的不足,基于动态规划思想的强化学习理论得以建立,并逐步发展成为现代智能控制理论的重要组成部分.强化学习是研究智能系统较为新颖有效的方法,具备广阔的应用前景.故而,它获得了诸多科研人员和工程人员的深切关注.目前,它的理论体系尚待进一步深化和完善.利用强化学习研究非线性系统最优控制的过程中,还存在许多亟待解决的问题.因此,本文基于强化学习方法,进一步研究非线性系统的最优控制问题,建立针对不同动态系统的强化学习算法结构,拓展并尝试完善强化学习的理论体系. 本文的主要工作和贡献体现在以下五个方面: 1.在强化学习方法的基础上,提出了一种新的执行-评价算法结构,用于研究一类多输入多输出未知非仿射非线性离散系统的跟踪控制问题.区别于传统研究未知系统采用辨识器的方法,本文所提出的方法不需要对系统进行辨识.同时,该方法综合利用反馈线性化和强化学习理论,实现了对未知非仿射离散系统的在线控制.首先,借助隐函数定理,构建一个控制器用于抵消未知系统的非线性部分.然后,在设计执行-评价结构时,将该控制器设计为执行网络的输出.与此同时,引入一个效用函数用于评价系统的跟踪效果,并将累积效用作为评价网络的输出.最后,利用Lyapunov理论证明了系统的跟踪误差以及神经网络权值的一致最终有界性,而且通过参数调节可使系统的跟踪误差收敛到零的充分小邻域内. 2.利用强化学习方法,研究了一类具有控制约束的未知非线性连续系统的近似最优控制问题.该非线性系统的结构具有不确定性,即既可以是仿射非线性系统,也可以是非仿射非线性系统.首先,利用递归神经网络对未知系统进行辨识,将其转化为具有鲁棒项的仿射非线性系统.接着,引入非二次形式的代价函数将控制约束问题转化为非控制约束问题.然后,借助强化学习方法典型的执行-评价结构,进行最优控制器的设计.区别于传统执行-评价结构中网络权值交替更新的调整方式,该算法能实现执行网络权值与评价网络权值的同时更新.此外,鉴于系统辨识和最优控制器的设计是两个独立的过程,因而,该算法是一种离线的方法.最后,通过仿真实验,验证该方法能获得这类系统的近似最优控制,并可以有效地克服控制约束. 3.基于强化学习的结构,衍化出辨识-评价算法结构,研究了带有饱和执行器的部分未知仿射非线性连续系统最优控制问题.首先,利用多层前馈神经网络对未知系统进行辨识,获取该系统的动态信息.接着,引入非二次形式的代价函数处理控制约束问题.然后,仅依赖评价网络实现最优控制器的设计.在动态系统信息已知的情况下,与传统强化学习中的执行-评价结构相比,该算法只需要评价网络用于控制器的设计,从而简化了算法结构.同时,该算法放宽了初始控制的条件,即不需要初始控制是容许控制这一苛刻条件.此外,该算法中的系统辨识与最优控制器的设计是同时进行的,即该算法是一种在线的方法.最后,通过仿真实例证明,该方法能实现系统的在线控制并能较好地解决这类执行器存在饱和的优化问题. 4.利用强化学习和经验回放方法,研究了系统内部信息未知的仿射非线性连续系统最优控制问题.首先,引进神经网络状态观测器,获取动态系统的内部信息.接着,利用评价网络进行最优控制器的设计.在设计控制器的过程中,记录历史数据并将其用于调节评价网络的权值.与传统的强化学习结构相比,一方面,该算法不需要初始容许控制;另一方面,该算法不需要为了使神经网络权值参数收敛而加入持续激励信号.同时,由于历史数据得到充分的利用,故而该算法具有更快的收敛速度.此外,神经网络观测器的权值调整与最优控制器的设计是同时进行的,因而,该算法是一种在线控制方法.最后,借助仿真实验,证明该方法能实现系统的在线控制并能较快地获取近似最优控制. 5.基于强化学习方法,研究了代价函数含有折扣因子的部分未知仿射非线性系统的最优控制问题.首先,将传统的HJB方程转化为积分形式的GHJB方程并给出带积分项的策略迭代形式.接着,证明每一次迭代产生的策略都能保持闭环系统的稳定,并且得到对应的代价函数呈单调递减序列.然后,证明了代价函数序列和控制序列分别一致收敛到最优代价函数和最优控制.最后,通过仿真实验,证明了折扣因子对最优代价函数和神经网络权值参数收敛速度的影响.