基于强化学习的非线性系统自适应优化控制研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:guobinlei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非线性系统的最优控制问题一直以来都是控制理论和工程应用中的热点研究领域.人们在寻求解决这类问题方法的过程中,逐步建立起变分法、最大值原理和动态规划等理论.这些理论通常需要非线性系统满足一定的特性,比如具有确定的数学模型和清晰的系统结构等.然而,随着控制对象的多样化、状态空间的复杂化、以及动态系统的不确定性,这些理论逐渐难以适用于现代智能控制理论的研究.同时,这些理论本身也存在一些缺陷,比如变分法难以解决控制存在约束的问题;最大值原理只能得到最优控制的必要条件,不能解决一般化非线性系统的最优控制问题;动态规划在求解最优控制过程中,容易出现“维数灾”现象.  为了克服这些理论在求解最优控制问题中的不足,基于动态规划思想的强化学习理论得以建立,并逐步发展成为现代智能控制理论的重要组成部分.强化学习是研究智能系统较为新颖有效的方法,具备广阔的应用前景.故而,它获得了诸多科研人员和工程人员的深切关注.目前,它的理论体系尚待进一步深化和完善.利用强化学习研究非线性系统最优控制的过程中,还存在许多亟待解决的问题.因此,本文基于强化学习方法,进一步研究非线性系统的最优控制问题,建立针对不同动态系统的强化学习算法结构,拓展并尝试完善强化学习的理论体系.  本文的主要工作和贡献体现在以下五个方面:  1.在强化学习方法的基础上,提出了一种新的执行-评价算法结构,用于研究一类多输入多输出未知非仿射非线性离散系统的跟踪控制问题.区别于传统研究未知系统采用辨识器的方法,本文所提出的方法不需要对系统进行辨识.同时,该方法综合利用反馈线性化和强化学习理论,实现了对未知非仿射离散系统的在线控制.首先,借助隐函数定理,构建一个控制器用于抵消未知系统的非线性部分.然后,在设计执行-评价结构时,将该控制器设计为执行网络的输出.与此同时,引入一个效用函数用于评价系统的跟踪效果,并将累积效用作为评价网络的输出.最后,利用Lyapunov理论证明了系统的跟踪误差以及神经网络权值的一致最终有界性,而且通过参数调节可使系统的跟踪误差收敛到零的充分小邻域内.  2.利用强化学习方法,研究了一类具有控制约束的未知非线性连续系统的近似最优控制问题.该非线性系统的结构具有不确定性,即既可以是仿射非线性系统,也可以是非仿射非线性系统.首先,利用递归神经网络对未知系统进行辨识,将其转化为具有鲁棒项的仿射非线性系统.接着,引入非二次形式的代价函数将控制约束问题转化为非控制约束问题.然后,借助强化学习方法典型的执行-评价结构,进行最优控制器的设计.区别于传统执行-评价结构中网络权值交替更新的调整方式,该算法能实现执行网络权值与评价网络权值的同时更新.此外,鉴于系统辨识和最优控制器的设计是两个独立的过程,因而,该算法是一种离线的方法.最后,通过仿真实验,验证该方法能获得这类系统的近似最优控制,并可以有效地克服控制约束.  3.基于强化学习的结构,衍化出辨识-评价算法结构,研究了带有饱和执行器的部分未知仿射非线性连续系统最优控制问题.首先,利用多层前馈神经网络对未知系统进行辨识,获取该系统的动态信息.接着,引入非二次形式的代价函数处理控制约束问题.然后,仅依赖评价网络实现最优控制器的设计.在动态系统信息已知的情况下,与传统强化学习中的执行-评价结构相比,该算法只需要评价网络用于控制器的设计,从而简化了算法结构.同时,该算法放宽了初始控制的条件,即不需要初始控制是容许控制这一苛刻条件.此外,该算法中的系统辨识与最优控制器的设计是同时进行的,即该算法是一种在线的方法.最后,通过仿真实例证明,该方法能实现系统的在线控制并能较好地解决这类执行器存在饱和的优化问题.  4.利用强化学习和经验回放方法,研究了系统内部信息未知的仿射非线性连续系统最优控制问题.首先,引进神经网络状态观测器,获取动态系统的内部信息.接着,利用评价网络进行最优控制器的设计.在设计控制器的过程中,记录历史数据并将其用于调节评价网络的权值.与传统的强化学习结构相比,一方面,该算法不需要初始容许控制;另一方面,该算法不需要为了使神经网络权值参数收敛而加入持续激励信号.同时,由于历史数据得到充分的利用,故而该算法具有更快的收敛速度.此外,神经网络观测器的权值调整与最优控制器的设计是同时进行的,因而,该算法是一种在线控制方法.最后,借助仿真实验,证明该方法能实现系统的在线控制并能较快地获取近似最优控制.  5.基于强化学习方法,研究了代价函数含有折扣因子的部分未知仿射非线性系统的最优控制问题.首先,将传统的HJB方程转化为积分形式的GHJB方程并给出带积分项的策略迭代形式.接着,证明每一次迭代产生的策略都能保持闭环系统的稳定,并且得到对应的代价函数呈单调递减序列.然后,证明了代价函数序列和控制序列分别一致收敛到最优代价函数和最优控制.最后,通过仿真实验,证明了折扣因子对最优代价函数和神经网络权值参数收敛速度的影响.  
其他文献
该文深入分析了目前中国矿井监测系统的特点,并结合当今现场总线的最新技术,提出了将现场总线标准中的CAN用于矿井监测系统中,实现一种既能多主网络运行,又经济实用的矿井监
图像去模糊问题是一个典型的反问题。受制于反问题的内在约束,在其庞大的解空间中寻找真解或者符合视觉习惯的解都非常困难。再加上观测过程中引入的噪声,更是制约解的质量。 
该论文在前一部分中对小小分析理论在;图像编码领域的应用进行了研究.在对图像渐进编码的应用进行阐述后,一种基于小波域的编码方案在论文的后一部分被提出并实现.具体的软件
目前,由中风和脊髓损伤等原因造成的下肢瘫痪患者数量巨大,受到广泛关注。由于瘫痪患者出现下肢功能障碍的本质原因是中枢神经系统存在损伤,因此,下肢康复训练的根本目标在于激发
关系数据库已经成为一个广为按受的数据库模式.而为了保证数据库设计的质量,数据库的规范设计是有必要的.该论文结合天津机线资源管理系统中的电缆、支撑系统以及MDF系统对关
在当前的日常生活中,食品安全问题越来越受到国民的关注。在密封食品的包装过程中,由于漏封、压穿或材料本身存在的裂缝的问题总会形成内外连通的小孔,这都会对包装内容物产生不
该文从分析神经网络特性、学习算法开始,探讨和研究神经网络进行过程模拟和过程控制的新途径,建立智能过程模拟与智能控制系统.该文成功地利用了文中提出的带反馈子层的回归
可视化过程监测和故障诊断能够极大地帮助监测人员快速了解系统的当前状态。相比于一般的统计量监测方法,采用可视化的方式更适合实际的工业系统。自组织神经网络(Self-Organiz
随着社会老龄化问题的日益严峻,各类残疾人和长期卧床病人大量存在并持续增长,使医疗和护理工作面临前所未有的压力,助老助残问题正日益成为一个重大的社会问题。基于床椅一体化
特定目标检测在机器人自主导航、无人机侦察等方面具有重要的意义。受到客观条件的限制,很多情况下难以获得各种姿态下的基准图像,而且基准图像与实时图像在成像时间、天气状况