基于深度强化学习的非线性系统自适应优化控制

来源 :安徽大学 | 被引量 : 0次 | 上传用户：qq271232312

【摘要】

：

【作者】

：

王成龙

【出处】

：

安徽大学

【发表日期】

：

2020年07期

【关键词】

：

深度学习强化学习自适应非线性系统优化控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文基于深度强化学习技术,研究了一类连续时间非线性系统的自适应优化控制问题。对于复杂或模型未知的非线性系统来说,由于系统模型的复杂性和未知性,很难从模型的角度出发去设计优化控制算法。考虑到强化学习的决策能力与深度学习的环境感知能力,本文提出了三种在线求解连续时间非线性系统的自适应优化控制器算法。本文提出的深度强化学习算法最大的优点是将深度学习与强化学习相结合。本文的主要工作和贡献具体如下:首先,针对一类具有输入时滞的模型部分未知的连续时间非线性系统,研究了一种新的在线自适应优化控制器设计方案。利用线性微分包含技术对原系统进行线性化处理,通过在线策略迭代算法得到了线性化系统的自适应优化控制器,并证明了所设计的自适应优化控制算法的收敛性。最后,通过两个仿真实例验证了该方法的有效性。然后,研究了一类模型未知连续时间非线性系统的自适应优化控制器设计问题。结合Q-学习算法和生成式对抗网络方案,成功地设计了一种新的连续时间模型未知非线性系统的自适应优化控制算法。采用最新的生成式对抗网络训练策略来稳定系统,并证明了所设计的自适应优化控制算法的收敛性。最后,通过仿真实例验证了该方法的有效性,并通过与传统的角色-批评家算法的比较说明了该算法的优越性。接着,考虑到在大多数复杂的工业系统的优化控制过程中,确定一个精确的代价函数是非常困难的。针对这一问题,提出了一种基于代价预测的深度元强化学习算法来求解优化控制器。采用最新的编解码器结构来构建代价函数网络,并结合元学习算法和强化学习方案成功地设计了一种可以适应不同实际任务环境下的优化控制设计方法。最后,通过仿真实例验证了该方法的有效性和优越性。最后,给出了概括总结和前景展望,并指出了研究中有待进一步解决和完善的问题。

其他文献

贝尔凹陷苏德尔特潜山油气成藏条件及模式研究

苏德尔特地区潜山是其油气的主要产层,由于其埋深相对较深,又是风化壳储层,探井较少,对其油气成藏条件和成藏模式认识不深入,严重影响了油气勘探的深入,因此,开展苏德尔特地区潜山油气成藏条件及成藏模式的研究,对正确认识其油气分布规律和指导油气勘探均具有重要意义。本论文在区域构造和地层研究的基础上,利用钻井、测井和地震资料,从源岩供油条件,储集条件和遮挡条件三个方面进行了苏德尔特地区潜山油气成藏条件研究,

学位

贝尔凹陷苏德尔特地区潜山油气成藏条件油气成藏模式

针对成人教育特点搞好情报资料工作

我院是在原河北省干部学校、河北建设学院的基础上建立起来的。中老年教师多来自其他工作岗位，青年教师则是新分配的大学毕业生。学员都是在职干部，有压力，有能力，也有强烈的求知

期刊

情报资料工作教育特点中老年教师成人大学毕业生干部学校工作岗位青年教师

关于联营企业归还技措贷款的会计处理

<正> 问:国内联营企业归还技措性贷款,在会计上应如何处理?咎:按照财政部印发的《关于国内联营企业若干财务问题的规定》,联营企业进行技术改造,可按规定向银行申请技措贷款

期刊

联营企业投资单位财务问题企业联营国营工业应作利润分配专用借款借记贷记

现代测绘技术在油气田生产与管理中的应用

空间性是石油信息的重要特性。随着遥感（Remote Sensing，RS）、地理信息系统（Geographic Information System，GIS）、全球定位系统（Global Position System，GPS）技术的成熟与发展，现代测

期刊

现代测绘技术GISGPSRS油气田Modern surveying and mapping Technology GIS GPS RS Oil

亚洲大众传播媒介研究与情报中心简介

亚洲大众传播媒介研究与情报中心是由新加坡政府和联邦德国的埃伯特基金会联合的地区性组织，创立于1975年2月。该中心在印度、巴基斯坦、孟加拉国、斯里兰卡和尼泊尔、印度尼

期刊

情报中心媒介研究大众传播亚洲印度尼西亚简介地区性组织新加坡政府

从脾胃气机升降论治肺系疾病

"脾生气,肺主气",气的运动变化尤其脾胃、肺的气机升降是水液、血液及其整个机体新陈代谢活动正常进行的首要的基础环节。宋康教授治疗肺系疾病首以通调顺畅气机、尤其脾胃气

会议

气机升降脾胃肺系疾病治疗应用

系统化协调化集约化——对图书情报一体化的浅见

我认为社科图书情报一体化的体制，是社科图书情报工作系统化、协调化、集约化的需要和保证。

期刊

图书情报一体化系统化协调化集约化图书情报工作社科

吃茶叶蛋会伤胃

茶和鸡蛋单独吃都是不错的营养品，但是如果把茶叶和鸡蛋一起煮，两者的营养会相互抵抗，因为茶叶中含有生物酸碱成分，在烧煮时会渗透到鸡蛋里，与鸡蛋中的铁元素结合，而这种结合体，对胃

期刊

茶叶胃部消化吸收营养物质营养品鸡蛋铁元素刺激性

高职教育典型工作任务教学模式初探——园林园艺专业《设计初步》就业导向性课程改革分析与实施细则

为了大化实现高职高专相关专业人才培养目标,该文通过对本专业典型工作任务的分析与描述,结合＂工学一体化＂理论,制定具有定就业导向性的课程设置细则。

期刊

高职高专园林园艺工学一体典型工作任务就业导向性实训课程教学改革

特征数据模型在《南极赛博地图集》数据描述中的应用

地理特征是地球空间上客观存在、具有描述信息的地理实体。特征数据模型倾向于对地理实体的概念描述,它从几何分布、专题要素与时态变化三个方面来描述地理特征,能够实现语义层次上的数据共享。这对于以数据共享和地图制图为主要目的的《南极赛博地图集》来说,能够很好地对南极数据进行抽象和概括。因此,本文就如何利用特征数据模型对地图集中的南极数据进行描述作了阐述。

期刊

地理特征特征数据模型南极赛博地图集geographic feature feature-based data model the Cybercartogr

基于深度强化学习的非线性系统自适应优化控制

其他学术论文