【摘 要】
:
本文基于深度强化学习技术,研究了一类连续时间非线性系统的自适应优化控制问题。对于复杂或模型未知的非线性系统来说,由于系统模型的复杂性和未知性,很难从模型的角度出发去设计优化控制算法。考虑到强化学习的决策能力与深度学习的环境感知能力,本文提出了三种在线求解连续时间非线性系统的自适应优化控制器算法。本文提出的深度强化学习算法最大的优点是将深度学习与强化学习相结合。本文的主要工作和贡献具体如下:首先,针
论文部分内容阅读
本文基于深度强化学习技术,研究了一类连续时间非线性系统的自适应优化控制问题。对于复杂或模型未知的非线性系统来说,由于系统模型的复杂性和未知性,很难从模型的角度出发去设计优化控制算法。考虑到强化学习的决策能力与深度学习的环境感知能力,本文提出了三种在线求解连续时间非线性系统的自适应优化控制器算法。本文提出的深度强化学习算法最大的优点是将深度学习与强化学习相结合。本文的主要工作和贡献具体如下:首先,针对一类具有输入时滞的模型部分未知的连续时间非线性系统,研究了一种新的在线自适应优化控制器设计方案。利用线性微分包含技术对原系统进行线性化处理,通过在线策略迭代算法得到了线性化系统的自适应优化控制器,并证明了所设计的自适应优化控制算法的收敛性。最后,通过两个仿真实例验证了该方法的有效性。然后,研究了一类模型未知连续时间非线性系统的自适应优化控制器设计问题。结合Q-学习算法和生成式对抗网络方案,成功地设计了一种新的连续时间模型未知非线性系统的自适应优化控制算法。采用最新的生成式对抗网络训练策略来稳定系统,并证明了所设计的自适应优化控制算法的收敛性。最后,通过仿真实例验证了该方法的有效性,并通过与传统的角色-批评家算法的比较说明了该算法的优越性。接着,考虑到在大多数复杂的工业系统的优化控制过程中,确定一个精确的代价函数是非常困难的。针对这一问题,提出了一种基于代价预测的深度元强化学习算法来求解优化控制器。采用最新的编解码器结构来构建代价函数网络,并结合元学习算法和强化学习方案成功地设计了一种可以适应不同实际任务环境下的优化控制设计方法。最后,通过仿真实例验证了该方法的有效性和优越性。最后,给出了概括总结和前景展望,并指出了研究中有待进一步解决和完善的问题。
其他文献
苏德尔特地区潜山是其油气的主要产层,由于其埋深相对较深,又是风化壳储层,探井较少,对其油气成藏条件和成藏模式认识不深入,严重影响了油气勘探的深入,因此,开展苏德尔特地区潜山油气成藏条件及成藏模式的研究,对正确认识其油气分布规律和指导油气勘探均具有重要意义。本论文在区域构造和地层研究的基础上,利用钻井、测井和地震资料,从源岩供油条件,储集条件和遮挡条件三个方面进行了苏德尔特地区潜山油气成藏条件研究,
我院是在原河北省干部学校、河北建设学院的基础上建立起来的。中老年教师多来自其他工作岗位,青年教师则是新分配的大学毕业生。学员都是在职干部,有压力,有能力,也有强烈的求知
<正> 问:国内联营企业归还技措性贷款,在会计上应如何处理?咎:按照财政部印发的《关于国内联营企业若干财务问题的规定》,联营企业进行技术改造,可按规定向银行申请技措贷款
空间性是石油信息的重要特性。随着遥感(Remote Sensing,RS)、地理信息系统(Geographic Information System,GIS)、全球定位系统(Global Position System,GPS)技术的成熟与发展,现代测
亚洲大众传播媒介研究与情报中心是由新加坡政府和联邦德国的埃伯特基金会联合的地区性组织,创立于1975年2月。该中心在印度、巴基斯坦、孟加拉国、斯里兰卡和尼泊尔、印度尼
"脾生气,肺主气",气的运动变化尤其脾胃、肺的气机升降是水液、血液及其整个机体新陈代谢活动正常进行的首要的基础环节。宋康教授治疗肺系疾病首以通调顺畅气机、尤其脾胃气
我认为社科图书情报一体化的体制,是社科图书情报工作系统化、协调化、集约化的需要和保证。
茶和鸡蛋单独吃都是不错的营养品,但是如果把茶叶和鸡蛋一起煮,两者的营养会相互抵抗,因为茶叶中含有生物酸碱成分,在烧煮时会渗透到鸡蛋里,与鸡蛋中的铁元素结合,而这种结合体,对胃
为了大化实现高职高专相关专业人才培养目标,该文通过对本专业典型工作任务的分析与描述,结合"工学一体化"理论,制定具有定就业导向性的课程设置细则。
地理特征是地球空间上客观存在、具有描述信息的地理实体。特征数据模型倾向于对地理实体的概念描述,它从几何分布、专题要素与时态变化三个方面来描述地理特征,能够实现语义层次上的数据共享。这对于以数据共享和地图制图为主要目的的《南极赛博地图集》来说,能够很好地对南极数据进行抽象和概括。因此,本文就如何利用特征数据模型对地图集中的南极数据进行描述作了阐述。