强化学习中的优化策略研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：dajianshi

【摘要】

：

【作者】

：

杨智友

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

强化学习策略函数高维连续空间散度策略迭代

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自21世纪以来,随着芯片制造与设计工艺的快速发展,计算机的算力有了质的飞跃,因此机器学习科学取得了空前的应用,尤其是深度神经网络在各领域的应用。在使用传统的最优控制理论处理机器人控制问题时存在两个主要难点,其一是需要清楚的知道被控系统的行为模型;另外一点是模型需要精确的输入输出,使用函数估计器带来的误差很大程度上会导致控制模型的失效。强化学习则需要对每个函数都进行近似估计,通过近似估计实现对实际的环境进行建模,当近似估计的方差在很小范围内波动时表示此模型的有效。深度神经网络作为强化学习中的函数估计器,可以使得强化学习算法在多个领域的应用提供了强有力的基础性能保证,这是由深度神经网络能够提取到高效的特征所带来的。本文针对强化学习中存在的问题进行改进,比如在on-policy算法中很难对策略的优化进行有效的约束,让策略有效的对环境进行探索则是更加困难。通过对马尔可夫决策过程（Markov Decision Process,MDP）进行修改获取到一个不同于之前的强化学习架构,再从理论分析角度来提升策略对环境的探索,同时多模态策略保证算法能够对环境的探索和利用之间取得平衡。从这两个对策略的优化角度出发,本文的贡献与创新有:1)针对目前所有on-policy强化学习基础算法存在的探索性不足的问题,提出了状态转移信息模型计算状态转移过程中的信息来优化策略,实现了增加on-policy算法对环境的探索效率;2)从一个新的角度重新考虑MDP,将散度引入到原始的MDP中构建一个最大化散度的新目标函数,并对最大化散度MDP进行如收敛性之类的优化理论分析;3)在通过理论分析后的最大化散度强化学习框架下,证明了策略迭代算法,并拓展该算法到一个实际的Actor-Critic算法,用于解决像机器人控制这样的高维连续空间问题;4)在两种不同任务的环境上对状态转移信息量算法和散度Actor-Critic算法进行相关对比实验,实验表明本文提出的算法在多个任务上均能够获得不错的性能效果,有效的验证了提出算法的高效性以及在解决探索与利用的平衡问题上表现出不错的性能。

其他文献

PCIe物理层低延迟技术研究

随着PCIe协议的发展,PCIe接口的产品速度越来越快,但数据传输过程中依然存在一些延迟,故降低PCIe接口的延迟已经成为当前研究的重点课题。因此,本论文针对上述问题,在深入分析物理层发送逻辑和接收逻辑的基础上,对加解扰模块和弹性缓冲器模块进行了优化,并进行了功能仿真和FPGA原型验证,以期降低PCIe接口的延迟。主要内容为:（1）在加解扰模块,通过两种方法进行了设计。一方面,采用常见的并行扰码,

学位

PCIe物理层加解扰模块弹性缓冲器数据处理延迟

基于ONOS的软件定义网络流量态势感知系统设计与实现

网络流量态势感知能够快速准确地反映出当前网络流量的运行状况,也能够预测未来的网络流量运行趋势,是网络流量管理的一种重要手段。结合SDN网络和ONOS控制器的特点,本文设计并实现网络流量态势感知系统,其可以根据功能分为流量态势指标提取子系统、流量态势评估子系统和流量态势预测子系统。本文所做的主要工作如下:第一,设计并完成流量态势指标提取子系统。首先考虑到完备性和易得性分层构建流量态势指标体系;再设计

学位

态势感知态势评估态势预测径向基函数神经网络支持向量回归算法

针对深度学习的对抗训练方法研究

随着大规模计算能力的提升,人工智能话题火热,深度学习各领域发展迅猛,在诸多领域上深度神经网络已经达到人类水准,某些特定任务中甚至远超人类水平,其应用也慢慢融入社会的学习和生活之中。但人工智能背后的安全问题日益凸显,有研究表明深度学习及机器学习模型易受到对抗样本的攻击。对抗样本为在干净样本上添加特定的微小噪声所形成的输入样本,能使模型给出错误的结果。通过近几年研究,在对抗样本领域的研究主要分为对抗攻

学位

对抗样本对抗训练深度度量学习自监督学习

分布式资源调度平台调度策略的设计与实现

容器是近年来出现的一种虚拟化技术,广泛应用于云计算领域,它极大的方便了云计算应用的部署,越来越多的应用转向了使用容器开发与部署。在众多容器编排管理工具中,Kubernetes正在成为一种事实的标准,它提供了一套集群自恢复机制,包括容器的自动重启、自动调度以及自动备份等。但是,Kubernetes的缺省调度器依赖于应用属主提供的资源分配需求,没有考虑实时资源的使用情况。并且随着多集群架构的应用,通常

学位

云计算容器资源调度多集群

云平台下高并发对弈系统的设计与实现研究

随着互联网时代的来临,在线对弈类游戏已经融入到了全世界人民的娱乐生活中。棋牌类游戏凭借其简单的操作、丰富的策略性、较快的游戏节奏等特点,在传统线上平台上快速发展,获得了大批忠实的玩家群众。线上对弈,寓教于乐,在当前疫情阶段,得到快速发展。本课题基于真实的项目需求,为国际象棋类教学活动设计一个在线多人对弈系统。基于此,本文设计并实现了一款云平台下的棋类对弈系统,为全球棋类游戏玩家提供一个跨平台的对弈

学位

云平台微服务WebSocket对弈平台

基于容器的分布式系统资源调度平台的设计与实现

随着互联网和物联网的高速发展,新的业务场景层出不穷,云计算和边缘计算技术应运而生。一方面,云计算技术为用户访问互联网上海量计算资源提供了便利。普通用户不需要了解集群的内部原理,也不需要具备计算机专业背景知识,即可轻松获取大量云端资源。另一方面,云计算技术高延迟、高能耗的缺点限制了它的使用场景,而边缘计算将资源部署至更加靠近用户的边缘端,具有网络延迟低、宽带需求低等优势,可以适应智能家居、数字医疗、

学位

云计算分布式系统容器集群管理

基于知识蒸馏的轻量化神经网络的研究与应用

深度模型性能提升的同时,模型参数增加、内存使用资源增加、训练时间过长、计算量过大等问题接踵而至。这些问题使得嵌入式设备、集成设备等资源受限机器无法正常使用,从而影响深度学习的应用推广。在此背景和市场需求下,针对模型压缩方法的研究具有重要意义,知识蒸馏是一种近几年来被广泛关注的模型轻量化方法,学生模型通过模仿教师模型进行训练。学生网络模型在教师网络模型的指导下,可以更好地学习数据集中的结构化知识。基

学位

知识蒸馏物体检测图像分类深度学习

地铁电力监控SCADA系统的分布式共识状态估计子系统设计及实现

近年来,电力系统自动化、信息化及智能化发展水平显著提升,许多新技术应用到传统电力系统中。轨道交通电力数据采集与监视控制（Supervisory Control And Data Acquisition,SCADA）系统和其他电力系统类似,有着强烈的稳定性、容错性和可靠性需求。恰逢成都轨道交通电力SCADA系统智慧维保科研项目立项,本文借此契机以轨道交通电力SCADA系统的状态估计功能作为出发点,改

学位

数据采集与监视控制状态估计分布式共识带电推导

基于Kubernetes的高可用容器云的设计与实现

随着容器技术和Kubernetes的兴起,全球众多的云厂商纷纷推出属于自己的容器云服务。容器技术的浪潮从Docker的普及开始,直到Kubernetes的逐渐成熟才真正的落地,才开始真正实现从传统的应用部署管理模式向容器服务模式转变。2020双11期间,阿里已经将80%的核心业务部署到容器云平台当中,Google更是已经在生产环境当中积累了数十年的容器服务经验,而Kubernetes正是其开源的容

学位

容器云Kubernetes容器技术高可用多租户

基于网络结构与节点属性的脆弱性分析方法研究

近年来,网络安全问题不断增加,这导致了网络的控制和管理面临越发严峻的形势。为了应对网络不安全因素的威胁,网络管理人员亟需一种有效的手段来加强对网络的安全控制和管理。网络脆弱性分析是预防网络攻击发生方法的重要一环,能够帮助网络管理人员建立完备有效的网络控制和管理机制,同时也是网络科学领域的研究热点问题之一。网络中的高风险节点指在网络中影响力高,但防御力低的节点,这些节点是造成网络脆弱的重要因素。现有

学位

脆弱性分析网络科学节点识别网络拓扑节点属性

强化学习中的优化策略研究

其他学术论文