强化学习方法的数据利用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：sheygy

【摘要】

：

【作者】

：

石龙翔

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2020年期

【关键词】

：

强化学习

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为机器学习的一个重要分支，强化学习是一类在线学习的方法，其目的是最大化与环境交互所获得的长远回报。近年来，强化学习领域的研究取得了长足的进展，在机器人控制、游戏与博弈、仿真模拟、调度与优化等领域取得了广泛的应用。然而，现有强化学习方法仍面临着一些挑战。相比于其他类型的机器学习方法，强化学习的样本数据利用率往往较为低下，针对一些高维空间问题时探索效率不高，以及算法健壮性差等。本文从强化学习的样本数据利用的角度，从状态转移层次、状态分布层次以及策略行为层次对强化学习中的样本数据进行利用，尝试解决强化学习中存在的问题。具体来说，我们的工作如下：
　　1.状态转移层次：提升离策略下资格迹的利用效率
　　在强化学习中，利用强化学习的状态转移数据，对状态或动作所能得到的期望回报进行估计，并根据其状态/动作值进行策略的优化迭代，是一个基本的优化方法。然而，当生成样本数据的策略与优化的目标策略不同，也就是离策略情况下，对回报的估值需要考虑两个策略的差异。在使用资格迹机制时，现有的估值方法在优化的目标策略为贪婪策略时，往往存在着对资格迹利用率不高、学习速度慢，或算法收敛条件较为苛刻等问题。本文针对离策略强化学习情况下使用资格迹的问题，提出了一种新的估值方法，与现有方法相比，该方法既能充分利用资格迹，又有较为宽松的算法收敛域。我们在理论上证明了该方法在策略估值和控制问题上的收敛特性。实验结果显示，我们的方法可以有效提升利用资格迹的离策略强化学习算法的学习速度。
　　2.状态分布层次：通过轨迹数据再利用提升新颖度搜索效率
　　当环境提供的回报函数具有欺骗性，或比较稀疏的情况下，传统强化学习方法很难从与环境的交互中获取有效的信息。在基于非马尔科夫决策过程的强化学习的算法中，新颖度搜索通过演化与历史数据中不同行为特征的策略，来实现对策略的探索，可以有效解决此类稀疏型或欺骗型回报的强化学习问题。然而，现有新颖度搜索方法在演化与历史数据行为不同的策略方面往往不够高效，导致搜索效率较低。在本文中，我们提出了一个结合深度强化学习方法对新颖度搜索的历史数据进行二次利用的方法，用于提升新颖度搜索的种群演进效率。实验结果显示，通过对轨迹数据的再利用，我们的方法可以有效提升新颖度搜索的效率。
　　3.策略行为层次：利用轨迹数据提升演化策略的学习稳定性
　　演化策略是一类重要的基于非马尔科夫决策过程的强化学习方法，该方法通过随机采样对策略参数的梯度进行估计，进而实现对策略的优化。相比于传统基于马尔科夫决策过程的强化学习，演化策略具有高并行性、学习速度快、计算资源消耗少等优点。然而，演化策略方法在实际应用中常常容易陷入局部最优，且稳定性较差。在本文中，我们结合最大熵强化学习框架，提出了一个采用演化策略来优化非确定性策略的框架，并利用生成的轨迹对描述策略探索行为的熵值进行估计，利用最大熵强化学习方法对策略进行优化。实验效果显示，我们的方法可以有效提升演化策略的稳定性，并能保证演化策略高计算效率、高并行性的特点。

其他文献

基于快速循环伏安法的重金属离子检测仪设计

学位

单双基复杂目标散射中心正向自动化建模方法研究

学位

微波器件的电磁和多物理行为的参数化建模和优化

学位

神经网络在股票预测中的应用研究

该文利用神经网络技术检验数据初期处理算法对预测效果的影响,提出了三种数据前期处理算法的改进方法:(1)收盘价5日涨跌比;(2)成交量5日均值法;(3)日均价法.该文首先针对股票预测广泛的社会需求,概述了股票预测的技术现状、常用分析方法,以及传统预测方法面临的问题;其次,综合比较了改进的BP算法和径向基函数法、回溯期改变以及输入矢量差别对预测结果的影响,确定了一个结构和性能良好的神经网络,能够减少外

学位

神经网络

求解不确定环境下两类物流规划问题的进化算法研究

物流规划由于在现实世界的大量应用一直受到广泛关注。现实世界的物流规划问题中存在着许多动态、随机的变化，因此不确定环境下的物流规划问题成为了物流领域的研究热点。进化算法能有效解决许多物流规划问题，因而研究者提出了许多进化算法来解决不确定环境下的物流规划问题。然而，这些进化算法在应对一些不确定环境下物流规划问题时的性能、效率方面仍存在不足。为此，本文针对性地提出了多种有效的新型进化算法来求解两类典型的

学位

物流规划

动态图序列演变模式的可视化

动态图数据在现实生活中十分普遍，科研合作网络、家谱树、足球传球网络、社交媒体网络，都可以被建模成动态图数据。分析这类数据的演变规律可以帮助领域专家发现潜在的有用信息。然而随着数据的累积，动态图数据中包含着大量的图结构信息和复杂的时序变化，这给领域专家识别有用信息，分析潜在的演变模式和特征结构带来了极大的挑战。如何解决动态图数据结构复杂、数量巨大、长度不定的问题，有效地提取动态图数据中的演变模式，总

学位

动态图序列

面向动态室内场景的三维重建算法研究

室内场景重建问题是计算机视觉中的一个重要研究课题，其所得到的场景稠密三维模型在很多领域都有重要应用，例如室内场景的三维模型作为地图可以辅助机器人进行路径导航以及避障、稠密的三维场景重建结果作为输入可以解决传统目标识别、跟踪以及检测方法无法解决的场景遮挡问题等等。近年来随着消费级深度相机的不断普及，基于RGB-D数据的室内场景重建越来越受到关注。虽然在科研人员不懈努力下，三维重建算法已经取得了长足的

学位

动态室内场景

基于伽辽金法物理仿真的数值方法与实现技术研究

更高的准确度与计算效率一直是基于物理的仿真所追求的终极目标。近年来针对特定问题开发的高效算法和高速发展的计算能力共同推动了物理仿真的发展，然而实际应用中物理仿真所需求的计算资源和时间成本往往还是会超出预算。因而实践中不得不在速度和准确度之间做一定取舍，比如降低仿真规模、算法复杂程度等来换取更好的运行性能。与此同时，处理器速度与存储容量的增长推动着计算能力的爆炸式增长，而相比之下，时钟频率和存储访问

学位

异构计算

实时虚拟试衣关键技术研究

近三十年来，布料仿真一直是计算机图形学领域最热门的研究方向之一。针对布料仿真的各个阶段(布料模型、时间积分、拉伸限制、碰撞处理等)出现的不足，研究者做了大量研究，并取得了很好的成果。目前，基于物理的布料仿真已经可以生成高真实感的布料形态，并广泛应用于服装设计、电影、游戏等领域。其中，以虚拟试衣镜为代表的实时虚拟试衣应用一直吸引着科研界和工业界的目光，数款虚拟试衣系统被相继推出，但大多缺乏动态性和真

学位

实时虚拟试衣

面向数字口腔的医学数据处理算法研究

数字化口腔诊疗技术的发展，使得患者信息采集、治疗方案设计、治疗效果评估等诊疗环节更加全面、准确且安全。使用光学成像设备和锥形束计算机断层扫描成像(Cone beam CT，CBCT)设备可以快速获取患者的三维网格数据和CBCT图像数据。通过观察患者医学数据中的相关组织结构，医生可以实施更为有效和个性化的治疗。如何从患者的医学数据中抽取得到有助于临床诊疗的组织结构信息，是数字口腔技术应用发展的关键。

学位

数字口腔

强化学习方法的数据利用研究

其他学术论文