论文部分内容阅读
作为机器学习的一个重要分支,强化学习是一类在线学习的方法,其目的是最大化与环境交互所获得的长远回报。近年来,强化学习领域的研究取得了长足的进展,在机器人控制、游戏与博弈、仿真模拟、调度与优化等领域取得了广泛的应用。然而,现有强化学习方法仍面临着一些挑战。相比于其他类型的机器学习方法,强化学习的样本数据利用率往往较为低下,针对一些高维空间问题时探索效率不高,以及算法健壮性差等。本文从强化学习的样本数据利用的角度,从状态转移层次、状态分布层次以及策略行为层次对强化学习中的样本数据进行利用,尝试解决强化学习中存在的问题。具体来说,我们的工作如下:
1.状态转移层次:提升离策略下资格迹的利用效率
在强化学习中,利用强化学习的状态转移数据,对状态或动作所能得到的期望回报进行估计,并根据其状态/动作值进行策略的优化迭代,是一个基本的优化方法。然而,当生成样本数据的策略与优化的目标策略不同,也就是离策略情况下,对回报的估值需要考虑两个策略的差异。在使用资格迹机制时,现有的估值方法在优化的目标策略为贪婪策略时,往往存在着对资格迹利用率不高、学习速度慢,或算法收敛条件较为苛刻等问题。本文针对离策略强化学习情况下使用资格迹的问题,提出了一种新的估值方法,与现有方法相比,该方法既能充分利用资格迹,又有较为宽松的算法收敛域。我们在理论上证明了该方法在策略估值和控制问题上的收敛特性。实验结果显示,我们的方法可以有效提升利用资格迹的离策略强化学习算法的学习速度。
2.状态分布层次:通过轨迹数据再利用提升新颖度搜索效率
当环境提供的回报函数具有欺骗性,或比较稀疏的情况下,传统强化学习方法很难从与环境的交互中获取有效的信息。在基于非马尔科夫决策过程的强化学习的算法中,新颖度搜索通过演化与历史数据中不同行为特征的策略,来实现对策略的探索,可以有效解决此类稀疏型或欺骗型回报的强化学习问题。然而,现有新颖度搜索方法在演化与历史数据行为不同的策略方面往往不够高效,导致搜索效率较低。在本文中,我们提出了一个结合深度强化学习方法对新颖度搜索的历史数据进行二次利用的方法,用于提升新颖度搜索的种群演进效率。实验结果显示,通过对轨迹数据的再利用,我们的方法可以有效提升新颖度搜索的效率。
3.策略行为层次:利用轨迹数据提升演化策略的学习稳定性
演化策略是一类重要的基于非马尔科夫决策过程的强化学习方法,该方法通过随机采样对策略参数的梯度进行估计,进而实现对策略的优化。相比于传统基于马尔科夫决策过程的强化学习,演化策略具有高并行性、学习速度快、计算资源消耗少等优点。然而,演化策略方法在实际应用中常常容易陷入局部最优,且稳定性较差。在本文中,我们结合最大熵强化学习框架,提出了一个采用演化策略来优化非确定性策略的框架,并利用生成的轨迹对描述策略探索行为的熵值进行估计,利用最大熵强化学习方法对策略进行优化。实验效果显示,我们的方法可以有效提升演化策略的稳定性,并能保证演化策略高计算效率、高并行性的特点。
1.状态转移层次:提升离策略下资格迹的利用效率
在强化学习中,利用强化学习的状态转移数据,对状态或动作所能得到的期望回报进行估计,并根据其状态/动作值进行策略的优化迭代,是一个基本的优化方法。然而,当生成样本数据的策略与优化的目标策略不同,也就是离策略情况下,对回报的估值需要考虑两个策略的差异。在使用资格迹机制时,现有的估值方法在优化的目标策略为贪婪策略时,往往存在着对资格迹利用率不高、学习速度慢,或算法收敛条件较为苛刻等问题。本文针对离策略强化学习情况下使用资格迹的问题,提出了一种新的估值方法,与现有方法相比,该方法既能充分利用资格迹,又有较为宽松的算法收敛域。我们在理论上证明了该方法在策略估值和控制问题上的收敛特性。实验结果显示,我们的方法可以有效提升利用资格迹的离策略强化学习算法的学习速度。
2.状态分布层次:通过轨迹数据再利用提升新颖度搜索效率
当环境提供的回报函数具有欺骗性,或比较稀疏的情况下,传统强化学习方法很难从与环境的交互中获取有效的信息。在基于非马尔科夫决策过程的强化学习的算法中,新颖度搜索通过演化与历史数据中不同行为特征的策略,来实现对策略的探索,可以有效解决此类稀疏型或欺骗型回报的强化学习问题。然而,现有新颖度搜索方法在演化与历史数据行为不同的策略方面往往不够高效,导致搜索效率较低。在本文中,我们提出了一个结合深度强化学习方法对新颖度搜索的历史数据进行二次利用的方法,用于提升新颖度搜索的种群演进效率。实验结果显示,通过对轨迹数据的再利用,我们的方法可以有效提升新颖度搜索的效率。
3.策略行为层次:利用轨迹数据提升演化策略的学习稳定性
演化策略是一类重要的基于非马尔科夫决策过程的强化学习方法,该方法通过随机采样对策略参数的梯度进行估计,进而实现对策略的优化。相比于传统基于马尔科夫决策过程的强化学习,演化策略具有高并行性、学习速度快、计算资源消耗少等优点。然而,演化策略方法在实际应用中常常容易陷入局部最优,且稳定性较差。在本文中,我们结合最大熵强化学习框架,提出了一个采用演化策略来优化非确定性策略的框架,并利用生成的轨迹对描述策略探索行为的熵值进行估计,利用最大熵强化学习方法对策略进行优化。实验效果显示,我们的方法可以有效提升演化策略的稳定性,并能保证演化策略高计算效率、高并行性的特点。