论文部分内容阅读
强化学习在实际应用中通常会遇到一些问题,这些问题主要体现在泛化能力,学习速率以及学习的复用等方面。目前在强化学习中常采用函数估计和迁移方法来解决这些问题。而在函数估计中,特征的抽取比较复杂和耗时,针对这个问题我们提出了可以自动构造特征的基于距离的核稀疏化方法。其次对于迁移方法中的多源迁移问题,本文提出了能够融合多个源任务的迁移方法和衡量任务之间相似度的方法。 首先针对函数估计中特征抽取比较困难的问题,本文提出了基于距离的核稀疏化方法。该方法能够在线的,自动的构造特征。它通过选择历史样本中部分的样本集合作为核心状态集,然后用核心状态集去表示问题的特征。与近似线性相关算法相比,近似线性相关方法在Agent学习的每一步的复杂度为O(n2)(其中n为核心状态的个数),而我们的算法的复杂度为O(n)。实验表明,基于距离的核稀疏化方法的函数估计收敛速率与得到的最优策略优于近似线性相关方法。在该方法的基础上,本文提出了结合核方法的线性函数估计的算法框架,以及在该框架下的三个具体的实例。在MountainCar和50状态链上的实验表明了我们方法的有效性。 其次本文对强化学习迁移方法中的多源迁移问题初步研究。受到核方法中表示定理的启发,我们提出了同时从多个源任务中迁移策略的方法,该方法能够融合多个源任务上的知识,并从状态转移函数和奖赏函数这两个任务的本质属性方面定义了衡量任务之间相似度的核函数。迷宫上的实验表明我们的迁移方法可以有效的提高Agent的学习速率。