简述自由基线采样的参数探索政策梯度

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:yueyangmm22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:最近已经引起很多关注的直接在参数空间中探索策略梯度方法是最有效和有力的政策搜索方法。这个领域的基本方法,基于参数探索的政策梯度,使用的两个样本都是围绕着当前假设对称,以规避在不对称的分布式聚集基准方法的奖励中的误导性奖励。勘探参数仍然由基线的方法更新 - 离开容易发生探索非对称奖励分布。在本文中,我们将展示如何探索有限制的可以准对称的参数,而不是勘探自由参数进行采样。我们给出了一个相对于勘探准对称的近似改造获得的样本,而不改变整体抽样分布。最后,我们将证明,为勘探参数的对称取样以及优于原始抽样方法,在所需要的样品和稳健性方面。
  关键词:超对称 PGPE;梯度估计方差;参数探索政策梯度
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)06-0242-02
  1介绍
  1.1当前最高水平和题目说明。
  在过去几年,引起了很多关注的直接在参数空间探索政策梯度(PG)方法有很多标准PG方法的主要优点,如描述的。来自参数探索政策梯度(PEPG)领域的基本方法,具有基于参数的探索(PGP)政策渐变,使用两个样品是围绕当前假设对称规避不对称报酬收集的通常基线方法的分配问题误导性奖励。尽管事实上,它表明梯度估计方差比最优基线的方法更低一些,但對称采样(SYS)优于最佳的基线。但是,勘探参数仍然是由基线方法(离开容易发生探索非对称奖励分布)更新的。
  而最佳基线显著改善此问题,它很可能是由对称的样品相对于勘探参数完全除去基线将再次卓越的。勘探参数是零和无穷大之间界定的标准偏差,因此,对于他们存在不正确的对称样品。然而,我们将显示如何勘探参数可以准对称地取样。我们给出了一个近似改造拿到准对称样本而不改变总体抽样分布,从而使基于正态分布样本PGPE假设仍持有。我们还将实施免费基线和基线采样之间的公平比较最佳基线的方法。所得相对于该问题的参数和勘探参数对称地采样的方法被称为超对称采样(SupSyS)和利用SupSyS名为超级对称PGPE的PGPE变体(SupSymPGPE)。
  我们强调,SupSyS不仅在关于样品复杂的搜索空间的需要和不需要任何基线方面更有效,并且它也显示出在更不稳定的搜索空间方面的一个增长的稳健性。这表现为一个问题领域与处罚条款,奖励功能引入约束。这里SupSyS产生违反限制显著较少的样本。
  1.2 动机
  虽然本文所提到的SUBSYS的性能和稳定性是主要的焦点,但是对这项工作的动机是以避免基准,从而避免对旧的样本收集的来历。一下有几点原因:
  l 懒惰评价:懒惰评价仅仅是问题的一个子集,以减少计算时间或精力的技术。懒惰评价是进化算法中常用的。报偿/合格范围可以彻底改变,同时改变懒惰评价的程度,甚至不同的评价子集之间。虽然使用懒评价的高度对旧的样本相当数量平均基线变得无用。从机器人领域的一个很好的例子是行走任务。如果一个机器人的任务是要移动一段距离,那么要先评估在较短的时间跨度的行为,为了区分和根本不移动一定距离的人的行为。随着学习的进行,评估的时间跨度,必须越走越能有所区分,让来自机器人在轻微的曲线或在一条直线上了走了很长一段时间的机器人的运动行为增加它一段时间后翻倒(在人形情况)。人们可以除以评估时间覆盖得到某种形式的标准化奖励的距离,但还是喜欢在一开始势头将改变不同的评价倍的奖励效果。
  l 运动目标和人工好奇心:在某些情况下学习的不是一个固定的目标,而是一个不断发展的实体。这种移动目标的一个极端的例子是人工好奇心。什么都移动目标的问题(包括人工好奇心)的共同点是,我们的目标随时间的变化,并用它来获得奖励的某些行为的变化也。在这样的设定的基准是无用的。
  2 经验和结果
  我们使用的平方函数作为搜索空间实例与无局部最优和Rastrigin功能作为搜索空间成倍局部最优解,以测试SupSym-和SYS-PGPE的不同行为。我们也显示这两种方法的性能在一个真实世界的例子,优化安装可再生能源在分布式能源系统的能力。该实验表明这两种方法如何应付被实施为在回报函数惩罚项和类似于用在搜索空间陡坡或悬崖区域限制。与SYS-PGPE以及与SupSymPGPE连接的两个元的参数,即对于μ和σ的更新步长,进行用于经由网格搜索每个实验优化。
  2.1 平方函数
  对于一个没有supsympgpe局部最优解的搜索空间显示标准SyS-PGPE没有优势。然而,尽管使用4个样品更新性能也不是减少使用SupSymPGPE——这两个方法仅仅是等价的。也使用最优基线没有明显区别。
  2.2 Rastrigin函数
  如果Rastrigin函数用作测试功能的情况变化了,不仅需要一半的PGPE 和SupSymPGPE相比,效果似乎也成为更强的高维搜索空间。我们还增加了SupSymPGPE情节与元参数最优(贪婪的)SyS-PGPE显示效果,不仅是由于(最优)更积极的元参数。而且这比PGPE也更有效率,但是效果不太明显。
  3 结论和下一步需要进行的工作
  我们介绍了SupSymPGPE,一个完全地基线自由PGPE,它是使用quasisymmetric关于样品。勘探参数。我们表明,Rastrigin功能,作为一个测试函数的例子与指数许多当地的最适条件,这部小说方法明显优于标准SyS-PGPE和两种方法成为等效性能如果搜索空间缺乏分散当地的最适条件。性能测试的标准和最佳的基准。我们还发现了几个约束作为惩罚项的奖励功能有supsympgpe也优于标准PGPE清楚一个问题。我们也表现出与引入惩罚条款奖励函数制约的例子,SUPS MPG也优于标准PGPE。到目前为止,在所有的实验中进行的(也不列在这里)SupSymPGPE比标准的 PGPE更有效。然而,最引人注目的特性是如果搜索空间变得不稳定,那么MPG应该是更强大。
  对于今后的工作中,我们要强调的是SUPS MPG可以很容易地与PGPE的其他扩展结合起来。多模态PGPE可以直截了当配备SUBSYS。在未来,我们会认为完成此实验结果是有趣的事情。此外,PGPE自然梯度可以被定义为SUBSYS梯度,而不是thevanilla梯度。Whileit是很难想象的一个抽样方案,该方案是对称充分协方差样本,它可以很容易地产生超对称样品中的协方差矩阵定义的旋转空间。
  然而重要性采样是减少所需的评价非常有效的方法,通过它不能直接应用于SupSymPGPE。如果SupSymPGPE用于性能原因和基线,它可通过添加历史标准示例和SupSymPGPE PGPE更新直接样品。另一种替代方法就是使用重要性混合,它也是使用同样的因素。
  未来工作的最后一个重点是理论结果验证,也是机器人任务,也是SupSymPGPE及其他PGPE扩展的组合。
其他文献
摘要:针对单一的跟踪算法难以适应复杂多变的环境,提出一种融合多种跟踪算法的方法。考虑到压缩跟踪算法的鲁棒性优势,和HOG行人检测的轮廓检测特点,利用算法之间的互补性,根据贝叶斯决策理论,提出了多算法融合的跟踪方法。融合过程中按照分类的思想,将图像中像素点按照其是否包含在跟踪框内分为两类。通过分析跟踪目标的移动范围,预测目标的下一位置,求出目标出现的先验概率分布。针对目标与环境的具体情况,调整每种算
互联网具有开放性、自由性及互联性,它在给人们的生产生活带去极大便利的同时,也滋生了一定的信息安全隐患,造成一些网络用户利益受到侵害。因此,构建良好、安全的网络环境尤为重
压裂微震数据采集具有采样时间长,以及采样间隔小的特点,采集得到的数据量很大。因此数据的读取和显示,需要一些特殊的方法,进而能有效地分析数据中的微震事件。针对微震数据的特
【正】篮球比赛的目的是将球投入对方球篮并阻止对方获得球或得分。比赛中投篮的方式运用最多的是跳起单手投篮技术。它是篮球比赛中得分的主要方式,也是最重要的篮球技术。
摘要:高职教育不同于其他高等教育的主要特点在于其职业性,在此基础上形成的职业能力本位教学意识,已然成为引导高职CAD教学工作的主流理念。但是不得不承认的是现阶段高职CAD教学课程设置不合理,教学内容专业性不强等问题都成为制约高职CAD教学质量提升的因素。文章积极从职业能力本位的视角,探析高职CAD教学策略,以改变当前高职CAD教学现状。  关键词:职业能力本位;高职CAD教学;教学策略  中图分类
摘要:该文针对机房手工排课效率低下问题,采用计算机模拟手工排课法解决机房排课问题,改变了传统的手工排课方式。实践结果表明,这种改进不仅提高了工作效率,也提高了机房排课的科学性。  关键词:机房排课;BIS架构;Ajax;ASP  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)19-0067-03  1概述  合肥工业大学计算机基础实验室承担全校计算机基础课的实验教
当今社会,计算机已经成为一种很重要的工具,在家里,人们通过计算机看电视、上网、和亲戚朋友联系;在公司,人们运用计算机辅助完成一天的工作;在计算机被广泛运用的同时,很多网络问题
运用文献资料法,对体育教育区别于其它学科教育的基本特性进行分析,揭示体育教育对培养学生创造力有其特殊的重要作用,并提出培养创造力的途径:利用体育教材价值,激发学生学
煤层的开采极易导致采动裂隙直接连通地表,引起煤层自燃、地下水流失等灾害现象。掌握煤层上表岩层中裂隙发育特征,是解决上述问题的基础。将氡测量技术引入到煤炭采动裂隙发
采用问卷调查法,探寻影响青少年运动员训练积极性的若干因素。结果发现,各因素的影响程度不一;其中,物质条件、竞赛环境和文化学习是较为主要的因素。