清华大学发布深度强化学习框架“天授” 开源后已获900星标

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:wlcbgtxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  日前,清华大学人工智能研究院基础理论研究中心发布了深度强化学习框架“天授”,代码已在GitHub开源。这是继“珠算”可微分概率编程库之后,该中心推出的又一个面向复杂决策任务的编程库。
  据悉,“天授”一詞来源于《史记》,意为“取天所授而非学自人类”,刻画了强化学习通过与环境进行交互自主学习,而不需要像监督学习一样需要大量人类标注数据。研究团队继承了首版“天授0.1”在模块化等方面的优势后,推出了基于PyTorch框架的“天授0.2”版本。
  据介绍,天授系统具有5大技术优势:代码简洁、模块化、可复现性、接口灵活以及训练速度快。相较于其他PyTorch强化学习框架,“天授0.2”具有结构简单、二次开发友好的特点,整个框架代码1500行左右,支持主流的强化学习算法DQN、A2C等,同时设计了灵活的接口,用户可以定制自己的训练方法。针对现有平台训练速度慢的缺点,“天授”通过将并行采样与缓存机制相结合提高了采集数据的速度。此外,整个框架基于模块化的原则进行设计,在其上实现常见的强化学习算法仅需不到100行的代码。
  目前,“天授0.2”版本已在GitHub上获得超过900个星标。
其他文献
[摘 要]随着时代的发展,时间充分证明了移动互联网是一场革命,它使得整个商业结构在发生了巨大变化,多元化、个体化的特征越来越明显,逐步推进了商业秩序的重组。随着对移动互联的应用技术掌握,越来越多的劳动者将从劳动中脱离出来,投身到技术带来了的福利热潮中。本文主要概括了微商的基本概念,并分析了微商的发展现状以及在未来的发展趋势。  [关键词]移动互联;市场营销;微商;发展趋势  doi:10.3969
[摘 要] 随着高等教育从“精英教育”向“大众教育”的迈进,高校毕业生就业形势日益严峻。同时,党的十八大提出“进入创新性国家行列”和“促进以创业带动就业”的发展战略,使得创新与创业课程的开发日益重要,校企合作机制的完善也给创新与创业课程的开发提供了新的契机。  [关键词] 校企合作;课程开发;创新与创业  doi : 10 . 3969 / j . issn . 1673 - 0194 . 201
[摘 要]随着旅游业的快速发展和建设世界旅游目的地的需要,西藏旅游企业和从业人员数量越来越多,员工的综合素质要求越来越高,但由于多种因素影响,目前旅游企业的基层从业人员的素质相对较低,其原因之一是员工培训方面存在较多问题。因此,进一步加强西藏旅游企业的员工培训,寻求提升员工整体素质和道德修养的有效途径,已成为西藏旅游企业人力资源管理工作中一项不容忽视的内容。本文通过实地调研,分析西藏旅游企业员工培
[摘 要] 随着经济社会的发展,利润沿着价值链发生了转移。本文对过剩经济条件下利润在价值链上发生的4种转移规律做出经济学解释,并为企业如何应对这种转移提出建议。  [关键词] 过剩; 价值链; 利润转移  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 06. 006  [中图分类号] F275 [文献标识码] A [文章编号] 1673 - 0
[摘 要]经济新常态,需要新担当,倒逼新创新,激发新活力。面对经济社会发展对资金的需求,财政部门始终坚持从全局考量,坚决摆脱对传统融资的路径依赖,坚持用与新常态相适应的新理念来谋划、推动融资工作,逐步探索出一条新常态下借力金融资本,助推经济社会发展的有效融资路径,在破解融资难、融资贵上取得了初步成效。  [关键词]资本;经济社会;发展;新常态;财政部门  doi:10.3969/j.issn.16
[摘 要] 本文首先介绍了Primavera项目管理思想和海洋工程的概况,通过深入了解烟台某海洋工程公司发展现状,透视中国海洋工程企业在项目管理上存在的问题,并结合国际通用项目管理软件Primavera的管理思想,对其问题进行分析并提出对策。  [关键词] 海洋工程;项目管理;Primavera  [中图分类号]F270.7[文献标识码]A[文章编号]1673-0194(2009)01-0054-
[摘 要]随着我国证券市场的不断发展,财务舞弊已经成为当今社会的一个突出问题,严重干扰了证券市场的资源配置功能,损害投资者的利益。财务舞弊是指欺诈人采用财务欺诈和其他非法手段谋取自身利益,损害他人利益的故意行为。有效的内部控制不仅能合理保证财务报告及相关信息真实可靠,而且可以改善上市公司经营的效率,并促进上市公司的长期发展。金融欺诈发生的原因有很多,如果内部控制存在缺陷,就会增加欺诈发生的概率。本
[摘 要]随着经济的发展与网络信息技术的日益完善,会计信息技术得以迅速发展,但会计信息系统的安全问题也变得越来越普遍,本文从网络环境下会计信息系统面临的风险分析入手,对存在的安全问题进行分析,并提出相应的解决措施。  [关键词]网络;会计信息系统;安全;软件  doi:10.3969/j.issn.1673 - 0194.2015.08.009  [中图分类号]F232 [文献标识码]A [文章编
本报讯 Algoblu近期发布NEV网络资源虚拟化(Network Element Virtualization)平台,这是业界首个可虚拟化和编排底层网络资源的平台,可帮助运营商為企业及家庭客户提供面向应用的具有QoS服务保障的定制服务。该平台基于自研FPGA芯片实现,单位比特成本缩减至原来的1/4以上,运营效率提高3倍。
[摘 要]为应对民航突发情况,保障民航运行安全,提出应急调度这一概念。本文阐述常规情况下航班调度的基本模型,分析其在应急情况下的弊端。引入相关机会约束,构建应对突发状况的应急调度模型。根据拟合数据,利用基于随机拟合的改进遗传算法,借用matlab软件求解模型。结果显示,基于相关机会约束规划的机型指派模型在考虑随机因素的情况下,比基本模型更符合实际动态环境要求。  [关键词]相关机会约束;应急调度;