机器人足球赛中基于增强学习的任务分工

来源 :机器人 | 被引量 : 0次 | 上传用户:venus521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了机器人足球赛中利用增强学习进行角色分工的问题,通过仿真试验和理论分析,提出文[1]中采取无限作用范围衰减奖励优化模型(infinite-horizon discounted model)的Q学习算法对该任务不合适,并用平均奖励模型(average-reward model)对算法进行了改进,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍。
其他文献
德国以法管理私立学校简论姜锋在德意志联邦共和国,私立学校发展较快,已在整个普教事业中占有举足轻重的位置。据统计,从1960年到1990年,私立普通学校增长幅度为110.2%,私立职业学校数增幅为35.5%。截
[摘要] 目的 分析某高校非直属临床医学院实践教学督导现状及教学评价结果。 方法 收集2015年9月~2017年1月非直属临床医学院实践教学督导结果,汇总建立数据库,分析教学督导现状,对不同专业技术职称临床教师教学评价进行差异性分析。 结果 共收集3家非直属临床医学院教师实践教学督导评价表40份,分布于5门临床课程,其中内科学督导11次,外科学督导10次,妇产科学和儿科学各督导7次,神经病学督导5
[摘要] 目的 探讨路径式管理在结肠造口患者延续护理中的实施效果。 方法 选取2013年1月~2015年5月在我院行结肠造口手术的患者100例作为本文研究对象,随机分为对照组和试验组,各50例,对两组患者建立档案,试验组采取路径式管理,在患者复诊时给予路径式复诊单,对照组患者采用常规对症复诊措施。经过干预后,对比两组患者造口周围皮肤情况。 结果 干预前两组患者造口周围皮肤健康情况比较,差异无统计学
【目的】应用近红外漫反射光谱技术无损检测梨果的糖度和pH值。【方法】采集完整梨果的近红外漫反射光谱(350~1800nm),光谱经移动窗口平滑处理、一阶微分和多元散射校正预处理后
柔性冗余度机器人兼具柔性机器人与冗余度机器人的特点,在航空航天等领域有着十分广泛的应用前景,但间存在的结构柔性及其引起的振动造成机器人的精确控制极为困难。本文研究了
一小机械手附在一大机械手的末端构成的机器人系统被称为宏-微机器人系统。本文详细介绍了我们研制的采用激光作业的宏-微机器人本体和控制系统的结构和工作原理,以及在连续轨迹
1999年初,一台737-300飞机机务维护模拟机在我院安装完毕投入正式使用。B737-300飞机机务维护模拟机的引进是在民航总局适航司和原科教司的大力支持下完成的。早在1996年,经我院
受美国国立癌症癌症研究院资助的研究成果2008年1月15日发表在《Cell》出版社旗下的《Developmental Cell》杂志上。罗切斯特大学医学院(University of Rochester)生物医学遗传
由于中小学校园暴力事件频频发生,引起了德国政府和社会的高度重视。德国中小学校园暴力防范形成了三位一体的防范体系。从思想上,注重善良教育;从行动上,校园暴力预防措施分
盈利能力是指企业在一定时期内赚取利润的能力,盈利能力的好坏决定着公司未来能否持续经营,这也是投资者们进行投资与决策的重要依据,因此企业对其盈利能力的分析就显得极为