一种基于新奇的动作发育模型

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:luzhengnan801106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人的动作是一切活动的基本单元。就足球机器人而言,好的动作设计实现是决策实现的重要保证。传统的强化学习模型在整个学习过程中使用恒定学习速率,导致在未知环境下收敛速度慢,且适应性差。针对以上问题,提出了一种新的动作发育模型——基于新奇的动作发育模型;该模型在学习过程中使用基于状态的遗忘均值的学习速率,更加符合人类发育的真实过程。模型采用内在价值系统,该系统由三部分组成:奖励、惩罚和新奇评判。在机器人足球比赛中,通过机器人截球实验表明,该模型在不断变化的环境下可以高效而准确地完成相应的截球动作。
其他文献
随着人们物质文化生活水平的提高,智能家居已成为一个发展趋势。防盗报警系统成为智能家居中的一个重要组成部分。目前它正朝着前端一体化、视频数字化、监控网络化、系统集
考虑太阳风动压与火星电离层中的粒子热压与磁压之和平衡,建立了火星磁层顶形成的理论模型。结合卫星观测数据,对子午面内向日侧火星磁层顶位形进行数值计算和分析,研究了火
自杀事件的起哄者以言语和行动刺激自杀者,强化了自杀者的决心,扰乱社会秩序,具有主观恶性、社会危害性,应当承担相应的法律责任。起哄者的法律责任,应当坚持行政违法责任为
古大气水淋滤作用是改善不整合面附近储层物性的重要因素。贝中次凹南屯组一段岩性以长石岩屑砂岩和岩屑砂岩为主,成分成熟度和结构成熟度均较低,储层的储集空间主要为次生孔