面向平衡控制问题的操作条件反射仿生学习模型研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:besunqz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人或动物的运动平衡控制技能来自于感觉运动系统,而操作条件反射是感觉运动系统最为基本和重要的学习机制。将操作条件反射理论形式化,复制且模拟这种自组织控制机制,并应用于机器人系统,使机器人通过学习和训练,获得类似人和动物的运动平衡控制技能,是当前认知科学、神经生理学以及控制科学和机器人学研究的重要课题。   论文结合认知科学、神经生理学,从仿生学角度建立操作条件反射学习模型。以两轮自平衡机器人为实验平台,研究了仿生学习模型在机器人运动平衡控制中的自主学习能力。论文取得的主要研究成果如下:   (1)基于优势学习的操作条件反射模型   针对生物行为选择的学习特征,本文提出了一种基于优势学习的操作条件反射模型(Advantage Learning Operant Conditioning Model,ALOCM)。该模型由感知器、小脑皮质和效应器三个部分构成,其中,感知器负责接收未知环境中的状态信息:小脑皮质作为学习机制,结合优势学习中的优势量来确定从状态映射到行为的最优策略,以便自主地概率式地选择行为,并从环境中获得优势最大的动作;效应器输出相应动作,使环境变迁到新的状态,得到新的瞬时回报,从而形成了一个自探索自学习的连通体。为了解决学习过程中的延迟影响、加快学习速度和提高可靠性,引入了具有记忆功能的资格迹算法,这种优化模型利用改进的神经网络预测行为优势量,并依据动作取向机制以一定的概率选择最大优势量对应的最优行为。本文将这种仿生学习模型应用于机器人运动平衡控制问题中,做了模型的对比实验和分析,结果表明,这两种模型都能使智能体在偏离平衡位置10度的未知环境下,通过与环境的交互、学习和训练,逐步达到平衡状态,获得像人或动物一样的自主学习技能。并且,通过二者在相同条件下的对比实验可知,改进的ALOCM比原ALOCM中各状态超调量的幅值和稳态过渡时间显著降低,抗脉冲干扰的调节时间也明显缩短。   (2)动态操作条件反射模型及其动态认知过程   ALOCM对所有行为采用的是等概率选取,这与生物的随机选择并不完全一致,为了完善和体现生物认知的渐进动态学习过程,本文提出了一种动态操作条件反射模型及其动态认知过程。与ALOCM的结构类似,该动态仿生学习模型是由感知器、仿生控制器和效应器三部分构成的,其中,仿生控制器由评价网络和行为网络组成,这两种网络采用的是具有延时反馈和动态记忆功能的动态自回归网络。评价网络采用时间差分方法对动作评价函数进行逼近,将状态映射为期望的评价值;行为网络利用直接从环境中获取的行为奖赏信号,为行为网络提供一个更具信息量的评价函数以评价当前动作的好坏,实现对行为决策的优化。为了突出生物认知发育中行为随机选择的动态认知过程,在仿生控制器中引入了Boltzmann机,形成了动态优化仿生学习模型。该优化模型把由Metropolis判据改进的Boltzmann机作为动作选择机制,用温度来决定行为选择概率,合理折中对新行为的探索和累积经验的利用,并对认知过程中的动作进行自主地随机选取。为了验证这类仿生学习模型的有效性,本文对该动态优化仿生学习模型做了收敛性分析,并把它们应用在两轮机器人的运动平衡控制中,分别做了自平衡实验和抗干扰实验。仿真结果表明,动态优化仿生学习模型在动作选取方面体现出了类似人或动物从盲目随机搜索到有目的的大概率选择最优行为的渐进动态学习过程,在学习速度、动态性能和鲁棒性上都表现出了比自回归动态仿生学习模型更优越的性能。   (3)一种模拟基底核的人工感觉运动系统   为了模拟人或动物的认知机制和结构,本文提出了一种模拟基底核的人工感觉运动系统,研究了小脑、基底核、大脑皮层以及其它神经器官工作的协同性,构建了感觉运动系统的认知模型。该认知模型主要由小脑和基底核以及大脑皮层组成,其中,小脑通过监督学习实现状态到行为的感觉运动神经映射:基底核利用行为预测评价结果对动作实施基于操作条件反射原理的概率式选择;而大脑皮层接收并发送有用信号给基底核与小脑,从而形成了感觉运动系统的闭环反馈回路。该认知模型能够复制人或动物感觉运动系统的组织和结构,模拟这种组织和结构中的操作条件反射机制,通过不断的学习和训练,自组织的渐进形成、发展和完善其运动平衡控制技能。本文从理论上证明了模型的收敛性,从实验上验证了理论分析的正确性,并在两轮机器人上做了各种运动模式的仿真实验和抗干扰实验,再现了机器人通过自主学习逐渐掌握运动平衡控制技能的认知过程,展现了机器人与人或动物感觉运动系统相似的自主学习能力、抗干扰能力和自适应能力。   本文的研究课题得到了国家自然科学基金项目(60774077)、国家“863计划”资助项目(2007AA042226)、北京市教委重点项目(KZ200810005002)以及北京市自然科学基金项目(4102011)的支持。相关研究成果已发表在中文核心期刊、EI刊源《机器人》、《控制理论与应用》等刊物以及相关领域的国际会议刊物上。本文的研究工作对于认知模型在仿生机器人自主学习控制系统中的应用具有积极意义,可以广泛应用于人工智能、机器学习、控制科学、神经生理学、机器人学等诸多领域。
其他文献
创新意识是一种思维能力,是有别于常规思维的、新颖独到的一种思维活动。它是一种具有独特性、求异性、批判性的思维活动,包括形象思维、归纳思维、观察思维和发散思维等。具
期刊
目的:探讨胸腔镜胸膜固定术治疗大量恶性胸腔积液的临床疗效。方法:采用随机平行对照法将浚县人民医院收治的81例大量恶性胸腔积液的患者进行分组,对照组40例患者采用胸腔闭
科学技术是推动社会发展的关键,也是人们生活质量的保障.在当下,我国的通信电源技术有了高速的发展状态,并受到了社会各界更为广泛地关注和重视.由此作为契机,本文浅要论述了
通讯设备及通讯技术在社会各领域中被广泛应用,大型灾害事故现场消防救援应急通信起着至关重要的作用.但是在灾害事故现场,对消防通信技术要求很高,因为经常有很多突发性和复
如今光纤通信技术得到了广泛的使用,要想促进光纤通信技术的发展和进步,需要合理地使用光纤通信技术,而且需要明确的具体发展趋势,确保光纤通信技术的长远发展,给社会的进步
期刊
近年来,随着大数据的应用,政府的管理方式、企业的经营行为、人们的生产生活都发生了很大的改变.大数据与通信行业紧密联系,大数据的产生很大程度上来源于移动通信网络和移动
目的应用CUSUM模型探讨北京市流感流行起始时间。方法应用CUSUM模型,对北京市2014年至2016年流感监测数据进行预警分析,并与流感病原学"金标准"判断流行高峰和流感流行预警基线的时间进行比较。结果2014-2015监测年,CUSUM模型在2014年第46周发出预警,较"金标准"流行起始时间提起前1周,较ILI%预警基线提前3周。2015-2016监测年,CUSUM模型在2015年第46周发
我们国家的经济和社会不断进步发展,人们对于信息技术不断重视,无线光通信业随之不断发展,受到了我们国家不断扶持和引导,逐渐成为我们当今科技社会的前沿高端技术.本文将详
期刊