论文部分内容阅读
人或动物的运动平衡控制技能来自于感觉运动系统,而操作条件反射是感觉运动系统最为基本和重要的学习机制。将操作条件反射理论形式化,复制且模拟这种自组织控制机制,并应用于机器人系统,使机器人通过学习和训练,获得类似人和动物的运动平衡控制技能,是当前认知科学、神经生理学以及控制科学和机器人学研究的重要课题。
论文结合认知科学、神经生理学,从仿生学角度建立操作条件反射学习模型。以两轮自平衡机器人为实验平台,研究了仿生学习模型在机器人运动平衡控制中的自主学习能力。论文取得的主要研究成果如下:
(1)基于优势学习的操作条件反射模型
针对生物行为选择的学习特征,本文提出了一种基于优势学习的操作条件反射模型(Advantage Learning Operant Conditioning Model,ALOCM)。该模型由感知器、小脑皮质和效应器三个部分构成,其中,感知器负责接收未知环境中的状态信息:小脑皮质作为学习机制,结合优势学习中的优势量来确定从状态映射到行为的最优策略,以便自主地概率式地选择行为,并从环境中获得优势最大的动作;效应器输出相应动作,使环境变迁到新的状态,得到新的瞬时回报,从而形成了一个自探索自学习的连通体。为了解决学习过程中的延迟影响、加快学习速度和提高可靠性,引入了具有记忆功能的资格迹算法,这种优化模型利用改进的神经网络预测行为优势量,并依据动作取向机制以一定的概率选择最大优势量对应的最优行为。本文将这种仿生学习模型应用于机器人运动平衡控制问题中,做了模型的对比实验和分析,结果表明,这两种模型都能使智能体在偏离平衡位置10度的未知环境下,通过与环境的交互、学习和训练,逐步达到平衡状态,获得像人或动物一样的自主学习技能。并且,通过二者在相同条件下的对比实验可知,改进的ALOCM比原ALOCM中各状态超调量的幅值和稳态过渡时间显著降低,抗脉冲干扰的调节时间也明显缩短。
(2)动态操作条件反射模型及其动态认知过程
ALOCM对所有行为采用的是等概率选取,这与生物的随机选择并不完全一致,为了完善和体现生物认知的渐进动态学习过程,本文提出了一种动态操作条件反射模型及其动态认知过程。与ALOCM的结构类似,该动态仿生学习模型是由感知器、仿生控制器和效应器三部分构成的,其中,仿生控制器由评价网络和行为网络组成,这两种网络采用的是具有延时反馈和动态记忆功能的动态自回归网络。评价网络采用时间差分方法对动作评价函数进行逼近,将状态映射为期望的评价值;行为网络利用直接从环境中获取的行为奖赏信号,为行为网络提供一个更具信息量的评价函数以评价当前动作的好坏,实现对行为决策的优化。为了突出生物认知发育中行为随机选择的动态认知过程,在仿生控制器中引入了Boltzmann机,形成了动态优化仿生学习模型。该优化模型把由Metropolis判据改进的Boltzmann机作为动作选择机制,用温度来决定行为选择概率,合理折中对新行为的探索和累积经验的利用,并对认知过程中的动作进行自主地随机选取。为了验证这类仿生学习模型的有效性,本文对该动态优化仿生学习模型做了收敛性分析,并把它们应用在两轮机器人的运动平衡控制中,分别做了自平衡实验和抗干扰实验。仿真结果表明,动态优化仿生学习模型在动作选取方面体现出了类似人或动物从盲目随机搜索到有目的的大概率选择最优行为的渐进动态学习过程,在学习速度、动态性能和鲁棒性上都表现出了比自回归动态仿生学习模型更优越的性能。
(3)一种模拟基底核的人工感觉运动系统
为了模拟人或动物的认知机制和结构,本文提出了一种模拟基底核的人工感觉运动系统,研究了小脑、基底核、大脑皮层以及其它神经器官工作的协同性,构建了感觉运动系统的认知模型。该认知模型主要由小脑和基底核以及大脑皮层组成,其中,小脑通过监督学习实现状态到行为的感觉运动神经映射:基底核利用行为预测评价结果对动作实施基于操作条件反射原理的概率式选择;而大脑皮层接收并发送有用信号给基底核与小脑,从而形成了感觉运动系统的闭环反馈回路。该认知模型能够复制人或动物感觉运动系统的组织和结构,模拟这种组织和结构中的操作条件反射机制,通过不断的学习和训练,自组织的渐进形成、发展和完善其运动平衡控制技能。本文从理论上证明了模型的收敛性,从实验上验证了理论分析的正确性,并在两轮机器人上做了各种运动模式的仿真实验和抗干扰实验,再现了机器人通过自主学习逐渐掌握运动平衡控制技能的认知过程,展现了机器人与人或动物感觉运动系统相似的自主学习能力、抗干扰能力和自适应能力。
本文的研究课题得到了国家自然科学基金项目(60774077)、国家“863计划”资助项目(2007AA042226)、北京市教委重点项目(KZ200810005002)以及北京市自然科学基金项目(4102011)的支持。相关研究成果已发表在中文核心期刊、EI刊源《机器人》、《控制理论与应用》等刊物以及相关领域的国际会议刊物上。本文的研究工作对于认知模型在仿生机器人自主学习控制系统中的应用具有积极意义,可以广泛应用于人工智能、机器学习、控制科学、神经生理学、机器人学等诸多领域。