论文部分内容阅读
运动平衡技能来自于运动神经系统的学习,其中操作学习发挥了重要作用。探索运动神经系统中的操作学习机理,模拟和复制其中的自组织控制机制,并应用于机器人系统,使机器人通过学习和训练,获得类似人和动物智能行为的自主学习能力,是当前认知科学、神经生理学、控制科学和机器人学研究的重要课题。 论文结合认知科学、神经生理学以及控制科学的知识,从仿生学角度建立了不同层次下的感觉运动学习系统,探索了运动神经系统的学习和控制机制,以两轮自平衡机器人为实验平台,研究了其在运动平衡技能中的自主学习能力。取得的主要研究成果如下: (1)基于操作条件反射的基底神经节行为学习模型 在WTA原理和预测机制的构架下,建立了基于操作条件反射学习机制的基底神经节行为学习模型(BGLM)。基底神经节中的纹状体部分是该学习机制的主要介质,纹状体的输入为皮质信息,该信息由状态-行为对构成。纹状体主要由纹状小体和基质构成,纹状小体输出行为的评价信息,基质接收纹状小体的行为评价信息并依概率执行行为选择,所选行为经由丘脑传递至运动皮质,输出并作用于环境,形成皮质-纹状体-丘脑-皮质回路。奖赏预测的时间差分误差形成多巴胺能,通过黑质产生,然后反馈至纹状体并对皮质-纹状体的突触进行修饰,形成黑质-纹状体回路。所构建的基底神经节行为学习模型适用于有限离散行为的认知学习。应用该仿生学习模型对斯金纳的鸽子实验进行了模拟,仿真结果证明该学习模型具有良好的操作条件反射学习功能。将该学习模型应用于运动平衡学习问题中,采用滑模思想构建取向信息,实现了机器人的自由平衡学习任务,表现出了良好的自主平衡学习能力。 (2)小脑与基底神经节相协作的行为学习模型 针对连续行为的学习问题,提出了由小脑和基底神经节相协作的行为学习模型(CB-BGLM)。该模型主要包含三个模块:小脑的行为映射模块,基底神经节的评价模块和小脑与基底神经节相协作的概率式行为探索模块。通过概率式行为探索模块,弥补了反馈误差学习的不足。基底神经节中皮质-纹状体的突触修饰原理为时间差分学习,实现对未来奖赏的预测:皮质-小脑突触修饰原理为:当内部评价好时,认知行为向探索行为方向更新,探索行为成为学习样本,反之,更新方向相反,通过该方式,小脑的操作学习功能得以实现。采用归一化FRBFN网络来实现行为映射与评价模块,并且引入退火机制,这样习得的知识能够得以很好的保存。为了验证CB-BGLM学习模型的有效性,将其应用于两轮自平衡机器人的运动平衡学习中,表现出了良好的自主学习能力,实现了两轮自平衡机器人的直线行走,转弯行走和定点平衡控制任务。在两轮自平衡机器人中进行了物理实验,实现了自由平衡的学习目标。 (3)基于改进ADHDP方法的小脑与基底神经节协作优化学习机制 针对CB-BGLM随机搜索学习过程中存在的问题,在行为依赖启发式动态规划基础上提出了基于取向信息的自主学习方法-T-ADHDP方法。该学习方法可以有效地处理连续状态连续行为情况下的优化学习问题,取向函数的设计更好地模拟了生物的取向性。基于该方法提出了小脑和基底神经节相协作的优化学习模型,模型由皮质-小脑系统、皮质-纹状体系统以及丘脑的取向信息生成模块三部分构成。该学习模型能够通过丘脑输出的取向信息来获取不同幅值下的奖赏,从而加快学习速度。将该方法用于两轮自平衡机器人的前向定点平衡学习中,仿真结果表明:该自主学习方法在试探次数、计算机运行时间等方面都具有较大的优越性,而且在系统模型未知的情况下,通过试探式的学习,能够达到与LQR最优控制方法相同的控制效果。 在上述基于取向信息的自主学习方法中,取向性奖赏函数是通过设计的方式来实现的,缺乏自主性,为了解决该问题,引入了取向性奖赏的在线自适应学习机制。该机制的基本思想是通过初级强化信号自适应生成二级奖赏强化信号,使智能系统达到在线学习、优化和控制的目的。将基于该机制的优化学习模型用于刚性和柔性两轮自平衡机器人运动平衡学习任务中,证明了该方法的有效性;而且通过测量噪声和控制噪声存在情况下的仿真对比实验发现,该仿生自主学习方法具有较强的鲁棒学习性能。 本文的研究课题得到了国家自然科学基金项目(60774077,61075110)、国家“863计划”资助项目(2007AA04Z226)、北京市教委重点项目(KZ200810005002)以及北京市自然科学基金项目(4102011)的支持。相关研究成果已发表在EI源期刊、SCI源期刊《Neurocomputing》、《控制与决策》、《模式识别与人工智能》、《Journal of Computers》等刊物以及相关领域的国际会议刊物上。本文的研究工作对于仿生学习模型在机器人自主学习控制中的应用具有积极意义,可以广泛应用于控制科学、机器人学、神经生理学、人工智能、机器学习等诸多领域。