自平衡机器人仿生运动平衡控制技能的自主学习研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:supercow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
运动平衡技能来自于运动神经系统的学习,其中操作学习发挥了重要作用。探索运动神经系统中的操作学习机理,模拟和复制其中的自组织控制机制,并应用于机器人系统,使机器人通过学习和训练,获得类似人和动物智能行为的自主学习能力,是当前认知科学、神经生理学、控制科学和机器人学研究的重要课题。  论文结合认知科学、神经生理学以及控制科学的知识,从仿生学角度建立了不同层次下的感觉运动学习系统,探索了运动神经系统的学习和控制机制,以两轮自平衡机器人为实验平台,研究了其在运动平衡技能中的自主学习能力。取得的主要研究成果如下:  (1)基于操作条件反射的基底神经节行为学习模型  在WTA原理和预测机制的构架下,建立了基于操作条件反射学习机制的基底神经节行为学习模型(BGLM)。基底神经节中的纹状体部分是该学习机制的主要介质,纹状体的输入为皮质信息,该信息由状态-行为对构成。纹状体主要由纹状小体和基质构成,纹状小体输出行为的评价信息,基质接收纹状小体的行为评价信息并依概率执行行为选择,所选行为经由丘脑传递至运动皮质,输出并作用于环境,形成皮质-纹状体-丘脑-皮质回路。奖赏预测的时间差分误差形成多巴胺能,通过黑质产生,然后反馈至纹状体并对皮质-纹状体的突触进行修饰,形成黑质-纹状体回路。所构建的基底神经节行为学习模型适用于有限离散行为的认知学习。应用该仿生学习模型对斯金纳的鸽子实验进行了模拟,仿真结果证明该学习模型具有良好的操作条件反射学习功能。将该学习模型应用于运动平衡学习问题中,采用滑模思想构建取向信息,实现了机器人的自由平衡学习任务,表现出了良好的自主平衡学习能力。  (2)小脑与基底神经节相协作的行为学习模型  针对连续行为的学习问题,提出了由小脑和基底神经节相协作的行为学习模型(CB-BGLM)。该模型主要包含三个模块:小脑的行为映射模块,基底神经节的评价模块和小脑与基底神经节相协作的概率式行为探索模块。通过概率式行为探索模块,弥补了反馈误差学习的不足。基底神经节中皮质-纹状体的突触修饰原理为时间差分学习,实现对未来奖赏的预测:皮质-小脑突触修饰原理为:当内部评价好时,认知行为向探索行为方向更新,探索行为成为学习样本,反之,更新方向相反,通过该方式,小脑的操作学习功能得以实现。采用归一化FRBFN网络来实现行为映射与评价模块,并且引入退火机制,这样习得的知识能够得以很好的保存。为了验证CB-BGLM学习模型的有效性,将其应用于两轮自平衡机器人的运动平衡学习中,表现出了良好的自主学习能力,实现了两轮自平衡机器人的直线行走,转弯行走和定点平衡控制任务。在两轮自平衡机器人中进行了物理实验,实现了自由平衡的学习目标。  (3)基于改进ADHDP方法的小脑与基底神经节协作优化学习机制  针对CB-BGLM随机搜索学习过程中存在的问题,在行为依赖启发式动态规划基础上提出了基于取向信息的自主学习方法-T-ADHDP方法。该学习方法可以有效地处理连续状态连续行为情况下的优化学习问题,取向函数的设计更好地模拟了生物的取向性。基于该方法提出了小脑和基底神经节相协作的优化学习模型,模型由皮质-小脑系统、皮质-纹状体系统以及丘脑的取向信息生成模块三部分构成。该学习模型能够通过丘脑输出的取向信息来获取不同幅值下的奖赏,从而加快学习速度。将该方法用于两轮自平衡机器人的前向定点平衡学习中,仿真结果表明:该自主学习方法在试探次数、计算机运行时间等方面都具有较大的优越性,而且在系统模型未知的情况下,通过试探式的学习,能够达到与LQR最优控制方法相同的控制效果。  在上述基于取向信息的自主学习方法中,取向性奖赏函数是通过设计的方式来实现的,缺乏自主性,为了解决该问题,引入了取向性奖赏的在线自适应学习机制。该机制的基本思想是通过初级强化信号自适应生成二级奖赏强化信号,使智能系统达到在线学习、优化和控制的目的。将基于该机制的优化学习模型用于刚性和柔性两轮自平衡机器人运动平衡学习任务中,证明了该方法的有效性;而且通过测量噪声和控制噪声存在情况下的仿真对比实验发现,该仿生自主学习方法具有较强的鲁棒学习性能。  本文的研究课题得到了国家自然科学基金项目(60774077,61075110)、国家“863计划”资助项目(2007AA04Z226)、北京市教委重点项目(KZ200810005002)以及北京市自然科学基金项目(4102011)的支持。相关研究成果已发表在EI源期刊、SCI源期刊《Neurocomputing》、《控制与决策》、《模式识别与人工智能》、《Journal of Computers》等刊物以及相关领域的国际会议刊物上。本文的研究工作对于仿生学习模型在机器人自主学习控制中的应用具有积极意义,可以广泛应用于控制科学、机器人学、神经生理学、人工智能、机器学习等诸多领域。
其他文献
电动助力转向系统(EPS)是一种依靠电动机辅助转向的动力转向系统,主要由传感器、助力电动机、电动机减速器、控制器、控制策略等关键要素组成。EPS具有环保、节能、结构简单
随着电力电子技术与控制理论的发展,电力逆变器不仅能够提供三相电源而且能够提供多相电源,从而使多相电机系统在电力传动领域得到了应用。多相电机系统具有整体可靠性高,低压功率器件实现大功率传动,效率高等显著特点,但控制方法的实现过于复杂。本文采用梯形波相电流驱动的控制方法,利用Matlab/Simulink与MagNet软件,对六相感应电机的电磁转矩、转速、效率等进行了仿真研究。首先,本文阐述了梯形波相
脑是人体最复杂、最高效的信息处理系统。基于脑功能磁共振成像的研究已经发现在脑区之间存在低频信号的一致波动。这些空间上离散分柿但功能上相互作用的脑区被称作构成脑功
隐马尔科夫模型(Hidden Markov Model,HMM)是当前连续语音识别领域应用最为广泛的声学模型,但HMM基于的语音帧之间相互独立的假设并不符合语音信号真实分布。为此,研究人员提
为了使现代工业机器人能够适用于复杂的工作如焊缝跟踪,灌装线的准确定位等,一种基于视觉信息的机器人控制方法—视觉伺服吸引了众多研究人员的关注。在现有机器人的视觉伺服系
随着电力系统输电电压等级和传输容量的不断提高,传统的电磁式电流互感器由于存在绝缘性能差、磁滞、磁饱和、精度低等缺点已难以满足当今社会的需要。光纤电流互感器由于具
多目标跟踪系统在军事和民用方面都有着广泛的应用,多目标跟踪算法是多目标跟踪系统的关键和难点。人们对于多目标跟踪算法已进行了半个多世纪的研究,提出了很多种多目标跟踪算
用户兴趣模型是个性化服务的关键组成部分,旨在发现和挖掘特定个体或群体的特征信息,从而为个性化服务的展开提供信息支持和决策依据。到目前为止,全球范围内对用户兴趣的研
异步起动永磁同步电机(Line-Start Permanent Magnet Synchronous Motor―LS-PMSM)是具有自起动能力的永磁同步电机,其兼具感应电动机和电励磁同步电动机的特点。该种电机采用
三维可视化技术的飞速发展及目前教学设备及方法存在弊端的现实,使虚拟实验室的建立成为推动教育模式信息化的有效方法,已逐步成为最近几年国内外实验课程教学研究和应用的热点