论文部分内容阅读
近年来,随着机器人技术的不断发展,服务机器人逐渐在人类生产生活中得到应用。在一些特殊的应用场景中,腿足式机器人比轮式机器人更灵活有效,逐渐成为机器人研究领域的热点。步态控制是双足机器人正常工作的基础,主要是指机器人依靠自身双足完成平衡控制、鲁棒行进、跌落复原等动作,涉及多自由度关节驱动、运动控制、姿态感知等问题。为实现腿足机器人运动平衡,其控制策略需要避免在运动规划时出现腿足碰撞。传统的控制方法首先对双腿建立精确的数学模型,然后,根据人类步态分析设计平衡判据,以此规划腿足末端的运动轨迹,最后,通过正逆运动学方程求出各腿部关节的角度。传统腿足式机器人控制方法存在计算量大、鲁棒性低、通用性差等问题,深度强化学习算法为解决这—问题提供了新思路。深度强化学习从实际场景出发通过智能体与环境交互能够自主探索动作空间,从环境反馈中学习运动控制策略,避免了数学模型不精确带来的问题,在训练中能够不断增强鲁棒性。本文旨在使用深度强化学习控制双足机器人的步行运动,提高双足机器人步行控制算法的通用性和鲁棒性。首先,本文在介绍国内外双足机器人平衡控制与强化学习算法的基本概念及研究进展的基础上,设计了基于视觉的机器人模仿系统,通过实验证明了传统控制方法存在的不足,引出深度强化学习的重要性。其次,论述了强化学习中的几类经典算法模型,介绍了算法的发展脉络,对各算法的特点及其使用的领域进行了对比分析,讨论了机器人深度强化学习中的训练算法与实体迁移问题,介绍了 PPO(Proximal Policy Optimization,PPO)和现实弥合训练策略,并结合本课题的研究目标设计强化学习状态动作空间与奖励函数。再次,参考真实机器人设计并搭建MuJoCo(Multi-Joint dynamics with Contact)仿真环境,基于PPO算法设计双足机器人鲁棒运动所需的高维连续空间控制策略。机器人通过与仿真环境的交互,基于任务奖励函数学习完成平衡控制任务。将训练好的虚拟机器人在MuJoCo中进行测试,验证深度强化学习训练策略的有效性。最后,基于ROS(Robot Operating System,ROS)实现MuJoCo仿真环境到真实Nao机器人的实体迁移,将Nao机器人传感器与服务端计算机整合到一个分布式通讯架构中,通过ROS服务机制实现Nao机器人在真实环境中的鲁棒运动控制任务。