论文部分内容阅读
目前,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域中重要的前沿方向,在各个领域中基于DRL方法的应用都已取得了突破性的进展,特别是在机械臂控制领域。传统的机械臂控制方法对机械臂模型及环境模型具有较强的依赖性,在未知、动态、非结构化场景下的机械臂只能按照预设的方式作业,导致机械臂动作的精准度、计算速率都会相应降低,为拓展机械臂的应用场景,并从根本上解决问题,结合近些年DRL方法的发展趋势,进而采用DRL方法解决机械臂的运动控制。论文的主要研究内容是如何在特定环境下基于强化学习方法使得将高维感知数据作为输入的机械臂以自主学习的方式得到最优控制策略。论文的目标是基于双摄像头拍摄到的实时图像作为状态的机械臂自主学习完成抓取特定区域内目标物体的任务。论文的主要研究内容是:针对单视角拍摄到的相邻状态图像间具有较高的相关性,并不能真实描述当前环境的现象,采用左右双视角来减弱三维立体图像映射到二维平面图像所产生的映射误差。针对具有连续状态及连续动作的机械臂控制问题,综合考虑了时间、距离及环境鲁棒性三个影响因素设计了机械臂控制策略的回报函数机制,当机械臂所处环境发生较大变化时,所设计的回报函数依然适用。为保证实验中机械臂训练的连贯性及安全性,防止机械臂与自身及环境中物体发生碰撞现象,引入机械臂安全保障机制。针对DDPG(Deep Deterministic Policy Gradient)算法中经验回放机制的存储模式改为数据约束后的存储模式,从而在训练初期节省存储空间的同时提升学习效率。在PPO(Proximal Policy Optimization)算法的应用中,将优势函数的估计方法由N步回报价值估计法改为GAE(Generalized Advantage Estimation)方法,使得模型在方差与偏差之间可得到更好的平衡,根据具体应用问题可获取更合适的估计方法。论文研究了基于确定性策略及随机性策略的机械臂控制,即基于DDPG算法的机械臂控制与基于PPO算法的机械臂控制。在仿真环境Gazebo中实现了基于DDPG算法、PPO算法的机械臂抓取特定区域内目标物体的任务。实验结果验证了基于DDPG算法、PPO算法的两种机械臂控制策略的有效性及基于GAE方法的PPO算法的可行性及适用性。