基于强化学习的机械臂自学习控制

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:easy69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域中重要的前沿方向,在各个领域中基于DRL方法的应用都已取得了突破性的进展,特别是在机械臂控制领域。传统的机械臂控制方法对机械臂模型及环境模型具有较强的依赖性,在未知、动态、非结构化场景下的机械臂只能按照预设的方式作业,导致机械臂动作的精准度、计算速率都会相应降低,为拓展机械臂的应用场景,并从根本上解决问题,结合近些年DRL方法的发展趋势,进而采用DRL方法解决机械臂的运动控制。论文的主要研究内容是如何在特定环境下基于强化学习方法使得将高维感知数据作为输入的机械臂以自主学习的方式得到最优控制策略。论文的目标是基于双摄像头拍摄到的实时图像作为状态的机械臂自主学习完成抓取特定区域内目标物体的任务。论文的主要研究内容是:针对单视角拍摄到的相邻状态图像间具有较高的相关性,并不能真实描述当前环境的现象,采用左右双视角来减弱三维立体图像映射到二维平面图像所产生的映射误差。针对具有连续状态及连续动作的机械臂控制问题,综合考虑了时间、距离及环境鲁棒性三个影响因素设计了机械臂控制策略的回报函数机制,当机械臂所处环境发生较大变化时,所设计的回报函数依然适用。为保证实验中机械臂训练的连贯性及安全性,防止机械臂与自身及环境中物体发生碰撞现象,引入机械臂安全保障机制。针对DDPG(Deep Deterministic Policy Gradient)算法中经验回放机制的存储模式改为数据约束后的存储模式,从而在训练初期节省存储空间的同时提升学习效率。在PPO(Proximal Policy Optimization)算法的应用中,将优势函数的估计方法由N步回报价值估计法改为GAE(Generalized Advantage Estimation)方法,使得模型在方差与偏差之间可得到更好的平衡,根据具体应用问题可获取更合适的估计方法。论文研究了基于确定性策略及随机性策略的机械臂控制,即基于DDPG算法的机械臂控制与基于PPO算法的机械臂控制。在仿真环境Gazebo中实现了基于DDPG算法、PPO算法的机械臂抓取特定区域内目标物体的任务。实验结果验证了基于DDPG算法、PPO算法的两种机械臂控制策略的有效性及基于GAE方法的PPO算法的可行性及适用性。
其他文献
<正>俄语中的句法联系主要研究词与词之间结合的各种规则。传统语法认为,实词和实词之间语法上的有规律的联系叫做句法联系。俄语属屈折语,句法联系主要靠词形的变化来表达。
对论文《运用非线性系统理论确定电力系统暂态稳定域的一种新方法》[1]中所提出的映射机理作了几何解释;提出了确定电力系统临界切除时间的定理;通过对一简单电力系统和电科
目的:本研究旨在探讨老年衰弱与炎症反应及凝血功能是否存在相关性,并根据Fried衰弱表型评估方法将老年患者分为不同衰弱表型进一步进行亚组分析,探索不同的衰弱表型与炎症反应及凝血功能之间的关系,为下一步的干预性研究提供依据。方法:1.选择2018年01月至2018年06月于烟台毓璜顶医院老年病科住院的年龄70岁及以上患者,根据纳入标准和排除标准最终确定283例研究对象。2.所有研究对象检测其血中白细
为了进一步促进闭环供应链的发展,鼓励企业加入废旧电子产品回收行业,许多国家出台了相应的政策,促使许多企业开始加入到回收行业。随着回收行业的不断发展,企业开始面临着回收策略选择的问题。因此,本文运用博弈理论,基于实际闭环供应链运营现状,研究了政府补贴、政府税收及政府税收和补贴三种情境下闭环供应链回收最优策略问题,主要内容和研究发现如下:首先,构建无补贴和有补贴的制造商回收决策模型,并分析和比较这两种
文章基于自适应线性神经元网络,给出了一种可在三相不对称非线性负载情况下用于有源电 力滤波器的畸变电流检测方法,该方法具有实时、准确、能自适应跟踪负载电流的变化等特 点
背景与目的:Adropin是一种新型内源性生物活性肽,具有血管内皮保护作用,且与动脉粥样硬化(Atherosclerosis,AS)的多种危险因素呈负相关。目前尚不清楚Adropin是否影响AS病变的
21世纪的竞争归根到底是人的竞争,人力资本已经成为企业取得竞争优势的最主要来源。员工培训是企业人力资源管理不可或缺的重要组成部分,也是提升员工能力水平和业绩的一种有
腐败是由多种原因共同作用的结果,其中公职人员薪水的高低不是主要因素,因此即使实行"高薪"也未必廉;劳动者薪水的高低主要取决于社会经济发展的整体水平、劳动力再生产所需