基于视觉深度预测的水下航行器自主强化控制研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:hero18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类对海洋开发和认识的逐步深入,视觉水下航行器已成为探索海洋的关键设备,并广泛应用于水下搜救、勘测及海洋生物监测等任务。视觉环境感知作为视觉水下航行器获取、分析和认知所处环境的重要手段,通过处理和反馈视觉信息辅助水下航行器自主控制决策,保障了决策的正确性及水下航行器的安全性。在不同水下任务下环境感知与自主控制决策的实时性存在差异,不匹配的感知和控制方案会造成状态提取与控制决策的异步,无法保障水下航行器自主航行控制的鲁棒性,严重时甚至造成控制系统的失稳导致任务失败。在此背景下,本文以水下航行器为研究对象,以离散视觉(图像)和连续视觉(视频)感知条件下的自主强化控制决策为目标,利用深度学习通过环境数据驱动获取感知特征,利用强化学习通过航行状态驱动获取动作决策,进而满足水下航行器自主感知与分析、决策与控制一体化的自主航行需求,主要研究工作如下:论文在论述了水下航行器及其智能感知与决策算法的发展与研究现状的基础上,阐述了深度强化学习算法的原理。针对离散视觉的水下环境深度预测,设计了一种具备离散深度特征信息提取功能的全卷积残差网络,在编码器—解码器的神经网络架构下,结合残差学习和监督学习,解决了水下环境离散视觉深度预测的边缘模糊和细节缺失问题。考虑到连续视觉帧间变化造成的视觉错位问题,设计了一种具备连续深度特征信息提取功能的视差估计网络,在图像深度特征信息提取的基础上,引入自我运动评估网络实现相邻帧图像匹配,解决了水下环境连续视觉的深度预测延迟问题。面向水下离散视觉感知的自主离散控制,设计了一种基于竞争式深度双重Q网络的自主强化控制网络,采用Q值强化学习为基础控制框架,以离散深度图作为状态信息输入,通过卷积神经网络提取状态信息,结合贪婪竞争学习和在线训练机制,实现了水下航行器的自主离散决策控制。针对连续视觉感知条件下的自主连续决策控制,设计了一种基于深度确定性梯度策略的自主强化控制网络,在“决策-评价”强化学习的控制框架下,以连续深度视频作为状态信息输入,通过深度神经网络模拟策略和Q值计算,结合Q值强化学习的在线训练机制,解决了水下航行器的自主连续决策控制问题。结合相应离散和连续视觉感知和自主强化控制方法,进行了联合仿真训练和实际试验,实验结果表明提出的自主强化控制方法能够实现视觉感知条件下的水下航行器自主控制和导航避碰功能,兼具高精度、强鲁棒等优点,验证了所提方案的有效性和实用性,为浅水域水下航行器的应用提供了一种新思路。
其他文献
①目的探讨本区域手外伤的临床急救策略和预防方法。②方法分析1257例手外伤患者院前院内的急救经过和处理过程。③结果 1257例患者中,"120"急救157例(12.49%),自救462例(36.
7月15日,由中国房地产报主办,盘古七星公馆、亚豪机构协办的中国房地产报营销沙龙之“豪宅营销变局:2014年下半年走势研判与对策”,在北京盘古大观“空中四合院”举办。$$  北
报纸
中药药性理论是中药作用性质及特征的集中概况。”药对”是依据药性以及七情和合理论的两味中药固定配伍形式。黄连与吴茱萸药对属寒热配伍代表性药对。基于“寒者热之,热者
魏元帝景元三年,嵇康为司马昭所杀。一个被他的时代奉上神坛的人,最终成了时代的祭品。对于嵇康,《晋书》有这样的描述:“康早孤,有奇才,远迈不群。身长七尺八寸,美词气,有风
目的对小儿腹泻的病因和临床有效的治疗方法进行分析和探究。方法便利选取在该院2016年1月—2017年1月期间收治的120例小儿腹泻患者作为临床观察对象,对其病因进行了调查和分
采用车—线—桥系统试验的方法,测试动车组通过大胜关长江大桥及邻近线路区段时车辆、轨道和桥梁的动力响应,对该桥的动力特性进行现场测试与分析。结果表明:桥梁的横、竖向
说明了《采煤概论》开设的重要性及特点,从对学生智能特征认识不足、教学方式僵化、评价功能不足、教与学双方之间沟通不畅等方面阐述了课程教学中存在的问题及原因,说明了引入
目的 :探讨大枣多糖对免疫功能的影响。方法 :用环磷酰胺引致小鼠免疫低下。结果 :大枣多糖可显著促进免疫低下小鼠腹腔巨噬细胞IL 1α的产生及活性 ,促进体外脾细胞增殖。结
自媒体作为传媒业的新生力量,实现了传播主体大众化和信息的螺旋式扩散。以微博、微信为代表的自媒体,日益成为人们获得资讯、阐发个人言论的平台。在培育公民社会主义核心价