论文部分内容阅读
随着人类对海洋开发和认识的逐步深入,视觉水下航行器已成为探索海洋的关键设备,并广泛应用于水下搜救、勘测及海洋生物监测等任务。视觉环境感知作为视觉水下航行器获取、分析和认知所处环境的重要手段,通过处理和反馈视觉信息辅助水下航行器自主控制决策,保障了决策的正确性及水下航行器的安全性。在不同水下任务下环境感知与自主控制决策的实时性存在差异,不匹配的感知和控制方案会造成状态提取与控制决策的异步,无法保障水下航行器自主航行控制的鲁棒性,严重时甚至造成控制系统的失稳导致任务失败。在此背景下,本文以水下航行器为研究对象,以离散视觉(图像)和连续视觉(视频)感知条件下的自主强化控制决策为目标,利用深度学习通过环境数据驱动获取感知特征,利用强化学习通过航行状态驱动获取动作决策,进而满足水下航行器自主感知与分析、决策与控制一体化的自主航行需求,主要研究工作如下:论文在论述了水下航行器及其智能感知与决策算法的发展与研究现状的基础上,阐述了深度强化学习算法的原理。针对离散视觉的水下环境深度预测,设计了一种具备离散深度特征信息提取功能的全卷积残差网络,在编码器—解码器的神经网络架构下,结合残差学习和监督学习,解决了水下环境离散视觉深度预测的边缘模糊和细节缺失问题。考虑到连续视觉帧间变化造成的视觉错位问题,设计了一种具备连续深度特征信息提取功能的视差估计网络,在图像深度特征信息提取的基础上,引入自我运动评估网络实现相邻帧图像匹配,解决了水下环境连续视觉的深度预测延迟问题。面向水下离散视觉感知的自主离散控制,设计了一种基于竞争式深度双重Q网络的自主强化控制网络,采用Q值强化学习为基础控制框架,以离散深度图作为状态信息输入,通过卷积神经网络提取状态信息,结合贪婪竞争学习和在线训练机制,实现了水下航行器的自主离散决策控制。针对连续视觉感知条件下的自主连续决策控制,设计了一种基于深度确定性梯度策略的自主强化控制网络,在“决策-评价”强化学习的控制框架下,以连续深度视频作为状态信息输入,通过深度神经网络模拟策略和Q值计算,结合Q值强化学习的在线训练机制,解决了水下航行器的自主连续决策控制问题。结合相应离散和连续视觉感知和自主强化控制方法,进行了联合仿真训练和实际试验,实验结果表明提出的自主强化控制方法能够实现视觉感知条件下的水下航行器自主控制和导航避碰功能,兼具高精度、强鲁棒等优点,验证了所提方案的有效性和实用性,为浅水域水下航行器的应用提供了一种新思路。