论文部分内容阅读
无人机能代替人类完成许多困难的任务,其自主导航一直是无人机领域的一个研究难题。传统基于模型的无人机导航方法的有效性需要依赖于无人机自身对周围的环境信息进行精确建模,这也就导致了传统的无人机导航算法对于陌生环境的适应能力大大降低。另一方面,自然界生物进化时,展现出对于环境的不确定性有着很强的自适应能力,因此本文从生物强化学习的角度考察无人机在室内环境下自适应导航这一问题。基于强化学习的无人机导航存在强化学习策略的训练和强化学习策略迁移的两方面关键问题。特别的,本次工作用到的传感器为单目摄像头,这对于有行人的室内环境目前仍是个难题。本工作对这三个问题加以深入探讨。针对强化学习策略的训练的问题,本文提出一种基于深度确定性策略梯度(DDPG)的深度强化学习模型的改进模型,以提高现有无人机自主导航策略对环境的适应能力以及学习速度。该模型包含三个部分:首先,仅利用激光雷达数据作为状态输入状,用以感知环境信息;其次,设计合理的回报函数用以激励策略更快、更好地学习;最后,设计合理的动作空间使得无人机流畅决策。经过在仿真环境下的强化学习训练,装载有单线激光雷达的室内小型无人机能够在仿真环境下进行稳定避障导航,在陌生的仿真环境下也具有较好的自适应能力。针对强化学习策略迁移的问题,提出跨传感器迁移学习的全新框架,用以提高仿真环境下训练出来的策略向现实世界的迁移效果。这种跨传感器的迁移学习框架在迁移学习的过程中,首先在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过DDPG算法,训练得到一个稳定的初级避障策略。其次用单目摄像头和激光雷达采集现实环境中的视觉和深度数据集并逐帧绑定,使用初级避障策略对现实数据集进行自动标注,并训练得到无需激光雷达的单目视觉避障策略,实现从虚拟激光雷达到现实单目视觉的跨传感器迁移学习。针对室内有行人环境下的单目无深度信息的导航难题,提出一种YOLO v3-tiny网络与Resnet18网络组成异步深度神经网络结构,实现规划器与行人信息的结合,缓解行人形态差异过大造成的策略不稳定,使得在不具备深度信息的情况下,依旧能够在室内有行人的情况下进行有效、稳定避障。为了验证强化学习策略、迁移学习以及并行深度神经网络结构的有效性。最后,我们在实物大疆Mavic无人机上展开实验。实验表明,实物无人机最终能够在现实的室内无人走廊里、室内有人走廊里、光线不稳定的室内环境下进行稳定高效避障导航。