论文部分内容阅读
位姿估计是指利用视觉等传感器获取的信息,从中估计目标物体与传感器之间的距离与姿态,该技术是机器人与环境交互、虚拟现实等应用的关键组成部分之一。传统计算机视觉方法中的特征提取算法所提取的特征信息往往不能满足任务的需求,深度学习在计算机视觉领域展现出的强大特征抽象与表达能力,为位姿估计问题提供了新的研究思路。另外深度相机、激光等传感器的发展与应用也给该问题提供了更加多样的手段,但是这些传感器对于物体材质、形状等有一定的要求,通常需要在结构化环境中使用。多目视觉往往存在安装困难、调试复杂。相比之下视觉传感器具有低廉的价格与较少的使用限制,同时易于推广和扩展到不同非结构化环境下的机器人平台上。考虑到基于传统方法的单目位姿估计方法难以克服非结构化环境中诸如复杂背景、遮挡等问题,本文在利用深度学习方法通过对目标物体进行识别,以获得目标物体的尺度等特征,进而估计出更精确的位姿信息,同时获得更强的鲁棒性和泛化能力。本文主要工作有:1)在深度神经网络的基础上设计了一个多任务的端到端位姿估计模型,该模型分为了目标检测与位姿估计两部分。在位姿估计部分设计使用了优化的损失函数,使得模型能直接估计物体的位姿,避免使用了其他方法中常用的二维和三维的映射关系,简化了整个流程。参考光流网络的训练方式,在网络训练中尝试使用了合成数据作为训练集。和参考方法相比较,本文的方法在位姿预测的结果中精度提升了近20%。2)为了改善目标物体位姿估计的精确性,设计了一个基于比例预测的精度提升网络模型。在假设已有物体三维模型的前提下,利用该模型估计物体在真实图像和渲染图像之间的位姿差。其中在模型的平移量预测中利用比例代替法,减少了物体实际尺寸对结果的影响,提升了整个模型的泛化能力。该方法的引入使得位姿估计在精度得到了20%的提升。综上,本文利用深度学习方法对物体进行识别与位姿估计,并在公开数据集上进行了实验,在单张图像中的物体位姿估计取得了不错的效果。