论文部分内容阅读
近年来,人工智能以前所未有的速度迅速发展,并广泛应用于各行各业。在移动机器人、增强现实等应用中,智能设备需要感知自身在真实物理空间中的方位,以及场景的三维结构。基于视频序列的跟踪定位与场景三维感知,仅需普通摄像头即可实现上述功能,是未来移动的智能设备上不可或缺的一项关键技术。这一技术根据实时性需求可以分为离线的运动恢复结构(Structure from Motion,简称SFM),和实时的基于视觉的同时定位与地图构建(Visual Simultaneous Localization and Mapping,简称V-SLAM)。随着应用场景愈发复杂多样,现有的SFM和V-SLAM方法面临着鲁棒性和效率这两大挑战。一方面,基于视觉的SFM和V-SLAM方法在复杂环境中容易失效。比如,现有方法难以鲁棒地处理大尺度场景,或是强烈旋转、快速运动等运动方式,算法稳定性也严重依赖于图像纹理特征的丰富程度。另一方面,由于图像视频在空间和时序上都高度冗余,现有方法需要耗费大量的计算资源,甚至需要借助GPU的并行计算能力,难以应用于计算性能较低的移动设备。随着应用场景尺度的不断增大,现有方法又存在内存和效率的瓶颈。针对上述问题,本文深入研究了复杂环境下的SFM和V-SLAM,提出了一系列SFM/V-SLAM方法和系统,不仅比之前的方法有更高的鲁棒性和效率,而且能够很好地满足实际应用需求。具体来说,本文主要贡献如下:●提出了一套新的面向大尺度场景的运动恢复结构框架,采用基于非连续帧特征匹配的回路检测和闭合,并结合基于分段的集束调整,可以在有限内存下进行大尺度场景的高效全局优化、消除误差累积,实现了大尺度场景多视频序列的高效、高精度三维注册和单目视频序列的实时同时定位与地图构建。●提出了一种基于关键帧的鲁棒高效的单目SLAM方法,采用基于多种单应性的特征跟踪方法和高效的局部地图扩展与优化策略,有效解决了基于关键帧的单目SLAM方法在强旋转和快速运动下的鲁棒跟踪难题,且计算效率明显高于ORB-SLAM和LSD-SLAM等方法,并巧妙地通过视觉方法来模拟IMU数据进行融合优化,进一步提升了运动模糊和特征缺失情况下的鲁棒性。●提出了一种基于RGB-D视频的高效精确的SLAM方法,将低分辨率稠密RGB-D图像对齐和基于稀疏特征点的跟踪结合起来,并采用了一个新颖的增量式集束调整,解决了现有RGB-D SLAM方法计算效率低和精度不够高的问题,而且只用CPU就可以达到强实时的处理速度。