论文部分内容阅读
SLAM技术是目前机器人、自动驾驶、增强现实等领域的关键技术之一,是智能移动平台感知周围环境的基础技术。现有的系统与方法鲁棒性并不高,随着人工智能技术的发展,深度学习与传统的基于几何模型的方法相结合的趋势正在形成,这将推动视觉SLAM技术朝着长时间大范围实时语义应用的方向前进。本文致力于把使用实例分割算法提取得到语义信息和视觉SLAM相结合,主要完成的工作如下:第一、设计视觉SLAM系统硬件框架并完成关键模块的选型,设计系统软件框架并给出了基于各种核心软件的流程框图。第二、设计了一种自适应数据集的向量格式去存储由Mask R-CNN提取得到的语义信息,利用得到的语义向量,提出了一种使用机器学习算法去度量图像相似度的方法流程,包括将语义向量进行组合生成特征向量、给出判定场景是否相似的标准来标记样本、模型的参数自动调整。利用公开的数据集对整个流程进行测试,得到99%以上的准确率和98%以上的召回率。第三、针对SLAM系统中基于特征点相似度判断回环的方式存在的问题,使用融合语义信息的图像相似度鉴定回环。使用机器学习模型输出的概率值作为图像在语义层次上的相似度,先利用组合滤波的方式去除语义相似度中的异常值,然后将语义相似度和基于词袋模型的特征点相似度进行加权融合,利用融合后的相似性去判断回环。经过实验验证,这种方法可以得到更高的准确率和召回率,以及对动态环境更强的鲁棒性。第四、提出了一种结合语义信息的三维构图的方式,利用包含语义信息的掩码图像和对应的深度图像进行融合,生成包含语义信息的三维点云地图,并利用去噪、稀疏化、分割等操作,使生成的点云地图更加便于存储,更加精确。最后分别针对现实中的实验场景和公开数据集进行了三维构图测试。