低成本视觉下的三维物体识别与位姿估计

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 2次 | 上传用户:wangxiangbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
位姿估计是指利用视觉等传感器获取的信息,从中估计目标物体与传感器之间的距离与姿态,该技术是机器人与环境交互、虚拟现实等应用的关键组成部分之一。传统计算机视觉方法中的特征提取算法所提取的特征信息往往不能满足任务的需求,深度学习在计算机视觉领域展现出的强大特征抽象与表达能力,为位姿估计问题提供了新的研究思路。另外深度相机、激光等传感器的发展与应用也给该问题提供了更加多样的手段,但是这些传感器对于物体材质、形状等有一定的要求,通常需要在结构化环境中使用。多目视觉往往存在安装困难、调试复杂。相比之下视觉传感器具有低廉的价格与较少的使用限制,同时易于推广和扩展到不同非结构化环境下的机器人平台上。考虑到基于传统方法的单目位姿估计方法难以克服非结构化环境中诸如复杂背景、遮挡等问题,本文在利用深度学习方法通过对目标物体进行识别,以获得目标物体的尺度等特征,进而估计出更精确的位姿信息,同时获得更强的鲁棒性和泛化能力。本文主要工作有:1)在深度神经网络的基础上设计了一个多任务的端到端位姿估计模型,该模型分为了目标检测与位姿估计两部分。在位姿估计部分设计使用了优化的损失函数,使得模型能直接估计物体的位姿,避免使用了其他方法中常用的二维和三维的映射关系,简化了整个流程。参考光流网络的训练方式,在网络训练中尝试使用了合成数据作为训练集。和参考方法相比较,本文的方法在位姿预测的结果中精度提升了近20%。2)为了改善目标物体位姿估计的精确性,设计了一个基于比例预测的精度提升网络模型。在假设已有物体三维模型的前提下,利用该模型估计物体在真实图像和渲染图像之间的位姿差。其中在模型的平移量预测中利用比例代替法,减少了物体实际尺寸对结果的影响,提升了整个模型的泛化能力。该方法的引入使得位姿估计在精度得到了20%的提升。综上,本文利用深度学习方法对物体进行识别与位姿估计,并在公开数据集上进行了实验,在单张图像中的物体位姿估计取得了不错的效果。
其他文献
随着国内外金融环境变化、大中型银行加速业务下沉,纷纷重返县域市场,加大对县域地区网点布设的力度,利用总行资金集中、科技集中和产品多样化的天然优势,不断抢占县域金融市场;村镇银行作为“服务边区、支农支小”的金融代表,其传统的地缘优势和基础客户群体被不断削弱。村镇银行要转型发展,不断加强内部管理、合理高效配置资源、实施精细化的成本管理是比然的选择。本文通过问卷调查和个人访谈的方式对H村镇银行成本管理现
航拍图像全景生成及其地理配准是计算机视觉领域的一个热门研究方向,不仅在工业制造、交通规划、地理勘测、灾害评估等民用领域有着广泛的应用需求,而且在军事侦察监视领域也发挥着重要的作用。然而,无人机航拍图像普遍存在几何变形、特征点分布不均匀、运动目标干扰等问题,在生成全景图像时易出现鬼影和视差等现象,其地理配准的精度难以得到保证。因此本文在分析现有的全景拼接和视觉定位技术的基础上,研究了无人系统航拍图像
在功利化和专业化的教学模式下,高校法学专业过多地重视学生的专业素质教育,忽视了人文素质教育。而人文素质教育不论是对“社会人”的培养,还是对“法律人”的培养都具有重要意
试图将历史和图书馆学简史结合起来,从历史角度对德国、英国、美国、俄罗斯、日本、印度和中国这几个国家的图书馆学简史进行解读,希望能让大家感受到一些新意和启发。