面向导盲应用的RGB-D视频场景理解方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kpyuy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉障碍给盲人和视障患者的日常生活带来极大的不便,由于缺乏对周围场景的了解和视觉感知,盲人的行走存在安全隐患。为了帮助盲人安全行走,国内外研发了基于超声波、激光、红外、摄像头等传感器的电子辅助行走系统(ETAs)。近年来出现的RGB-D传感器能同时快捷地获取场景的RGB图像和深度图像,被越来越多的应用于导盲避障和自主机器人等领域。相对于单帧RGB-D图像处理方法,基于视频分析的场景分割与理解能有效的利用时空信息。但是,现有方法在算法的鲁棒性、实时性等方面远没有达到导盲应用的需求。针对室内场景存在大量平面结构以及深度数据分布不均的特点,本文首先研究基于RGB-D的平面鲁棒提取方法,进一步研究基于视频分析的场景分割和理解方法,以及导盲信息的反馈策略,最后设计并实现了一个导盲避障原型系统。  本文的主要贡献如下:  (1)基于RGB-D的多尺度鲁棒平面分割  对场景中平面结构的提取是后续场景分割和理解的基础,本文提出了基于颜色和几何结构特征的多尺度平面鲁棒提取方法。首先,进行基于RGB-D的三阶段平面提取,即在体素级别、像素级别以及周围领域进行平面提取和优化。为解决深度数据分布不均问题,进一步提出了多尺度融合的平面鲁棒提取方法,分别使用大小尺度的体素网格对场景进行平面提取和融合。最后,为了解决遮挡问题,采用非模态补全策略进行平面合并,进一步完善了平面分割结果。本文对所提出的平面提取方法进行了定性和定量的实验分析,结果表明了所提方法的有效性。  (2)基于RGB-D视频分析的场景区域分割  为了提高场景分割的速度和分割结果的鲁棒性,本文将提出的多尺度平面提取方法融入到RGB-D视频场景分割中。即在平面结构提取基础上,对剩余的非平面像素上进行基于RGB-D视频分析的4D场景分割,得到非平面像素部分的分割结果。然后将平面提取结果和4D视频分割结果进行融合,得到整个场景的分割结果。实验结果表明,本文提出的基于RGB-D视频分析的场景区域分割方法与已有方法相比,在不同场景下均改善了场景分割效果。  (3)面向导盲应用的场景理解和信息反馈  在场景分割的基础上,本文研究了基于障碍物检测和识别的导盲场景理解及信息反馈机制,并设计实现了一个原型系统。首先,提出了一个基于区域分割的障碍物检测算法,并基于历史信息对障碍物检测进行优化。另一方面,本文提出了多级语音反馈策略,根据障碍物的位置和距离信息,将语音反馈的报警信息分为3个级别——安全、提醒和警告,更好的帮助用户感知场景和避让障碍物。基于以上研究,实现了一个可穿戴的导盲避障原型系统。实验结果表明基于区域划分和历史信息分析的障碍物检测方法能有效提高场景理解和信息反馈的准确性。
其他文献
该文阐述了飞行器故障诊断的重要意义和必要性,介绍了建立飞行器遥测故障诊断专家系统的目的,以及国内外研究飞行器遥测故障诊断专家系统的情况,并讲述了该文的背景及研究内
学位
学位
学位
人体检测技术是计算机视觉技术的研究热点之一,具有巨大的实际应用价值。人体检测技术的应用包括汽车辅助安全驾驶、智能感知接口、智能视频监控和基于内容的图像搜索等。同时
学位
学位
学位
学位
随着物联网概念的快速发展,作为物联网最底层的交互单位——智能物件,越来越受到关注和研究。智能物件作为可以独立感知和执行的个体,在物端协同、信息物理系统等方面发挥着重要