基于卷积神经网络的室内RGB-D图像语义分割方法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:coralbird
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了让机器人实现精确的人机以及场景交互从而完成指定任务,机器人需要拥有对外界场景理解的能力,图像语义分割就是实现这种场景理解的核心技术之一。2014年以来,深度神经网络算法逐渐被应用于图像语义分割任务中,其中基于卷积神经网络的全卷积结构效果最为优秀。在近年多个语义分割大型竞赛中,基于卷积神经网络的机器学习算法逐渐超越传统机器学习算法,并得到远远高于传统算法的检测精度。然而,在传统场景的语义分割任务逐步取得突破的同时,针对室内场景,特别是办公场所及居民住宅场景下的语义分割却始终是一个难点。这是由于室内场景中往往存在光照不均匀,物体间互相遮挡,以及不同物体具有相似颜色等的问题,这些问题都增加了机器学习模型对物体结构分析的难度。因此,把用于室外语义分割任务的深度神经网络模型直接迁移至室内场景中,往往只能获得相对较低的分割精度。而在近几年的研究中可以发现,利用场景中的深度信息可以很好的解决这些问题,深度信息中所富含物体的几何结构以及相互的空间关系可以成为RGB图像一个有力的补充,有利于算法对室内场景中物体的类别以及连通结构进行分析。综合上述技术,文创新地提出两个结合RGB-D图像信息以及卷积神经网络技术的算法,从而实现精确的室内场景语义分割。具体而言,文将论述语义分割技术及卷积神经网络的技术要点,分析语义分割任务下的全卷积神经网络模型,同时论述膨胀卷积运算,全连接条件随机场模型,残差卷积结构,RGB与深度信息的融合结构等关键技术,并基于所论述的技术提出两个RGB-D语义分割模型。其中,第一个模型为基于膨胀卷积与条件随机场的RGB-D语义分割,共分为两个模块。第一个模块为基于RGB-D的膨胀卷积网络,该模块使用分支-融合技术处结合RGB图像与深度图像的信息,并引入膨胀卷积操作进行特征运算,使得模型在不进行下采样的情况下获取足够大的图像感知域,便于模型在浅层且参数较少的情况下进行精确的语义推断。模型的第二个模块为基于RGB-D的全连接条件随机场,该模块结合原始RGB图像与深度图像中的信息搭建条件随机场,对膨胀卷积模块的分割结果进行优化。通过设计对比实验,文章验证了模型在室内语义分割任务中的有效性,同时也展示了深度信息的融合对分割结果的优化作用。第二个模型则是基于全残差卷积网络的RGB-D语义分割,该模型同样使用分支-融合技术处理RGB-D信息。而与第一个模型不同的是,第二个模型使用编码-解码的全卷积结构,并利用跳跃结构综合下采样与上采样中的信息。同时,模型使用残差模块作为基础模块搭建网络,避免层数上升时遭遇的模型退化问题,进而有效地搭建较为深层的全卷积神经网络结构。在模型的训练阶段,针对编码-解码网络结构,文进一步提出对多尺度分割结果进行监督学习的分层逼近训练法,使得模型获得更为精确的训练结果。在实验阶段,我们验证了模型在室内环境中具有高精度的分割结果,同时也展示了分层逼近训练模式对该模型训练的有效性。
其他文献
针对某工程深基坑施工实例,分析了紧邻高压输电线路的深基坑施工的技术特点与难点。介绍了该工程土方外运线路的合理规划、对高压线与周边管线的保护、对密集居住区内支撑拆
高等学校与国家、高等学校与教师和高等学校与学生之间的法律关系,是高等教育活动的基本法律关系。能否处理好这三种法律关系成为推进高等学校管理法制化的关键。尽管这三大
<正> 唐山市陶瓷研究所1981年研制成功了铁红金圈结晶釉艺术瓷。这种中外少见的珍品,在全国陶瓷评比会上被评为优质奖,并获轻工业部的科技成果奖,全国许多报刊纷纷发表文章介
期刊
现代图像心理学通常把生活和艺术中对相貌的知觉与肖似性的论题有机的融注,并扩展到摄影、图片、造型、表现等更广的范围。本文以图像心理学为核心,把"相似现象的知觉性比较"
在患者的临床治疗中,药物会对患者的检验结果产生影响,只有对药物的性质进行合理的分析,才可以最大程度的降低药物对检验结果的影响。本文主要运用综述的方式进行分析,以便医
<正>2002年《俄罗斯报》刊登题为《专家认为,是在试验可怕的基因武器》的文章,文中说道:"最近10年可能会制造出大规模杀伤性基因武器。由于它发展迅速,最近几年内可能成为清
语言的心理表征是当代语言心理学研究的重点 ,而词的心理表征则是语言心理表征的基础。词的心理表征 ,不仅包括概念的表征 ,还包括词形、词音的表征。运用比较归纳的方法 ,词
3正头孢化合物是合成头孢布烯和头孢唑肟的重要中间体.介绍了以青霉素G为原料分别经3羟基头孢烯、丙二烯氮杂环丁酮中间体的盐野义和大路线,以及以头孢菌素C为原料经3环外
<正>首先分别对西南地区84个气象站1980年前后的能见度资料进行了均一性处理,建立了各站能见度1961—2013年的长序列数据,再结合水汽压、天气现象资料反演建立了1961—2013年
&#39;口语化&#39;是塞利纳文体实践的结果而非原因,是其表现而非实质。其杰作《长夜行》(1932)表达了一种异乎寻常的说真话的欲望,这一&#39;求真意志&#39;可以追溯到塞利纳的