论文部分内容阅读
图像语义分割是视觉理解的基础,是计算机视觉领域备受关注的核心问题,其任务是对于给定图像的每一个像素进行分类,最终得到一个与输入图像大小相同的稠密预测。近年来,深度卷积神经网络(CNNs)因其在目标检测任务中的优异表现而被应用在许多图像语义分割方法之中,得到了比传统方法更好的效果。但是目前基于深度卷积神经网络的图像语义分割算法仍面临两方面挑战:一方面,对输入图像进行连续的下采样操作使得图像的分辨率被降低,导致目标位置信息的损失;另一方面,语义分割数据集大多存在样本分布不均问题,在学习过程中给予所有像素同样的权重,不利于困难样例的分类。基于以上的需要和挑战,本文旨在解决图像语义分割中对多尺度目标、细小目标和难分类目标的语义分割。本文首先介绍了图像语义分割的研究背景和研究意义,并根据目前国内外研究现状,围绕如何融合多尺度特征对深度全卷积神经网络的分割结果进行细化,以及如何提升对难分类样本的语义分割效果进行了深入研究,本文创新点有以下两方面:第一,我们设计了一个基于多尺度特征融合的端到端全卷积图像语义分割网络ResSegNet。将图像语义分割分为初步分割和分割结果细化两个不同尺度的任务:在使用基于全卷积网络的粗粒度分割器得到初步的分割结果的基础上,提出一个基于多尺度特征融合的分割残差提取器来得到多尺度分割残差,并使用一个分割修正器将两部分结果融合,最终得到精确的语义分割结果。第二,为了解决图像语义分割存在的类内和类间的样本分布不均问题,我们提出了一种困难样例挖掘方法,基于目标检测领域的Focal Loss,设计了一个用于稠密预测的加权损失函数,对难分类的像素给予较大的惩罚,从而对困难样本进行更加充分的学习,提升模型对复杂目标的语义分割能力。最后通过实验和分析验证了我们提出的基于特征融合和困难样例挖掘的图像语义分割方法的有效性,并且与其它的前沿方法进行了对比,阐明了本文方法的优越性和价值。同时本文总结了主要研究和贡献、本文算法的不足之处,以及对未来的研究方向的猜想。