论文部分内容阅读
随着人工智能的蓬勃发展,无人驾驶汽车等一系列新兴产品开始问世,相关应用对图像分析及场景理解的需求也日益增加。图像分割相关研究在各个领域起着重要作用,其分割结果有助于后续的场景理解与分析,相关研究具有重要的研究意义和广泛的应用场景。本文研究的细粒度图像分割算法不仅要为图片中每一实例生成掩模,而且需要区分图片中各实例的细粒度类别信息。这就需要算法在完成细粒度分类的基础上对其进行有效分割,以辅助后续场景理解与分析,例如可以作为场景分析的注意力引入相关端到端模型。相关研究相较于传统图像分割更具挑战性。本文主要工作包括:
(1)研究及对比分析了四种基于深度学习的主流分割算法:FCN、SegNet、FCIS和Mask R-CNN。其中FCN首次将全卷积网络结构应用到语义分割任务中,是一个端到端、像素到像素的分割方法;SegNet网络类似于FCN网络,其编码和解码的网络与FCN不同;FCIS采用了物体和背景位置敏感的特征提取方法,物体特征用于分割,背景特征用于分类;Mask R-CNN则在同一网络中同时完成目标检测和实例分割两个任务。复现结果表明,Mask R-CNN网络的图像分割结果较好,因此本文后续的相关研究以其作为骨架网络模型。
(2)提出了一种基于特征金字塔注意力(Feature Pyramid Attention,FPA)的图像分割算法。由第二章的研究分析可知,目前的分割方法对像素位置信息的学习能力不足。本文所提算法通过金字塔结构使网络将注意力集中于Mask,直接对Mask学习,而非对特征图进行学习,最大程度地保留像素级的位置信息,从而充分利用学习到的上下文信息,提高生成Mask的质量。实验结果表明,本文所提基于特征金字塔注意力机制的算法对于图像中小尺度目标的分割结果较好。
(3)提出了一种基于全局特征金字塔注意力(Global Feature Pyramid Attention,GFPA)的细粒度图像分割算法。传统图像分割算法只能对粗粒度实例类别加以区分并生成Mask,而对于同一大类的细粒度类别信息不能加以区分。为了实现细粒度图像分割,我们改进了第三章所提的FPA注意力模型,通过在FPA模型中增加全局池化模块,构建了全局特征金字塔注意力。基于偏监督学习训练模式,我们采用Open Images V4数据集对所提网络的分类分支单独训练,以得到细粒度的类别信息。而Open Images V4数据集只对物体的类别和边界框进行了标注,所以在训练Mask分支时我们仍采用COCO数据集对网络进行训练,最后通过两路网络的协同和知识迁移,实现细粒度的像素级分割。实验结果表明,与Mask R-CNN相比,本文所提算法可在实现细粒度分类的同时对其进行像素级分割。
(1)研究及对比分析了四种基于深度学习的主流分割算法:FCN、SegNet、FCIS和Mask R-CNN。其中FCN首次将全卷积网络结构应用到语义分割任务中,是一个端到端、像素到像素的分割方法;SegNet网络类似于FCN网络,其编码和解码的网络与FCN不同;FCIS采用了物体和背景位置敏感的特征提取方法,物体特征用于分割,背景特征用于分类;Mask R-CNN则在同一网络中同时完成目标检测和实例分割两个任务。复现结果表明,Mask R-CNN网络的图像分割结果较好,因此本文后续的相关研究以其作为骨架网络模型。
(2)提出了一种基于特征金字塔注意力(Feature Pyramid Attention,FPA)的图像分割算法。由第二章的研究分析可知,目前的分割方法对像素位置信息的学习能力不足。本文所提算法通过金字塔结构使网络将注意力集中于Mask,直接对Mask学习,而非对特征图进行学习,最大程度地保留像素级的位置信息,从而充分利用学习到的上下文信息,提高生成Mask的质量。实验结果表明,本文所提基于特征金字塔注意力机制的算法对于图像中小尺度目标的分割结果较好。
(3)提出了一种基于全局特征金字塔注意力(Global Feature Pyramid Attention,GFPA)的细粒度图像分割算法。传统图像分割算法只能对粗粒度实例类别加以区分并生成Mask,而对于同一大类的细粒度类别信息不能加以区分。为了实现细粒度图像分割,我们改进了第三章所提的FPA注意力模型,通过在FPA模型中增加全局池化模块,构建了全局特征金字塔注意力。基于偏监督学习训练模式,我们采用Open Images V4数据集对所提网络的分类分支单独训练,以得到细粒度的类别信息。而Open Images V4数据集只对物体的类别和边界框进行了标注,所以在训练Mask分支时我们仍采用COCO数据集对网络进行训练,最后通过两路网络的协同和知识迁移,实现细粒度的像素级分割。实验结果表明,与Mask R-CNN相比,本文所提算法可在实现细粒度分类的同时对其进行像素级分割。