论文部分内容阅读
图像语义分割一直是计算机视觉领域和深度学习研究中的重要课题。深度神经网络用于图像语义分割具有三个挑战:其一,下采样层带来的分辨率减小和空间信息损失;其二,深度网络的固定感受野难以处理多尺度目标;其三,缺少有效方法用于全局上下文信息获取。本文针对这些问题,并且基于已有的工作做出了一些改进:(1)全卷积的图像语义分割方法由于卷积的局部感受野性质,没有直接建模远距离像素间的上下文依赖。本文基于循环卷积网络在图像识别领域的应用,通过横向、纵向的扫描方式将图像处理成序列,使得长短时记忆网络扩展到二维图像以直接获取全局上下文,在CamVid数据集上验证了空间长短时记忆网络的有效性。更进一步,在全卷积的模型基础上,融合低层次特征来适应多尺度物体,联合空间长短时记忆网络用于建模像素间的全局依赖,在VOC 2012数据集上取得了较好的效果。(2)针对于深度网络下采样分辨率的问题,基于空洞卷积能够同时保持特征分辨率和局部感受野的性质,提出了级联的空洞卷积用于提取更大范围的上下文信息,并且使用不互为倍数的不同扩张率改进了级联空洞卷积中的“棋盘格”问题;针对多尺度目标存在的问题,基于金字塔池化和多孔空间金字塔池化,提出了改进的并行多尺度模块,主要在多孔空间金字塔池化中并行加入1×1卷积保留以学习的特征和不同间隔的池化提取全局信息。受到编码-解码器结构的启发,本文设计了一个简单的解码器结构,通过融合低层特征分两步来上采样特征图。基于这些改进,同时集成上下文和多尺度信息有效地提升了网络在VOC 2012数据集上的分割效果。