论文部分内容阅读
在计算机视觉领域中,图像语义分割任务一直是人们研究的热点问题,该任务的目的是为每个像素给出其所属的类别。作为认知图像内容的重要一环,语义分割的准确程度直接影响着后续图像理解和场景感知的效果,由于其既能够进行物体的分割,又能够进行语义信息的明确,所以在各个领域中起着至关重要的作用,如自动驾驶领域中大量应用图像分割来进行场景感知、文娱领域中存在大量的应用是基于人像分割的技术等。近年来,随着深度学习技术和硬件设备的发展,图像语义分割问题取得了突破性进展,与其他方法不同,借助深度神经网络可以端到端的输出语义分割的结果,而且其准确度远远高于其他方法。本文也基于深度神经网络,对图像语义分割任务进行研究,其中分别对全监督图像语义分割和半监督图像语义分割进行研究。半监督图像语义分割是全监督图像语义分割任务的延伸,其意义在于解决全监督语义分割要求像素级标注导致消耗大量人力的问题。半监督学习借助无标注数据来进一步地提升一个已训练完成的网络的性能,提高其准确度和泛化性。首先,在全监督图像语义分割的研究中,本文从网络结构和损失函数这两个角度出发,提出了基于多尺度循环卷积网络的方法。针对无法有效同时提取图像中的类别信息和位置信息的问题,本文提出了空间金字塔循环模块,其采用了空间金字塔结构来提取语义信息和类别信息,并且在该结构中创造性地增加了循环卷积网络,来实现不同尺度下信息的传递功能进一步加强了提取语义信息和类别信息的能力。针对现有网络结构中基网络采用图像分类网络带来的影响,本文提出了特征融合模块,借助注意力机制来实现高维特征和基网络中低维特征的有效融合,来减轻基网络的影响更好的恢复出分割预测结果。此外,本文提出了语义类别损失函数,以图像中的物体类别作为监督信息。本文将其搭建在循环卷积网络中尺度最小的特征层上,这样既可以通过增加了中间监督来使网络进行充分的收敛,又能够更加充分的利用循环卷积网络能传递信息功能,再提取类别信息基础上进一步提高网络的性能。其次,在半监督图像语义分割的研究中,本文提出了基于不确定度和条件随机场的方法。这是一种基于伪标注图的方法,针对伪标注图像中存在错误标注会为训练带来影响的问题,本文增加了图像分割的不确定度信息,用来提供分割的准确程度。为了获取分割图像的不确定度信息,本文采用了贝叶斯交叉熵损失,并在其基础上针对图像分割任务做出了改进。为了获取准确定度更高的伪标注图像,本文采用了基于条件随机场的方法,针对不确定度本文对条件随机场做出了改进消除了不确定度信息的影响,使之更加合理。此外,根据不确定度的物理意义,本文针对其提出两条准则,“在不确定度低的像素,即确定度高的像素上,预测结果可以视为正确结果”和“确定度应随着训练图像量的增加而提高”,并根据这两条准则本文设计了不确定度损失函数。最后利用不确定度损失函数在无标注数据上完成图像语义分割的半监督学习。最后,结合本文提出的基于深度神经网络的全监督和半监督图像语义分割方法,本文进行了实验验证和对比分析。通过实验验证了本文所提方法的有效性,并且通过与当前相关领域其他方法的结果对比,证明本文提出的方法具有突出的性能。