论文部分内容阅读
图像目标分割在近年来逐渐成为计算机视觉的热点领域,图像目标分割的目的是像素级别的图像理解。将输入分成不同的目标可解释类别,这些分类类别在真实世界是有意义的。但是现实世界的图像的像素级别的标签类别较难标注,需要耗费非常大的资源进行正确标注,即有监督学习训练成本高;同时,有许多完整的已经标注好的优秀的公共数据集存在。因此,如何将已知数据标签的源域的知识迁移到未知标签数据目标域中去,从而实现域适应的图像分割有着重要的现实意义,这也是本论文的研究目标。生成对抗网络(Generative Adversarial Networks,GAN)因为能让生成器通过对抗学习的方式学习得到拟合数据分布的能力,被广泛用于基于特征表示的域适应。其主要思想是先将低层数据空间转换到高层特征空间,然后在这个特征空间下加入一些约束来减少两个域之间在特征空间上的差异,从而达到迁移的目的。以下是本文的主要研究思路:(1)不管是图像分割网络还是生成对抗网络,其基础都是卷积神经网络。因此,本文对卷积神经网络的一些知识进行研究,同时,对于一些广泛用于图像分割的技术,它们也是源自于一些经典的卷积神经网络,因此本文还介绍了经典的卷积网络中出现的一些技术,包括了正则化技术与GPU训练、小卷积核代替大卷积核、反卷积、空洞卷积以及Skip connection技术。(2)图像目标分割与生成对抗网络是本文研究的重点。在图像分割讨论中,本文详细研究了它们的基本原理,着重研究了FCN(Fully Convolutional Networks for Semantic Segmentation)和Deeplab V3+(Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation)的网络结构,发现它们具有类似的网络架构和处理信息的方式,都是使用了Encoder-decoder模式,以及采用了Skip connection技术对信息互补的高底层信息融合。受残差网络和全卷积网络的启发,本文将Skip连接的思想引入DCGAN(Deep Convolution Generative Adversarial Networks)中,提出了一种改进的对抗网络Skip-DCGAN。实验结果表明,Skip-DCGAN在生成图片的清晰度和精度上更加的优秀。(3)分割模型用在一个分布不一致的数据集上进行分割的时候,会直接不能工作,其主要问题就是存在域间隔。基于上述的研究,本文提出了一种基于GAN的域自适应图像目标分割算法框架。在这个框架中,具有Encoder-decoder模式的分割网络作为主体网络;GAN的对抗训练网络作为辅助网络。本论文从两个方向来达到域间隔的缩小从而使模型能够工作:一是高层特征域的对齐达到语义知识的共享,二是分割结果的对抗优化,达到低层信息的补足。特别的,在分割图的处理中,引入了空间空洞结构,获取了对分割图从局部到整体的全部信息,这样不同精度的信息能辅助分割网络在目标域中生成更加准确的像素标签。实验结果表明,本文提出的新架构总是优于现存的几种域适应方法,并且验证了,使用性能更好的Encoder-decoder网络能提高该架构的域适应能力。