论文部分内容阅读
视频语义分割是计算机视觉领域中一个重要分支,本文着眼于研究其中的行人视频语义分割部分,该技术可用于智能安防领域的步态识别以及行人重识别中,也可用于自动驾驶等领域。不同于图像数据,视频数据是序列图像,具有时间维度特征,如果用基于图像的分割方法来对视频进行操作,视频帧间的序列连续性便会被忽略,因此如何提取和利用视频中的序列信息是一大挑战。针对这一问题,本文基于卷积神经网络和编码-解码架构设计了一种有效的基础分割网络,并设计了两种时序特征提取模块嵌入到基础分割网络中用于提取序列信息。此外,本文还基于生成对抗式网络提出了一种二分类判别器网络,可以为目标分割加上结构化约束。本文的主要研究工作如下:
(1)发布了一个专门用于行人视频分割的数据集。由于目前缺乏公开的专门用于行人视频分割任务的数据集,本文利用公共场合的摄像头获取的视频制作了一个较大规模的数据集,其中包含各种角度和模糊程度的视频内容,完全符合实际场景需求,具有较高的工程应用价值。
(2)提出了一种基于卷积神经网络的基础分割网络─U-shaperesidualnet(简称为UR-net)和两种时序特征提取模块─Non-local和FMB。UR-net呈U型形状,基于编码器-解码器架构进行设计,可以实现基于图像的分割,当在编码器和解码器之间嵌入时序模块时则可为分割加入序列信息,从而升级为基于视频的分割。常见的视频分割算法对当前帧分割时一般只使用到过去的某一帧,而本文设计的时序模块可以利用所有过去帧为分割作指导。Non-local设计之初用于视频分类任务,在本文中进行了修改以满足行人视频分割场景需求,而FMB则基于位置注意力机制设计。
(3)提出了一种基于生成对抗式网络(GAN)的判别器网络D-net。由于分割任务中多使用交叉熵损失进行约束,该损失对每一个像素的约束都是独立的,因此缺少全局语义约束(或称“整体的结构化约束”)。为了解决这个问题,本文基于GAN,设计了判别器D-net并与作为生成器的分割网络进行联合训练,从而为分割加上结构化约束。
(1)发布了一个专门用于行人视频分割的数据集。由于目前缺乏公开的专门用于行人视频分割任务的数据集,本文利用公共场合的摄像头获取的视频制作了一个较大规模的数据集,其中包含各种角度和模糊程度的视频内容,完全符合实际场景需求,具有较高的工程应用价值。
(2)提出了一种基于卷积神经网络的基础分割网络─U-shaperesidualnet(简称为UR-net)和两种时序特征提取模块─Non-local和FMB。UR-net呈U型形状,基于编码器-解码器架构进行设计,可以实现基于图像的分割,当在编码器和解码器之间嵌入时序模块时则可为分割加入序列信息,从而升级为基于视频的分割。常见的视频分割算法对当前帧分割时一般只使用到过去的某一帧,而本文设计的时序模块可以利用所有过去帧为分割作指导。Non-local设计之初用于视频分类任务,在本文中进行了修改以满足行人视频分割场景需求,而FMB则基于位置注意力机制设计。
(3)提出了一种基于生成对抗式网络(GAN)的判别器网络D-net。由于分割任务中多使用交叉熵损失进行约束,该损失对每一个像素的约束都是独立的,因此缺少全局语义约束(或称“整体的结构化约束”)。为了解决这个问题,本文基于GAN,设计了判别器D-net并与作为生成器的分割网络进行联合训练,从而为分割加上结构化约束。