论文部分内容阅读
随着智慧城市的建设,视频监控的需求日益增加,行人重识别作为视频监控环境中关键技术之一,得到了各界广泛的关注。通过计算机视觉技术来判断在视频序列或图像中是否存在目标行人是行人重识别的核心任务。给出一个特定的监控行人图像,匹配出跨摄像头下该行人的图像,该技术旨在弥补目前固定摄像头的视觉局限。在实际的视频监控环境中,光照变化、摄像头角度变化、背景复杂以及遮挡严重等因素导致行人重识别任务面临着巨大的挑战,传统的基于单帧图像的方法很难适应实际场景,而视频可以从时间和空间角度提供更多的特征信息,有助于进行行人匹配与再识别,因此基于视频序列的行人重识别研究应运而生。本文针对行人重识别问题,分析了目前国内外相关领域的各类方法,并总结其优势与不足。主体基础研究思路为:输入视频序列,由2D卷积神经网络得到图像级的空间特征,应用时序建模的方法有效地融合空间与时序特征,从而得到视频级的特征信息,最后度量特征距离进行重识别。主要研究内容包括以下几部分:(1)目标检测网络提取视频关键帧。考虑到视频序列中很多冗余信息会对行人重识别的匹配精度造成干扰,如行人遮挡、分辨率低等现象。在时空信息融合网络的基础上融合目标检测网络,能够高效地筛选出置信度较高的图像帧,从而挑选出具有判别性的视频帧,减少行人遮挡等因素带来的干扰,从而提高行人重识别的匹配性能。(2)融合空间金字塔与时序注意力机制。在融合目标检测网络及得到空间深度特征的基础上,在时序建模部分,融入空间金字塔思想,对每帧图像进行空间多尺度关注,并联合时域卷积融合时序上下文信息,该联合注意力机制解决了输入图片大小不一的缺陷,多尺度的特征提取达到了较好的图片识别的精度。除了注意力机制外,本文还研究了Temporal pooling、LSTM时序建模方法,分析对比之后,注意力机制的时序建模方法优于另外两种。(3)分类与距离度量损失函数融合。损失函数是行人重识别任务关键的步骤之一,本文分别考虑类别标签信息与特征距离信息两部分,并融合两种损失函数达到更好的重识别性能。(4)基于3D卷积网络的行人重识别网络。以上时空特征信息融合的方式均是先提取图像级的空间特征,再根据时序特征进行融合,而3D卷积网络是直接对视频序列三维数据进行处理,可以同时提取空间及时序特征信息,方法简单有效。