论文部分内容阅读
行人重识别(Person Re-identification,Person Re-ID)问题是要判断两张分别从视场无交叠的两个摄像头下检测到的行人图像是否对应于同一个人(行人ID)。行人重识别在刑事侦查领域的智能视频监控中有极高的应用价值。利用行人重识别技术还可以计算公共场所的人流数据,以此帮助优化交通系统的设计和改进,或者帮助商场优化商品布局。由于摄像头光照条件差异、摄像头视角差异、行人姿态差异、遮挡等因素的影响,不同摄像头下的行人图像往往存在较大差异,即使这两张图像属于同一个人。随着深度学习技术在行人重识别领域的应用,多个大规模行人重识别数据集上的最好测试分数得到了极大提升,但当前各种行人重识别算法的性能还远不能满足应用需求。本文设计了一种通过特征图匹配进行行人重识别的卷积神经网络模型,主要贡献如下。1.在使用基于特征图匹配的思路进行行人重识别时,存在摄像头光照差异问题和待匹配行人图像间的不对齐问题,如果使用简单的欧氏距离或L2距离这种逐元素对称性相似性度量方法来进行匹配分数计算,会导致不理想的行人重识别效果。为解决上述问题,本文提出了一种新颖的行人重识别卷积神经网络模型:“辫状网络”(BraidNet)。辫状网络包含一种特殊的“W型卷积层”(WConvLayer),W型卷积层有两个相同尺寸的输入特征图和两个相同尺寸的输出特征图。在一个辫状网络中,由特征提取子网络分别提取两张输入行人图像的特征图,再将这两张特征图送入级联的W型卷积结构(包含ReLU激活层和池化层)中,输出的两张特征图逐元素相加后送入后续的子网络中,得到用以指示两张输入行人图像是不是对应于同一个人(行人ID)的匹配分数。理论上,单个W型卷积层或级联的W型卷积结构可以在待匹配行人图像间存在不对齐情形和色彩差异情形的情况时,从上述情形中挖掘有利于后续匹配的证据。2.当卷积神经网络使用ReLU激活函数时,网络训练过程中会出现“零梯度问题”(ZeroGradientProblem)。“零梯度问题”是指一些通道上的响应值永远为负数,且计算这些通道响应的权值参数永远得不到训练,进而使得卷积神经网络的拟合能力降低。为了解决这一问题,本文提出了一种简单的“通道放缩层”(Channel Scaling Layer),对每一个输入通道上的响应值乘以一个限定为正的因子后作为输出,在网络训练的过程中同时训练这些恒正因子的取值。本文定性证明了通道放缩层可以缓解网络训练过程中的零梯度问题,还通过建立通道放缩层和网络模型剪枝评价指标的联系来说明了通道放缩层可以在网络训练过程中学习每个通道在网络模型中的重要性。3.本文设计的辫状网络是一个二分类网络模型,在网络训练过程中会产生正负训练样本不均衡问题。为解决正负样本不均衡问题,本文提出了“样本比例学习”(Sample Rate Learning)策略,可以在网络训练过程中动态调整每个Batch中的正负样本比例,从而避免了人工指定正负样本比例带来的超参数难以优化设置的问题。在 CUHK03-Detected、CUHK03-Labeled、CUHK0I、Market-1501、DukeMTMC-reID和DukeMTMC4ReID数据集上,本文通过一系列对比实验和特征可视化说明了上述三点贡献的有效性。最后,本文还对辫状网络的特点和应用场景进行了总结和展望。