论文部分内容阅读
近年来,行人重识别和视觉跟踪已成为视频分析领域热门的研究课题,其在智能监控、智能交通、人机交互、运动分析等领域展现出巨大的应用前景。行人重识别是指从非重叠的摄像头所采集的监控视频中识别出某一特定人。作为新兴的研究课题之一,行人重识别面临着诸多挑战,监控视频图像分辨率低、场景亮度变化、视角变化等因素都会影响其性能。视觉跟踪是计算机视觉领域有挑战性的研究课题,其任务是确定某一视频序列中感兴趣目标的位置及运动信息,是进一步的视频语义分析的基础。随着大型视觉数据库及计算能力的飞速发展,深度学习尤其是卷积神经网络因其强大的特征表达学习能力,在图像分类、目标检测、语义分割等众多计算机视觉任务中取得了突破性进展。本文针对行人重识别与目标跟踪分别进行了深入研究,重点研究如何将深度学习技术应用于这两个领域。本文的主要研究内容如下:1.提出一种基于Lifted Structured Loss的深度特征嵌入方法用于行人重识别。基于Triplet Loss的深度卷积网络成为了行人识别的热门框架,然而该损失函数不能充分利用一个训练批次的所有数据信息。最近提出的Lifted Structured Loss在图像检索等应用中表现出优异的性能,它克服了Triplet Loss不能充分利用一个训练批次的所有数据信息的缺点。然而,该损失函数并没有考虑样本分布变化对其的影响,导致不同样本分布时训练不平稳。针对此问题,本文提出了一种基于Lifted Structured Loss的新的结构化损失函数,消除了样本分布变化对训练的影响。我们证实了该损失函数优于普通的Contrastive Loss和Triplet Loss。而且,我们将提出的结构化损失和识别损失(Identification Loss)结合起来作为最终的损失函数。实验结果表明,本文提出的算法在数据集CUHK03,CUHK01及VIPeR上都取得了较优的表现。2.提出了一个快速傅立叶变换网络FFTNet用于视觉跟踪。相关滤波类算法在视觉跟踪领域受到了广泛关注,该类算法不仅性能优异而且计算效率高(超过了 100帧每秒)。然而,采用手工设计的特征及视频本身用于训练使得相关滤波类算法的泛化能力受到了限制。因此,许多研究考虑引入更丰富的特征来用于跟踪,例如将卷积神经网络中的卷积层的输出作为特征引入到相关滤波的框架中,这些方法都表现了优越的性能。然而,这些方法把特征提取和目标跟踪的其他模块分离,因此不能发挥神经网络端到端学习的优势。其他一些研究者提议先在一些大数据集上预训练一个模型,然后再在跟踪视频上作微调。尽管这些算法取得了最好的结果,但是它们计算复杂度高,无法满足实时性要求(通常小于10帧每秒)。本文提出了一种基于卷积神经网络的算法,它集成了相关滤波中最核心的两部分——自相关和互相关。提出的方法结合了相关滤波和卷积神经网络的优势,它有着强大的特征表达能力,能够学习到很好的匹配函数,并且采用PASCAL VOC2012数据集和ALOV++数据集做端到端的离线训练。实验结果表明,该算法在标准跟踪数据集OTB50上表现优越并且计算效率高(超过49帧每秒)。