论文部分内容阅读
视频是个体在不同时空位置视觉信息的集合,目标跟踪则是定位个体并且建立不同时空位置中同一个体的对应关系,因此目标跟踪在视频处理中具有重要价值。随着目标跟踪的进行,跟踪器收集到越来越多的目标信息,利用这些信息进一步自适应地完善目标模型,称之为模型更新。从积极面看,模型更新使目标模型随着目标变化而变化,从而应对各种复杂的情况。但另一方面,模型更新可能错误地被收集信息中的噪声所干扰,导致模型退化和跟踪失败。因此,如何有效地利用模型更新,增强跟踪器应对复杂情况的跟踪能力,同时避免模型退化,是一个重要且富有挑战的问题。更一般的,模型更新除了对目标跟踪有重要意义外,对其他具备更新过程的问题如动作分类、建立网上个人档案等也有重要意义。近年来,深度学习的突破给各个研究领域带来了新的推进动力。从本质上来说,深度学习是以数据拟合的方式替代人工设计。长期以来,目标跟踪中的模型更新方法依赖人工设计。手工设计模型更新算法,考验的是设计者的经验,需要反复地试错和调节,耗时耗力。另外,手工设计往往是在少量数据上进行调试,因此得到的结果未必是大规模数据集上的最优解。更重要的是,目标跟踪要求模型更新算法具有实时性能并且对噪声保持鲁棒,深度学习利用大量离线数据学习得到的数据先验能加快收敛并且学会区分噪声和有效信息,因此能有效处理这两个难题。在此背景下,本文研究目标跟踪中基于深度学习的模型更新问题。具体来说,本文从如下几个角度展开:(1)以元学习框架对模型更新过程进行建模,实现基于数据驱动的端到端模型更新方法。目标跟踪的模型更新往往被建模为在线学习问题。现有的学习算法如随机梯度下降法,需要人工仔细地调节学习率、迭代数等参数来满足目标模型的泛化要求。并且,更新过程中其需要不断迭代的前向后向计算,难以满足实时性要求。本文将学习算法通过元学习方法进行建模,用递归神经网络作为模型更新器,利用大量的离线视频数据,对更新器中的神经网络参数进行优化。训练得到的模型更新器在跟踪时不需要进行任何超参数调节,只需要一次前向操作即可完成目标模型的更新,因此跟踪器运行速度远超实时,达到82帧/秒。另外,在多个数据集上曲线下面积指标(AUC)相比指数移动平均法提升4%以上,相比随机梯度下降法提升1%以上。(2)将目标模型拆分为缓慢(更新)模型和快速(更新)模型,基于元学习方法实现模型的快速更新以区分相似干扰物。跟踪器应对相似干扰物的能力与模型更新能力紧密联系。在不存在干扰物时,跟踪器的目标模型应扩大其决策边界,以囊括目标的各种变化,如视角、姿态变化等。当出现相似干扰物时,跟踪器应缩小其决策边界,以区分目标和干扰物。为此,本文将目标模型拆分为两部分,一个为缓慢(更新)模型,用来确保决策边界包含目标的各种变化,一个为快速(更新)模型,用来快速变化以区分目标和干扰物。这两部分相互独立,因此可以对快速模型进行剧烈的更新而不必担心模型整体退化。为了快速建模目标和干扰物,利用元学习方法离线训练得到元学习器。在干扰物场景下,本文方法AUC指标超过基准方法4%以上,在通用场景下,超过基准方法0.3%左右。(3)基于短时全局结构一致性,快速更新以捕捉目标的短时快速变化并区分相似干扰物。在短时间内,整个场景的全局结构(包括目标对应关系和空间布局)是一致的。本文设计一种能够隐式建模帧间全局一致性的神经网络模型,有效处理目标在短时间内的快速变化,以及周围的相似干扰物。该模型能进行快速更新以应对目标的瞬时变化,为了同时保持模型的稳定性,引入长短时结构的跟踪器设计。用长时模型建模目标长时间内的整体,短时模型则建模目标的快速变化,两者在响应图级别进行融合,保证了融合的细粒度。另外,通过共享长短时模型的特征提取模型,保证了跟踪器的高效运行。提出方法在多个跟踪评测集上进行验证,在保持跟踪速度的基础上,AUC指标相比基准方法提升2%左右,相比目前的SOTA跟踪器取得了优异的效果。(4)设计基于前看信息筛选的模型更新机制,并在目标跟踪以及时序任务视频动作识别上进行验证。实际中并非所有帧都对目标任务有帮助,如重复、无关或噪声视频帧。当用这些视频帧进行更新时,模型中真正有用的信息反而会被覆盖。另一方面,某些具有区分性的信息转瞬即逝,这时模型需要快速地捕捉这些关键信息。本文考虑基于信息筛选的模型更新,剔除无用甚至有害的信息,而将关键信息保留下来。本文设计一种前看机制,该机制在当前时刻提前扫描后续的帧图像,然后对后续帧进行提前的筛选,被剔除的视频帧不会更新视频建模。具体地,考虑视频帧的重要性和区分性两个方面来制定筛选策略。本文提出的方法能够剔除80%以上的视频帧,同时保持甚至超过使用所有视频帧的精度。总的来说,本文为模型更新的建模提供了一个基于元学习的框架。针对可塑性与稳定性均衡这一核心问题,探索了基于双模型建模和基于信息筛选的模型更新方法。基于深度学习的模型更新研究方兴未艾,本文为此方向做了一些有益的探索。