视频目标跟踪中深度学习模型自适应更新

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zwj306041732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频是个体在不同时空位置视觉信息的集合,目标跟踪则是定位个体并且建立不同时空位置中同一个体的对应关系,因此目标跟踪在视频处理中具有重要价值。随着目标跟踪的进行,跟踪器收集到越来越多的目标信息,利用这些信息进一步自适应地完善目标模型,称之为模型更新。从积极面看,模型更新使目标模型随着目标变化而变化,从而应对各种复杂的情况。但另一方面,模型更新可能错误地被收集信息中的噪声所干扰,导致模型退化和跟踪失败。因此,如何有效地利用模型更新,增强跟踪器应对复杂情况的跟踪能力,同时避免模型退化,是一个重要且富有挑战的问题。更一般的,模型更新除了对目标跟踪有重要意义外,对其他具备更新过程的问题如动作分类、建立网上个人档案等也有重要意义。近年来,深度学习的突破给各个研究领域带来了新的推进动力。从本质上来说,深度学习是以数据拟合的方式替代人工设计。长期以来,目标跟踪中的模型更新方法依赖人工设计。手工设计模型更新算法,考验的是设计者的经验,需要反复地试错和调节,耗时耗力。另外,手工设计往往是在少量数据上进行调试,因此得到的结果未必是大规模数据集上的最优解。更重要的是,目标跟踪要求模型更新算法具有实时性能并且对噪声保持鲁棒,深度学习利用大量离线数据学习得到的数据先验能加快收敛并且学会区分噪声和有效信息,因此能有效处理这两个难题。在此背景下,本文研究目标跟踪中基于深度学习的模型更新问题。具体来说,本文从如下几个角度展开:(1)以元学习框架对模型更新过程进行建模,实现基于数据驱动的端到端模型更新方法。目标跟踪的模型更新往往被建模为在线学习问题。现有的学习算法如随机梯度下降法,需要人工仔细地调节学习率、迭代数等参数来满足目标模型的泛化要求。并且,更新过程中其需要不断迭代的前向后向计算,难以满足实时性要求。本文将学习算法通过元学习方法进行建模,用递归神经网络作为模型更新器,利用大量的离线视频数据,对更新器中的神经网络参数进行优化。训练得到的模型更新器在跟踪时不需要进行任何超参数调节,只需要一次前向操作即可完成目标模型的更新,因此跟踪器运行速度远超实时,达到82帧/秒。另外,在多个数据集上曲线下面积指标(AUC)相比指数移动平均法提升4%以上,相比随机梯度下降法提升1%以上。(2)将目标模型拆分为缓慢(更新)模型和快速(更新)模型,基于元学习方法实现模型的快速更新以区分相似干扰物。跟踪器应对相似干扰物的能力与模型更新能力紧密联系。在不存在干扰物时,跟踪器的目标模型应扩大其决策边界,以囊括目标的各种变化,如视角、姿态变化等。当出现相似干扰物时,跟踪器应缩小其决策边界,以区分目标和干扰物。为此,本文将目标模型拆分为两部分,一个为缓慢(更新)模型,用来确保决策边界包含目标的各种变化,一个为快速(更新)模型,用来快速变化以区分目标和干扰物。这两部分相互独立,因此可以对快速模型进行剧烈的更新而不必担心模型整体退化。为了快速建模目标和干扰物,利用元学习方法离线训练得到元学习器。在干扰物场景下,本文方法AUC指标超过基准方法4%以上,在通用场景下,超过基准方法0.3%左右。(3)基于短时全局结构一致性,快速更新以捕捉目标的短时快速变化并区分相似干扰物。在短时间内,整个场景的全局结构(包括目标对应关系和空间布局)是一致的。本文设计一种能够隐式建模帧间全局一致性的神经网络模型,有效处理目标在短时间内的快速变化,以及周围的相似干扰物。该模型能进行快速更新以应对目标的瞬时变化,为了同时保持模型的稳定性,引入长短时结构的跟踪器设计。用长时模型建模目标长时间内的整体,短时模型则建模目标的快速变化,两者在响应图级别进行融合,保证了融合的细粒度。另外,通过共享长短时模型的特征提取模型,保证了跟踪器的高效运行。提出方法在多个跟踪评测集上进行验证,在保持跟踪速度的基础上,AUC指标相比基准方法提升2%左右,相比目前的SOTA跟踪器取得了优异的效果。(4)设计基于前看信息筛选的模型更新机制,并在目标跟踪以及时序任务视频动作识别上进行验证。实际中并非所有帧都对目标任务有帮助,如重复、无关或噪声视频帧。当用这些视频帧进行更新时,模型中真正有用的信息反而会被覆盖。另一方面,某些具有区分性的信息转瞬即逝,这时模型需要快速地捕捉这些关键信息。本文考虑基于信息筛选的模型更新,剔除无用甚至有害的信息,而将关键信息保留下来。本文设计一种前看机制,该机制在当前时刻提前扫描后续的帧图像,然后对后续帧进行提前的筛选,被剔除的视频帧不会更新视频建模。具体地,考虑视频帧的重要性和区分性两个方面来制定筛选策略。本文提出的方法能够剔除80%以上的视频帧,同时保持甚至超过使用所有视频帧的精度。总的来说,本文为模型更新的建模提供了一个基于元学习的框架。针对可塑性与稳定性均衡这一核心问题,探索了基于双模型建模和基于信息筛选的模型更新方法。基于深度学习的模型更新研究方兴未艾,本文为此方向做了一些有益的探索。
其他文献
在焊接过程中会难以避免地在金属内部产生焊缝缺陷,其类别主要包括气孔、未焊透、裂缝等,这些缺陷给我们后续的工业生产和日常生活都造成了巨大的安全隐患和潜在的财产损失。X射线技术常用于投射焊接区域而产生焊缝的胶片图像,便于对焊缝的焊接质量进行评估,从而发现缺陷的类别与位置。目前这一判定过程主要依赖人工来完成,但该方式有效率低、主观性强等诸多弊病。在深度学习领域中,卷积神经网络(Convolutional
中国是最早发现和利用茶树的国家,被誉为茶的祖国。在17世纪末至20世纪初,我国与俄国之间建立了以茶叶为商品的贸易线路——中俄万里茶道,而宜红古茶道便是万里茶道中“宜红茶”产地的贸易运输线路。本文将宜红古茶道沿线聚落的公共空间与文化线路理论结合,基于社会文化背景以及宜红茶贸易发展,阐明古茶道沿线聚落公共空间的类型、形态与特征,为文化线路的相关研究引入全新视角。首先,论文基于文化线路与宜红古茶道的认知
水飞蓟的主要活性成分是黄酮类化合物水飞蓟素,能抑制损伤、抗肿瘤、治疗心脑血管等疾病,尤其对肝损伤具有很好的疗效。本研究从植物学特性、栽培技术、活性成分和药理作用研究综述了药用植物水飞蓟目前的研究进展。旨在对进一步提升栽培技术、开发水飞蓟的药用价值提供一定的指导和借鉴。研究发现,水飞蓟在非生物胁迫下通过影响次生代谢产物、抗氧化酶活性及渗透调节物质含量等方式来调节植物生长发育。此外,施加外源植物生长激
微光夜视技术通过对光辐射能量的增强与电子成像,有效地延展了人眼的视觉频段,使人类在黑暗中正常活动成为可能,目前已在社会各领域得到应用。建立合理且有效的成像仿真模型能为微光夜视系统的开发提供指导意见,优化系统的组成结构,节省设备的研制开销,具有很大的研究价值。基于这样的背景,本文利用OSG渲染引擎设计了一套完整的微光视景仿真系统,能够实时且大量地生成多条件任意视角下逼真的微光图像,并详细研究了影响系
铁电材料因其自发极化状态可随电场、温度、应力等外界作用发生改变而具有电卡、热释电和压电等效应,并在环境制冷、温度探测、健康检测和能量转换等领域表现出极大的研究和应用价值。分子铁电体是一种新型铁电材料,它可以由有机基团和无机离子通过较弱的化学键连接而成,也可以由单一有机小分子组成。这种材料因灵活可调的组分构成而具有丰富的极化特性和优良的电学性能。加之其简单的制备工艺,分子铁电体研究在近年来受到了广泛
被称作“终极半导体材料”的金刚石是目前最具发展前途的半导体材料。然而,由于金刚石尺寸及价格的限制使其很难快速推动金刚石半导体研发的进程,大尺寸、高质量单晶金刚石的获取最大的难点就是多晶的抑制,而通过大量反复的实验测试,即使是找到了较好的生长工艺但由于重复性及内部机理不明等问题依然难以产业化。另外,在在线监测手段不成熟的情况下,如何以低研发成本实现金刚石生长工艺的优化是推动半导体金刚石发展的另一重点
【目的】本研究通过概念化、操作化社区慢病患者价值共创行为,为理解价值共创过程提供基础,在此基础上探究互联网医疗服务对患者价值共创行为的影响,为推进互联网医疗服务资源与流程整合、服务模式创新提供参考,从资源视角探寻参与者共同创造价值的前因,通过构建和验证慢性病患者共同参与价值创造的前因(可利用资源)-行为-结果模型,识别合作网络各方参与价值共创的影响因素,揭示社区慢性病服务合作网络之间的资源整合的机
背景:气道上皮细胞中IL-4R信号的激活可以导致支气管哮喘气道高反应性、气道黏液过度分泌和气道炎症的发生。CDH26是一种与气道上皮细胞极化相关的钙粘蛋白,并且在哮喘中表达升高。但是,CDH26在哮喘中的作用机制仍然未知。目的:探究CDH26基因在支气管哮喘发病机制中的作用。方法:利用过敏原HDM构建小鼠哮喘模型,检测Cdh26基因敲除鼠和野生型小鼠的气道阻力、气道粘液分泌情况、气道炎症浸润情况以
水体中的有机污染,特别是难降解有机物的污染,长期以来受到了广泛关注。基于过硫酸盐的高级氧化技术是近年来逐步兴起的针对水体难降解有机污染的控制方法,其中多相催化活化过硫酸盐技术由于其能耗低、易操作、设备要求简单等特点,得到了大量研究。在多相过硫酸盐催化体系中,提升多相催化剂的催化效率一直是研究的主题。本课题中,围绕着提升过渡金属催化剂对过硫酸盐的催化效率这一目标。分别采用过渡金属氧化物协同、非变价金
时间序列模型作为一种处理动态数据的统计方法,其模型系数和残差对结构中的损伤具有敏感性,并且可以直接通过结构振动响应信号得到,因此在结构损伤识别领域的应用十分广泛。针对传统基于时间序列模型的方法难以对结构损伤进行定位和定量分析的难点,及其损伤识别问题的不适定性和局部损伤难以识别等问题,本文基于国家重点研发计划课题“动态时空环境效应下的超高层建筑主体结构安全诊断理论与方法研究”(2016YFC0802