论文部分内容阅读
随着图像传感器、计算机网络、分布式计算技术的发展,基于摄像头网络的视频监控技术正日渐成熟,并越来越广泛地应用于智能家居、智慧交通、公共安全等各个领域。由于在上述视频监控网络中,摄像头大都没有进行定标,且相互之间无视野重叠,因而称为稀疏摄像头监控网络。如何针对监控摄像头网络的这一特性,研究新的目标跟踪、再识别以及海量视频数据摘要技术,解决目标线索信息提取以及数据语义摘要存储等关键科学问题,无疑具有重要的理论价值和实际意义。 多目标跟踪是视频监控乃至计算机视觉领域的一个核心问题。传统的目标跟踪算法需要针对不同的监控场景设定对应的参数。而在稀疏视频监控摄像头网络系统中,每个摄像头处于不同的位置,应用于不同的场景,参数设定繁琐耗时且鲁棒性差。针对这个问题,本文提出一个新颖的基于学习的结构化预测跟踪框架。该框架不需要设定参数,从标记过的视频片段中学习判别式的结构化预测模型,该模型考虑了外观、场景、物体运动速度等多项因素的互相制约关系。给定某一帧视频的观察值和上一帧视频的跟踪状态,该算法通过最大化似然的方法推导出当前视频帧的跟踪状态。另外,所提出的算法综合了检测和跟踪两个因素,使得检测和跟踪可以利用彼此的结果来做矫正,从而降低了跟踪的误差。整个跟踪模型被设计为一个基于凸优化的参数估计问题,从而使模型参数可以被切平面算法快速地求解。 在稀疏视频监控系统中的关键问题之一是跨摄像头的目标(行人)再识别问题。该问题的主要困难在于不同摄像头中目标的外观变换。本文针对低级特征进行外观描述不稳定的问题,提出用属性约束的话题模型来将底层特征编码为具备语义的话题,加强了表达的稳定性。针对不同摄像头之间外观变化的问题,提出半监督耦合字典学习算法,利用少量标记过的训练图片对来学习得到不同摄像头之间特征流型的对应关系,并利用大量未标记的训练图片来辅助得到鲁棒的稀疏表示;在测试时,目标图片的特征首先被编码为稀疏表示,再利用耦合字典进行解码得到对应摄像头的特征,从而实现跨摄像头的目标再识别。 将稀疏视频监控拍摄得到的数据全部存储下来占用空间巨大,而且存储后的管理也很困难。本文针对这一问题提出利用了新的视频摘要方法。新的方法基于弱监督分割的方法来得到监控视频的语义特征,进而得到基于语义的关键帧进行存储。通过将视频关键帧的提取与边界分割看作一个对偶问题,在一个概率的模型下进行能量函数最小化,并将最终得到的关键帧存储下来。该方法在有效地保留了监控视频语义性的同时可以高效地将视频的存储空间进行压缩。 对于上述提出的关键技术,本文设计了与之对应的定量和定性分析实验,并对部分算法做了用户调研。实验结果表明,本文提出的技术有效地提升了固定摄像头跟踪的准确率、跨摄像头目标再识别的匹配率,以及监控视频的结果压缩满意度等指标,证明了算法的有效性。