论文部分内容阅读
作为视频分析应用中最重要的基础工作之一,运动目标检测一直被视为计算机视觉研究领域内极具实用性和挑战性的课题。虽然近年来已经有大量围绕该问题的工作不断发表,但由于自然场景的复杂变化和人为噪声的干扰,至今仍然缺乏一个通用且高效的解决方案。传统的运动检测算法主要着力于建立背景统计模型,通过寻找稳定的特征来分割运动物体。但是人工设计的特征都有其局限性,往往无法很好地适应复杂自然场景带来的挑战,例如光照的变化、目标遮挡、动态背景等等。因此本文致力于让算法自己学习到最好的特征。而近年来在计算机视觉领域得到广泛应用的卷积神经网络,由于其方法不需要研究人员手动设计特征,以及在不同的场景中表现出了很好的鲁棒性和适应性,将作为本文用于学习特征的工具。为了克服传统方法在复杂自然场景应用中的缺陷,本文围绕像素值波动和像素值时序分布展开研究,分别建立了两种运动检测模型,其中主要工作如下:(1)在基于像素值波动学习的模型(DPVL)中,本文提出了一个像素片特征用于对像素值波动进行编码。并设计了一个端对端的全卷积神经网络,通过该网络对单个像素点的观测值波动模式进行学习,最终将其值变换到一个线性可分的子空间内进行分类。此外,DPVL模型还从像素点周围随机采样,获得近邻像素点的像素片特征,使网络能够得到空间上下文信息的约束,从而提升模型的分类性能。(2)在基于像素值时序分布学习的模型(DPTDL)中,本文提出了一个随机像素值对比特征(CRP),用于对像素值的时序分布进行编码。并设计了一个卷积神经网络对像素值的时序分布进行学习,通过对比当前像素值与其历史观测值的差异来判定其是否为前景或者背景。对比传统的运动检测方法,本文提出的两种运动检测模型都不必受限于简单的像素模型和人工设计的特征,从而能更好地适应真实世界中的复杂应用场景。而其他基于深度学习的运动检测方法,由于其背景模型仍然依赖于传统方法,使得他们的方法受到了严重的限制。而本文提出的两种检测模型都直接对像素观测值进行建模,规避了借助传统方法所带来的限制。在多个标准数据集上进行的综合实验表明,与当前主流的深度学习和传统方法相比,本文所提出的两个模型都具有相当优秀的检测表现。