论文部分内容阅读
动作识别在诸多领域有广泛的潜在应用,例如智能视频监控,视频检索,人机交互等,近年来已经成为计算机视觉领域的一个研究热点。尽管许多学者在这方面已经做了非常多的工作,然而它仍然是计算机视觉的一个难点。首先,存在因运动速度的不同,视角变化和背景噪声引起的巨大的类内变化。其次,类别的定义建立在动作的概念和语义之上,底层视频特征和高级语义之间存在的偏差使得分类变得非常困难。在动作识别领域已经出现非常多优秀的方法,其中密集轨迹作为一种高鲁棒性的底层特征和Fisher Vector作为一个通用的组合被广泛应用于动作识别,并在许多公共数据集上取得了优异的表现。它构建基于高斯混合模型(Gaussian Mixture Model,GMM)的字典来表示视频中轨迹的分布,然后将其用于对给定视频的轨迹进行编码。由于对视频中的所有轨迹进行无序编码,从而忽略了不同轨迹之间的时空位置关系。为了弥补时空信息的丢失,本文提出了两种不同轨迹匹配算法来捕获丢失的时空位置关系,即:基于KNN的特征匹配策略和基于堆积的特征匹配策略。首先,我们定义了一个轨迹距离来衡量两条轨迹之间的关系。然后,执行本文提出的特征匹配策略对轨迹进行匹配,对于匹配之后的成对轨迹,我们采用平均池策略(average pooling strategy)来进行特征融合得到本文提出的时空配对轨迹(Space-time Pairwise Trajectories,SPT)。然后用 GMM 和 Fisher Vector 对 SPT进行编码。SPT包含了每条轨迹周围的局部时空信息,从而使得SPT比原始的密集轨迹的特征更具有判别性。我们在四个被广泛应用的公共数据集(Olympic Sports,HMDB51,UCF50,UCF101)上进行实验,实验结果证明我们提出的SPT的表现优于当前优秀的方法。