论文部分内容阅读
人的行为识别是计算机视觉领域中要解决的终极问题之一。相对于物体检测和分类来说,人的行为识别是在其基础上要实现的更高层的目标,涉及到对人类视觉系统更深层的理解。除了理论研究价值之外,行为识别也具有非常广泛的应用前景,如人机交互、智能视频监控、智能家居以及视频检索等。本文从行为序列中时空结构表达的有效性、鲁棒性以及时空结构内在联系方面展开工作,提出了基于时空结构表达的视觉行为识别方法。具体而言,本文的主要工作及贡献如下: 1.一个有效的行为表达是决定行为识别性能的关键。通过观察视频序列中的时间和空间信息,提出了一种新的基于自适应时空切片的行为特征表达方法。首先,通过提出的最小平均熵准则自适应地选择出最佳的切片方向,使得运动前景分布在少数切片中,从而解决由于信息分散带来的不确定性;接着,这些切片被连接在一起并转化为两个一维信号;最后,提取一维信号Mel倒谱频率系数作为行为的特征。在多个数据库上的实验结果表明:基于自适应时空切片的行为特征表达方法对于识别不同类型的行为是非常有效的,同时该方法的高效性使得其具有很大的应用潜力。 2.在解决真实场景行为识别问题时,受复杂环境的影响,无法直接对视频序列进行建模。而局部特征虽然能够从一定程度上克服噪声的影响,但却缺乏对行为高层信息的表达能力。为了进一步提高行为识别系统的鲁棒性,提出了一种基于概率结构模式推理的行为识别方法。首先,利用层级随机图的方法来从局部特征点中自动学习层级结构信息,并且估计不同特征点之间的连接概率;然后,提出了一种基于AND/OR推理的方法来从层级结构中推理出具有概率的潜在高阶模式,概率信息可以有效的描述高阶模式的不确定性。基于学习到的高阶模式,利用马尔科夫链蒙特卡罗(MCMC)在行为序列中查找与该模式最符合的实例来对行为进行表达。在当今最具挑战的两个真实场景行为数据库上的实验表明,学习到的高阶模式可以有效提升局部特征的行为表达能力,对于识别真实场景的行为具有很强的鲁棒性。 3.为了更好地利用时间和空间信息来解决行为序列中存在的不稳定性和较大类内差等问题,通过分析时空的内在联系,提出了一种基于慢特征骨架流学习的行为识别方法。对于深度传感器估计的人体骨架序列(骨架流),首先,利用节点之间的空间结构信息将由节点坐标组成的坐标流转化为多阶节点流,以有效提高节点流的稳定性;接着,使用慢特征分析方法学习每个节点的视觉模式,并将学习到的高层视觉模式编码到每帧骨架的空间表达中。通过时序信息对空间结构进行约束,可以有效降低骨架特征之间的类内差。实验表明,合理利用行为序列中时空结构的内在联系能够很好地提高行为表达的稳定性和显著性。