论文部分内容阅读
视频行为识别(Behavior recognition,BR)是指依据运动目标的视频,提取目标的行为特征信息,建立行为特征信息与高层行为语义之间的函数映射,实现视频行为识别,是多媒体信息高级语义理解和模式识别的一个重要研究方向。视频行为识别方法,涉及到特征提取和选择、信息处理、计算机视觉和模式识别领域。在科学研究和智能视频监控、高级接口和多媒体信息检索等方面具有重要的理论和应用意义。
本文在阐述Bayesian网理论的基础上,实现一种基于多层动态Bayesian网的模型(Multi-layer dynamic Bayesian network,MDBN),以及基于该模型的视频行为识别方法(BR based on MDBN,MDBN-BR)。主要研究工作和创新点为:主要研究工作和创新点为:(1)实现基于多层动态Bayesian网络的视频行为表示模型MDBN;(2)基于MDBN模型进行视频行为识别MDBN-BR,(3)综合视频行为的轨迹特征和光流特征两种运动特征进行行为识别;(4)采用将这两种特征组成的向量分解为维度相等的特征向量,作为MDBN模型两个层次观察量输入的综合策略。MDBN-BR方法的关键过程为三个:模型建立、参数学习和推理识别。参数学习和推理识别分别采用经典方法期望值最大化(EM)算法和联合树(Junction tree)推理算法实现。本文对这三个关键过程进行详细介绍和分析。从理论上,MDBN模型实质是扩展的Bayesian网络,具有可以表现变量间因果关系和将变量空间分解为局部空间表示联合概率的优点,因此,MDBN-BR方法采用MDBN模型将轨迹特征和光流特征综合的策略具有一定的合理性,并且,与HMM方法相比,降低了状态量与观察量依赖的维度;从实验上,MDBN-BR与层次HMM方法在采用同样训练集和测试集的基础上分别实现,并从识别性能和识别鲁棒性两个角度进行详细比较,实验结果表明,采用MDBN综合两种特征的策略相比HMM采用单一向量的策略,具有较好的结果。