基于时空结构表达的视觉行为识别方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：wusuowei2100

【摘要】

：

人的行为识别是计算机视觉领域中要解决的终极问题之一。相对于物体检测和分类来说，人的行为识别是在其基础上要实现的更高层的目标，涉及到对人类视觉系统更深层的理解。除了理

【作者】

：

单言虎

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

视觉行为识别方法行为序列时空结构表达

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人的行为识别是计算机视觉领域中要解决的终极问题之一。相对于物体检测和分类来说，人的行为识别是在其基础上要实现的更高层的目标，涉及到对人类视觉系统更深层的理解。除了理论研究价值之外，行为识别也具有非常广泛的应用前景，如人机交互、智能视频监控、智能家居以及视频检索等。本文从行为序列中时空结构表达的有效性、鲁棒性以及时空结构内在联系方面展开工作，提出了基于时空结构表达的视觉行为识别方法。具体而言，本文的主要工作及贡献如下:　　1.一个有效的行为表达是决定行为识别性能的关键。通过观察视频序列中的时间和空间信息，提出了一种新的基于自适应时空切片的行为特征表达方法。首先，通过提出的最小平均熵准则自适应地选择出最佳的切片方向，使得运动前景分布在少数切片中，从而解决由于信息分散带来的不确定性;接着，这些切片被连接在一起并转化为两个一维信号;最后，提取一维信号Mel倒谱频率系数作为行为的特征。在多个数据库上的实验结果表明:基于自适应时空切片的行为特征表达方法对于识别不同类型的行为是非常有效的，同时该方法的高效性使得其具有很大的应用潜力。　　2.在解决真实场景行为识别问题时，受复杂环境的影响，无法直接对视频序列进行建模。而局部特征虽然能够从一定程度上克服噪声的影响，但却缺乏对行为高层信息的表达能力。为了进一步提高行为识别系统的鲁棒性，提出了一种基于概率结构模式推理的行为识别方法。首先，利用层级随机图的方法来从局部特征点中自动学习层级结构信息，并且估计不同特征点之间的连接概率;然后，提出了一种基于AND/OR推理的方法来从层级结构中推理出具有概率的潜在高阶模式，概率信息可以有效的描述高阶模式的不确定性。基于学习到的高阶模式，利用马尔科夫链蒙特卡罗(MCMC)在行为序列中查找与该模式最符合的实例来对行为进行表达。在当今最具挑战的两个真实场景行为数据库上的实验表明，学习到的高阶模式可以有效提升局部特征的行为表达能力，对于识别真实场景的行为具有很强的鲁棒性。　　3.为了更好地利用时间和空间信息来解决行为序列中存在的不稳定性和较大类内差等问题，通过分析时空的内在联系，提出了一种基于慢特征骨架流学习的行为识别方法。对于深度传感器估计的人体骨架序列（骨架流），首先，利用节点之间的空间结构信息将由节点坐标组成的坐标流转化为多阶节点流，以有效提高节点流的稳定性;接着，使用慢特征分析方法学习每个节点的视觉模式，并将学习到的高层视觉模式编码到每帧骨架的空间表达中。通过时序信息对空间结构进行约束，可以有效降低骨架特征之间的类内差。实验表明，合理利用行为序列中时空结构的内在联系能够很好地提高行为表达的稳定性和显著性。

其他文献

模拟退火优化法的分析与实验研究

学位

后件直联型分层模糊系统结构、特性、建模及应用研究

自从Zadeh教授提出模糊集合以来，模糊系统理论得到了快速发展和广泛应用。模糊系统与其他智能系统的一个重要区别在于:模糊系统不但能够利用数据信息，而且能够利用基于人类经验

学位

分层模糊系统逼近性能等效性可解释性结构建模粒子群算法Pareto解集

基于草图接口的三维物体建模及检索

三维数据被广泛地认为是下一代数字媒体的代表，如何快速制造和获取所需的三维模型数据成为了下一代数字媒体时代必需具备的重要技术。本文提出和实现了快速制造和获取三维模型

学位

线画图拆分三维重建单幅图像模型检索

OOP及其在AIMS开发中的应用