基于时空模型的行为识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sep
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行为识别是计算机视觉研究领域的一个重要分支,在无人驾驶、人机交互、运动分析合成、智能视频监控以及基于内容的视频检索等领域具有广泛的应用前景。其研究内容主要是利用机器学习的方法使得计算机可以自动分析和理解摄像机拍摄的视频中人在做什么。  视频中的人体行为往往存在运动模糊、光照变化等情况,如何提取具有判别力和鲁棒性的时空特征对于后续识别任务是至关重要的。识别人体行为不仅要理解和识别人的个体动作,还需要理解和识别人与周围环境、人与人之间的交互关系等。对于由同时发生或者顺序发生的多个子动作组成的复杂行为活动,还需要建模子动作之间在空间时间上的依赖关系。对于计算机系统而言,考虑到人体行为的复杂性、周围环境的多样性、运动习惯方面的差异性等,准确理解和分析视频中的人体行为具有很大的挑战。视频中的人体行为识别研究主要集中于特征构造、序列建模两大研究方向。本文总结分析了已有的研究工作,针对存在的问题,提出更加具有表达力与判别力的时空模型。论文的主要工作和创新点归纳如下:  第一,基于概率图模型的行为识别。针对多模态学习与组合行为识别问题,提出两种基于概率图模型的序列识别模型。具体而言,提出一种基于耦合隐马尔科夫模型的多模态手势行为识别方法,在模型层级融合多种模态的数据,利用耦合的隐马尔科夫模型发掘不同模态数据间的关联特性与互补信息。对于测试数据只包含一种模态数据的情况,通过概率计算,将根据多模态数据训练得到的模型参数迁移到单链模型上。多个数据集上基于不同模态组合的实验结果验证了所提模型的有效性。提出一种基于时空三角链式条件随机场的组合行为识别方法。将由多种子行为在空间和时间上组合构成的复杂行为识别问题,看作多层级序列标注问题。给定观测序列,同时预测序列的行为类别以及每一时刻的子行为类别。将传统的时序三角链式条件随机场在空间维度进行扩展,使用多条链建模人体行为中不同身体部位子行为的时空依赖关系。所提模型较之已有方法考虑了更多的依赖关系。组合行为数据集上的实验结果验证了所提模型的有效性和鲁棒性。  第二,基于门控卷积神经网络的行为识别。针对骨骼序列识别问题,提出一种基于门控卷积神经网络的行为识别模型。在分析对比各类深度模型特性的基础上,提出将序列识别的问题转换为图像分类的问题,设计了一种加入线性跳跃门控连接的卷积神经网络识别骨骼序列中的人体行为。将视频中的人体骨骼序列表征为一张对时空信息进行编码的彩色图像。在生成图像的过程中,考虑了骨骼节点不同的排列顺序对识别结果的影响,并且加入置换网络自动针对具体输入学习最优的排列方式。此外,改进了门控卷积神经网络中的门控单元,提出一种更有利于模型训练过程中梯度反传的线性跳跃门控连接。  第三,基于骨骼点与三维卷积神经网络的行为识别。针对行为视频的时空特征表示问题,提出一种基于骨骼点池化三维卷积神经网络特征的行为识别方法。利用骨骼点位置信息池化三维卷积神经网络的卷积层,生成具有判别力的视频描述子。提出一种考虑了卷积网络各层所使用的运算核尺寸、运算核步长以及填充边距值的坐标点映射方法,据此可以得到比按比例缩放更为准确的对应点位置信息以及更为精准的特征表示。无论是基于标注的骨骼点数据还是基于估计得到的有偏差的骨骼点数据,在多个数据集上的实验结果验证了所提特征的有效性、判别力和鲁棒性。为了提高模型的通用性,进一步提出一种基于骨骼点指导的两流双线性三维卷积神经网络模型。该模型可以自动从训练集的骨骼点数据中学习得到关键点位置知识并且提取时空特征,将特征池化过程表示为双线性乘积运算,模型整体可以进行端到端联合优化。所提网络可以有效地迁移到不具有骨骼点标注信息的数据库或者数据规模过小不足以训练深度网络的数据库上。多个数据库上的实验结果表明,所提模型可以不依赖于复杂的骨骼点估计算法,端到端地实现基于关键区域的时空特征提取。  第四,第一视角交互手势行为识别研究。针对第一视角行为识别问题,提出一种基于循环时空变换模块与循环三维卷积神经网络的第一视角交互手势行为识别方法,重点解决第一视角中由头部运动带来的识别困难和挑战,利用三维卷积神经网络和具有循环连接的时空变换模块对特征图进行单应变换,提取更加具有判别力的时空特征,并且通过循环神经网络充分发掘时间序列的长时短时依赖关系。针对现有数据量不足的问题,设计、采集、标注了一个大规模多模态的第一视角交互手势行为数据库,实现了各种基于不同模态的传统手工构造特征、二维卷积神经网络、三维卷积神经网络、循环神经网络、时空变换模块等模型的分类、检测算法。探索了不同场景下模型的表达能力与迁移能力。
其他文献
CAN现场总线作为一种能有效支持分布式控制和实时控制的技术,以其稳定性好、可靠性高、抗干扰能力强、通讯速率高、维护成本低等特点越来越受到人们的重视。随着现场总线技术
由于严峻的公共安全形势,智能视觉监控越来越受到重视。步态识别能够从远距离识别出人的身份,对提高监控系统的智能性至关重要。步态识别的难点之一是步态特征作为一种行为特征
本文的研究主要是围绕反舰巡航导弹的气动力/推力矢量的建模、制导、航迹规划及目标检测与识别等关键问题来展开,实现巡航导弹精确打击目标。 第一部分对反舰巡航导弹气动
智能交通信号控制系统是智能交通系统的重要组成部分,将在社会经济发展中发挥重要的作用。图像处理及模糊控制技术在智能交通信号控制系统中的应用研究,是智能交通系统的前沿研
句法分析是自然语言处理的重要任务之一。在机器翻译、自动问答、信息提取等应用系统中,句法分析能够为各系统提供句子结构上的信息。简单说来,句法分析是将一个句子映射到其句
本文对经典PSO算法以及在此基础之上的改进算法进行详细分析后,提出了两种改进方案:基于粒子速度反馈信息的混合粒子群算法(Hybrid Particle Swarm Optimization Based 0n Swar
金属制品行业对钢丝进行酸洗处理过程中,产生大量酸性废水,从工业废水治理及节约水资源的角度出发,对酸性废水处理是公司的重要研究课题。本文详细介绍了中和过程的原理、工
飞行机器人是一个极具挑战性的多学科交叉的前沿性研究课题。作为空中机器人的无人驾驶直升飞机,在军事上可用于侦察、监视等,在民用上可用于大地测量、遥感等。目前,美国、日本
由于信息化程度的提高,越来越多的信息化系统应用到各个与电力部门相关的单位,然而,抄表模式在这么多年仍然没有发生什么大的变化,目前的抄表方式仍然是以人工抄表为主。这种抄表模式不仅花费大量的人力物力,更严重的是不能保证抄表数据的及时性、准确性。本文在针对现有的人工抄表、有线抄表、无线抄表模式进行分析比较的基础上,提出了一种采用ZigBee技术进行无线抄表的解决方案。无线抄表是指采用近距离无线通信技术和
近来,时间序列相似性挖掘越来越受到诸多学者的关注和研究。它不仅是时间序列数据挖掘的重要工具,而且也是其他知识发现应用,诸如聚类、分类和关联规则发现等的基础。相似性挖掘