论文部分内容阅读
行为识别是计算机视觉领域的一个重要分支,在机器人视觉、智能视频监控、人机交互、医疗护理、虚拟现实及游戏控制等领域有着广泛应用前景,其研究目的主要是让计算机通过摄像机理解视觉场景中的人在干什么。为避免传统行为识别方法中繁琐的特征提取及选择编码过程,本论文结合卷积神经网络和递归神经网络分别在空间结构和时变动态信息提取方面的优势,针对行为识别研究中基于人体骨架的行为识别和基于RGB视频的行为识别两个研究问题,基于深度学习构建模型以自适应提取序列中的时空信息表达,基于获取的表达来解决这两类行为识别问题。本论文主要工作概括如下: 通过将人体骨架序列转化为对应的图像表达,利用卷积神经网络提取其中的空间结构信息以间接获取原始骨架序列的时空信息表达,在此基础上解决行为识别问题。该模型是一种端到端的、简单、高效、高精度的基于人体骨架序列的行为识别模型。 将人体结构的物理相关性约束同递归神经网络结构设计结合起来,提出层级化递归神经网络模型,通过局部特征提取及层级化特征融合来获取骨架序列中的时空信息表达,从而解决单视角场景下基于人体骨架序列的行为识别问题。随后根据该模型特点,在其训练过程引入随机旋转及尺度变,使网络通过对一定范围内任意视角下人体运动的时变动态分析来自适应学习行为类别独立于视角变化的运动模式,以解决多视角场景下基于人体骨架序列的行为识别问题。总体上,该模型是一种端到端的、高精度、高效率的基于人体骨架序列的行为识别模型,并对输入噪声、局部遮挡及摄像机视角变化具有很强的鲁棒性。 基于卷积神经网络和递归神经网络分别在提取空间静态和时变动态信息表达方面的优势,结合门控思想来解决递归神经网络训练中的梯度消失和误差膨胀问题,提出卷积递归神经网络模型来同步自适应提取视频中更具区分性的时空信息表达,以更好地解决基于RGB视频的行为识别问题。