论文部分内容阅读
海量视频数据的快速增长为人们挖掘其中重要感兴趣信息带来了巨大挑战。如何高效地对海量视频数据进行分析和处理,以获取其中有价值的信息成为工业界以及学术界重点关注并研究的问题。视频数据的结构复杂,且数据量巨大,传统的手工标注方式己无法满足目前视频数量的日益增长需求,亟待需要能够通过学习视频特征进行视频自动分类的技术。视频动作识别技术在特征提取过程中受到遮挡、动态背景变化、摄像头抖动以及视角和光照变化等因素的影响而具有很大的挑战性。而视频分类算法能实现自动分析视频所包含的语义信息、理解其内容,对视频进行自动标注、分类和描述,达到与人相当的准确率。因此,大规模视频分类是继图像分类问题解决后下一个急需解决的关键问题。其中,视频分类中的动作识别方法是本文重点关注的内容。本文基于深度学习模型提取视频中的时间和空间信息,围绕着实现高效的动作识别任务,提出了两种动作识别方法。针对目前主流方法大多集中在3D网络研究上,并将RGB和光流图作为网络输入,造成网络计算开销大和耗时长的问题,本文提出仅使用RGB图像作为输入,基于目标检测的低秩三维动作识别方法。首先,本文提出了基于目标检测算法的视频帧预处理方法,避免了网络的输入视频帧由于一般裁剪策略造成的目标缺失以及杂乱背景影响的问题。该方法采取目标检测算法对视频图像进行目标检测,准确定位目标位置,随后进行裁剪,以此作为网络的输入,极大限度保留了目标动作信息。其次,本文构建2D时序分段与低秩伪3D组合网络结构进行视频特征的提取和分类,通过设计多种低秩核结构,有效地提高了网络运行效率和识别准确率。在第一种方法基础上,考虑到随机选取视频帧作为网络输入可能造成视频帧包含动作信息不充分的问题,通过分析,本文提出基于强化学习的低秩三维动作识别方法。该方法通过构建深度强化学习框架,筛选关键信息帧作为网络的输入,保证输入帧的动作信息充分性,然后采用基于目标检测的低秩三维网络进行动作识别分类,得到最终的分类结果,以进一步提高网络识别准确率。为了验证本文提出的两种动作识别方法的有效性,本文在公开数据集UCF101上进行了多组对比和验证实验。实验结果表明,本文提出的两种方法能够保证在识别准确度得到一定提升的情况下,有效提升网络运行速度。