基于深度学习的视频动作识别方法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:snowdrangon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量视频数据的快速增长为人们挖掘其中重要感兴趣信息带来了巨大挑战。如何高效地对海量视频数据进行分析和处理,以获取其中有价值的信息成为工业界以及学术界重点关注并研究的问题。视频数据的结构复杂,且数据量巨大,传统的手工标注方式己无法满足目前视频数量的日益增长需求,亟待需要能够通过学习视频特征进行视频自动分类的技术。视频动作识别技术在特征提取过程中受到遮挡、动态背景变化、摄像头抖动以及视角和光照变化等因素的影响而具有很大的挑战性。而视频分类算法能实现自动分析视频所包含的语义信息、理解其内容,对视频进行自动标注、分类和描述,达到与人相当的准确率。因此,大规模视频分类是继图像分类问题解决后下一个急需解决的关键问题。其中,视频分类中的动作识别方法是本文重点关注的内容。本文基于深度学习模型提取视频中的时间和空间信息,围绕着实现高效的动作识别任务,提出了两种动作识别方法。针对目前主流方法大多集中在3D网络研究上,并将RGB和光流图作为网络输入,造成网络计算开销大和耗时长的问题,本文提出仅使用RGB图像作为输入,基于目标检测的低秩三维动作识别方法。首先,本文提出了基于目标检测算法的视频帧预处理方法,避免了网络的输入视频帧由于一般裁剪策略造成的目标缺失以及杂乱背景影响的问题。该方法采取目标检测算法对视频图像进行目标检测,准确定位目标位置,随后进行裁剪,以此作为网络的输入,极大限度保留了目标动作信息。其次,本文构建2D时序分段与低秩伪3D组合网络结构进行视频特征的提取和分类,通过设计多种低秩核结构,有效地提高了网络运行效率和识别准确率。在第一种方法基础上,考虑到随机选取视频帧作为网络输入可能造成视频帧包含动作信息不充分的问题,通过分析,本文提出基于强化学习的低秩三维动作识别方法。该方法通过构建深度强化学习框架,筛选关键信息帧作为网络的输入,保证输入帧的动作信息充分性,然后采用基于目标检测的低秩三维网络进行动作识别分类,得到最终的分类结果,以进一步提高网络识别准确率。为了验证本文提出的两种动作识别方法的有效性,本文在公开数据集UCF101上进行了多组对比和验证实验。实验结果表明,本文提出的两种方法能够保证在识别准确度得到一定提升的情况下,有效提升网络运行速度。
其他文献
<正>常绿阔叶灌木用于花境,可以柔化花坛边缘线条,营造具有个性的景。
期刊
合同法定解除制度是合同法中的一项重要制度,其对合同双方当事人利益的保护、市场经济秩序的维护以及交易安全的保障均具有举足轻重的作用。我国《合同法》在借鉴其他国家或
<正>自2004年商业银行首发个人理财产品到2014年中国银行业理财产品余额达到10万亿元,理财产品逐步成为各阶层人士资产保值增值的必需品,商业银行依靠自身卓越的财富管理水平
类风湿性关节炎,是一种因免疫功能亢进引起的以关节滑膜慢性炎症病变为主症的疾病,邪气痹阻于经络为其基本病机,病变多以关节的肿痛和功能障碍为主要表现。目前对类风湿关节
该文探讨了维果茨基的“最近发展区”理论及其涵义,揭示了这一理论对我国语文阅读教学的启示。
<正>在梁清标所收藏过的一百七十一件(册)元代书画中,梁对元代书画的鉴定与我们今天有一些差别,梁的观点在吴升在《曹云西重溪暮霭图》后说得十分清楚:"元画六大家后,又推曹
<正>如今,超市已成为我们生活中不可缺少的一部分。不过你是否注意过,在超市琳琅满目的商品中,食品的摆放位置是暗藏很多秘密的。秘密一:新鲜牛奶通常摆在最里面记者走访了各
飞机在起飞和着陆过程中意外冲出跑道端部时,很容易酿成机毁人亡的事故。国际飞行员联合会推荐的一种泡沫混凝土拦阻系统,能够有效地拦停冲出跑道的飞机而不引起乘员伤亡和飞
衔接与连贯是篇章语言学的两个重要术语 ,也是翻译过程中需要特别注意的问题。探讨了衔接与连贯的关系 ,在篇章中的存在形式 ,以及在英译汉过程中处理原文衔接手段以达到连贯