基于语义信息融合的物体检测及人物交互检测算法

来源 :天津大学 | 被引量 : 0次 | 上传用户:glsdap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物体检测是计算机视觉领域的基础问题之一,在自动驾驶、安全监控等领域有着广泛的应用。当前物体检测主要有两个发展方向,一是通过部署深度网络来实现检测精度的提升,不能保证实时的检测速度;二是通过设计轻量级网络提升检测速度,但检测精度相对较低。目前来看,单阶段物体检测器的检测速度尚可满足实时性的需求,但检测精度低是其相比于双阶段物体检测器的一个缺陷。与此同时,对于自动驾驶、安全监控等领域来说,视觉感知系统中仅仅只有物体检测是不够的,还需要更多的对于语义场景有着更深理解的任务。而人物交互检测就是视觉关系检测中的其中一种,对于给定的一张图片,这个任务不仅需要完成对人和物体的定位,还需要识别出人物之间的交互关系。
  为解决单阶段物体检测器检测精度的缺陷,本文结合传统图像金字塔结构,设计了一种新型的图像金字塔模块,称为高效特征化的图像金字塔。该特征化的图像金字塔有着结构简单、参数量较少的优点,能对单阶段物体检测器进行有效信息补充,增强深度特征的可判别性。在能维持单阶段物体检测器速度优势的情况下提升物体检测的精度。为进一步实现高低级语义信息的融合,本文还设计了前向特征融合模块和反向特征融合模块。前向特征融合和反向特征融合分别利用简单的下采样和上采样操作,实现深度高级语义特征和浅层低级语义特征的高效融合,从而保证网络能在检测精度上进一步地提升。本文基于所提出的三个模块,设计了一种高效精准物体检测网络,称为高低级语义信息融合网络。相关检测数据集的实验表明所提出的方法能实现先进的检测精度并保持较高的检测速度。
  为提升人物交互检测任务的检测精度,本文结合物体检测领域中常用的大核模块,设计了一种高效的计算模块,称为上下文信息聚合模块,用于捕捉实例周围的上下文信息。为进一步实现人物交互场景中局部语义和全局语义的融合,本文还设计了一种局部编码模块和基于上下文的注意力机制模块,分别对包含全局语义的实例特征进行编码和利用局部语义强调全局特征的重要区域。文中还基于提出的上下文信息聚合模块、局部编码模块和基于上下文的注意力机制模块,设计了一种可以充分吸收上下文信息、实现局部和全局语义信息有效融合的人物交互检测网络结构,称为上下文语义信息融合网络。在人物交互检测的数据库上进行实验,结果表明所提出的方法能够达到先进的人物交互检测精度。
其他文献
随着信息技术的飞速发展,电子信息技术在如今的战争局势也发挥着越来越重要的作用。在电子对抗领域,对非合作目标源的定位问题一直是国内外学者广泛研究的热点。区别于雷达等对辐射源发射信号并接收回波的有源探测方式,无源定位是通过检测和估计辐射源的电磁波参数来确定辐射源位置。由于多站联合定位的方式效率低下并且风险较大,因此本文对实际应用更为灵活的单站无源定位展开研究。  本文主要对无源感知问题中的目标定位模型
学位
特征选择是维数约简的一种重要手段,其通过保留有效特征,消除无关和冗余特征,从原始特征集中选择一部分特征构成特征子集,从而达到数据降维的目的。然而,现有的一些特征选择算法难以保证在选择过程中同时考虑特征的相关性、冗余性和交互性三方面性质,导致算法的特征选择性能有限。此外,随着深度学习技术的发展,卷积神经网络在各个领域的应用越来越广泛,其常被用于提取图像特征,但大多数特征选择算法针对的都是传统的数据集
随着科学技术的不断发展和提高,立体显示技术被越来越广泛地应用在人们生活工作的各个领域。但是由于当前立体显示技术大多基于立体视差原理,视差所引起的辐辏调节冲突会引起观看立体影像时出现视觉不舒适的现象,降低了观看体验。因此,对于辐辏调节冲突对立体影像视觉舒适度影响的认知研究具有十分重要的意义。  本文首先采用脑电技术对单一视差所引发的视觉舒适度进行研究,提取了视差引起的舒适与否两类脑电信号的特征。将客
机器人技术涵盖众多的学科,包括机械制造、传感器应用和识别、电子技术、自动化与人工智能等。近些年,自动化技术和人工智能技术的不断发展大大推动了机器人技术的进步。根据应用场景不同,可将机器人分为工业机器人、农业机器人、家用机器人、医用机器人等。随着机器人的发展和大范围应用,对机器人智能化的要求越来越高,其中自主导航水平是评价一台机器人智能化的关键指标,而路径规划是机器人导航的重要组成部分。  路径规划
学位
光学乐谱识别作为乐谱内容符号化的关键技术,有助于音乐文件的存储与编辑,在音乐信息检索和计算机辅助教学等领域还有着重要应用价值。基于通用框架的光学乐谱识别算法存在处理步骤较复杂、精度较低等问题,而基于深度学习的算法虽有效地简化了通用框架,但其识别精度有待进一步提升,对于难点音符的识别误差较大,模型训练耗时久。为此本文提出一种改进的卷积循环神经网络光学乐谱识别方法。  本文中提出的光学乐谱识别算法主要
随着科学技术的日新月异及生活方式的改变,人们对位置信息的要求越来越高。在室内环境中,由于建筑物的阻挡等因素,全球导航卫星系统(Global Navigation Satellite System,GNSS)信号会发生衰减,GNSS难以满足人们对室内定位的需求。因此,众多室内定位解决方案层出不穷,其中基于行人航位推算(Pedestrian Dead Reckoning,PDR)理论的室内定位与跟踪技
火灾是人们日常生活中一种频繁发生且危害巨大的灾害事故。随着城市建筑向越来越高和越来越密集的趋势发展,火灾一旦发生,将严重威胁人们的生命财产安全。准确及时地检测到火灾发生对于防火救火具有十分重要的意义。传统的火灾检测技术多基于烟雾、光、热等多种火灾参数传感器来探测火灾,然而其受探测距离、安装位置等多种因素限制,报警速度慢、准确率低。进入21世纪以来,人类社会迈入高度的信息化时代,基于图像型的火灾检测
学位
三维模型技术随着信息技术的迅猛发张取得了广泛的应用,三维模型存在于人们生活的方方面面,例如三维建模、三维重建、3D电影、三维体感游戏和三维医疗等。特别地,得益于已经在各行各业逐渐普及的三维模型拍摄设备,每天都有海量的三维模型被分享到网络平台,相应的产生了大量三维模型数据集。然而,其中只有小部分用于学术研究的数据集具有详细和相对准确的人工标注,大部分三维模型数据库,尤其是用户端三维拍摄设备获取的三维
随着摄像头的广泛铺设和互联网普及,针对室内场景的空岗判定、智慧家居和人流量统计等智能视频分析系统也快速发展,以上功能的实现都要建立在室内人员检测的基础之上。但目前对检测算法的研究主要针对室外行人,室外行人取材场景开阔,数据集中的图片大多采用平行机位拍摄,人体目标较为完整。而室内人员多是俯视拍摄,容易出现家具带来的遮挡问题,且室内人员姿态多样,致使同一个体在不同状态下也会呈现较大差异。这些原因导致主
随着计算机视觉技术的发展,三维模型在该方向的应用越来越广泛。由于三维模型的数量急剧增加,快速实现对三维模型的分类和检索是面临的一个较为棘手的问题。三维模型的表征方法有很多种,其中基于视图的图像表征方法在该领域方面有着很好的表现能力,在多个数据库和比赛中取得良好的成绩。  本文依据图像表征三维模型的方法,介绍基于全景图的三维模型表征方法,主要介绍:(1)提取三维模型的全景图表示三维模型,将网格化的三