论文部分内容阅读
物体检测是计算机视觉领域的基础问题之一,在自动驾驶、安全监控等领域有着广泛的应用。当前物体检测主要有两个发展方向,一是通过部署深度网络来实现检测精度的提升,不能保证实时的检测速度;二是通过设计轻量级网络提升检测速度,但检测精度相对较低。目前来看,单阶段物体检测器的检测速度尚可满足实时性的需求,但检测精度低是其相比于双阶段物体检测器的一个缺陷。与此同时,对于自动驾驶、安全监控等领域来说,视觉感知系统中仅仅只有物体检测是不够的,还需要更多的对于语义场景有着更深理解的任务。而人物交互检测就是视觉关系检测中的其中一种,对于给定的一张图片,这个任务不仅需要完成对人和物体的定位,还需要识别出人物之间的交互关系。
为解决单阶段物体检测器检测精度的缺陷,本文结合传统图像金字塔结构,设计了一种新型的图像金字塔模块,称为高效特征化的图像金字塔。该特征化的图像金字塔有着结构简单、参数量较少的优点,能对单阶段物体检测器进行有效信息补充,增强深度特征的可判别性。在能维持单阶段物体检测器速度优势的情况下提升物体检测的精度。为进一步实现高低级语义信息的融合,本文还设计了前向特征融合模块和反向特征融合模块。前向特征融合和反向特征融合分别利用简单的下采样和上采样操作,实现深度高级语义特征和浅层低级语义特征的高效融合,从而保证网络能在检测精度上进一步地提升。本文基于所提出的三个模块,设计了一种高效精准物体检测网络,称为高低级语义信息融合网络。相关检测数据集的实验表明所提出的方法能实现先进的检测精度并保持较高的检测速度。
为提升人物交互检测任务的检测精度,本文结合物体检测领域中常用的大核模块,设计了一种高效的计算模块,称为上下文信息聚合模块,用于捕捉实例周围的上下文信息。为进一步实现人物交互场景中局部语义和全局语义的融合,本文还设计了一种局部编码模块和基于上下文的注意力机制模块,分别对包含全局语义的实例特征进行编码和利用局部语义强调全局特征的重要区域。文中还基于提出的上下文信息聚合模块、局部编码模块和基于上下文的注意力机制模块,设计了一种可以充分吸收上下文信息、实现局部和全局语义信息有效融合的人物交互检测网络结构,称为上下文语义信息融合网络。在人物交互检测的数据库上进行实验,结果表明所提出的方法能够达到先进的人物交互检测精度。
为解决单阶段物体检测器检测精度的缺陷,本文结合传统图像金字塔结构,设计了一种新型的图像金字塔模块,称为高效特征化的图像金字塔。该特征化的图像金字塔有着结构简单、参数量较少的优点,能对单阶段物体检测器进行有效信息补充,增强深度特征的可判别性。在能维持单阶段物体检测器速度优势的情况下提升物体检测的精度。为进一步实现高低级语义信息的融合,本文还设计了前向特征融合模块和反向特征融合模块。前向特征融合和反向特征融合分别利用简单的下采样和上采样操作,实现深度高级语义特征和浅层低级语义特征的高效融合,从而保证网络能在检测精度上进一步地提升。本文基于所提出的三个模块,设计了一种高效精准物体检测网络,称为高低级语义信息融合网络。相关检测数据集的实验表明所提出的方法能实现先进的检测精度并保持较高的检测速度。
为提升人物交互检测任务的检测精度,本文结合物体检测领域中常用的大核模块,设计了一种高效的计算模块,称为上下文信息聚合模块,用于捕捉实例周围的上下文信息。为进一步实现人物交互场景中局部语义和全局语义的融合,本文还设计了一种局部编码模块和基于上下文的注意力机制模块,分别对包含全局语义的实例特征进行编码和利用局部语义强调全局特征的重要区域。文中还基于提出的上下文信息聚合模块、局部编码模块和基于上下文的注意力机制模块,设计了一种可以充分吸收上下文信息、实现局部和全局语义信息有效融合的人物交互检测网络结构,称为上下文语义信息融合网络。在人物交互检测的数据库上进行实验,结果表明所提出的方法能够达到先进的人物交互检测精度。