论文部分内容阅读
动态场景下的显著目标检测是机器视觉领域一个很有前景的研究方向,其目的是模拟人类视觉注意力机制的工作方式,从大量场景数据中快速筛选出最感兴趣的视觉信息。动态的显著目标检测任务通常面临着三大挑战,一是显著特征的定义和提取,以Itti-Koch算法为代表的传统方法过分依赖于手工设计的特征,且计算框架复杂低效。近年来卷积神经网络算法的崛起为特征提取和表示提供了新思路,即用监督学习和优化方法获取表征能力更强的抽象特征。二是动态场景下模型的运行速度,传统的方法为了得到多种显著特征,往往会串行执行多次像素级的计算操作,导致难以兼顾模型准确性和快速性。三是自上而下的注意力监督,传统的方法大多利用自下而上的低级特征,比如颜色、亮度和方向等来进行显著性检测,很难模仿人在有任务监督的情况对显著目标的检测。本文针对上述的三个挑战展开研究,主要的工作包括:首先,我们引入了在图片语义分割任务中表现很好的U-Net卷积网络,将其改良后用于显著目标检测,并优化原本的训练方法,得到一个端到端的轻量级检测模型。同时,我们采用了改进的全连接条件随机场(DenseCRF)算法对U-Net输出的显著图进行优化。其次,本文引入了一个基于自上而下视觉注意力的显著性检测方法,利用为物体分类任务训练的卷积网络,得到输入图片在指定卷积层中对某一指定类别物体的类别激活图,将其与该层输入图片的特征可视化图融合,得到一幅注意力图。将注意力图插值到原图大小并与先前的显著图线性融合成一幅焦点图,表示在有类别注意力监督的情况下各像素的显著性。在生成注意力图时,我们采用了对比抑制的操作,增强了检测指定类别目标的鲁棒性。最后,我们在四个显著性检测图片集SED2、Judd、ECSSD和PASCAL-S上的实验证明了基于改进的U-Net和DenseCRF的显著性检测模型具有全方位超越传统算法,比肩部分最新同类模型的高精度但更轻量级的优势。同时,对DAVIS动态数据集的部分场景和对实际室内外场景的实验说明我们的模型在动态场景下有很好的精度和速度均衡。对基于自上而下注意力监督的显著性检测实验说明了将注意力加入到有类别监督情况下的显著目标检测任务中能够有效地提高检测精度。