论文部分内容阅读
显著性目标检测是从一幅图像中检测出前景的轮廓,其在深度学习中具有广泛的用途,是很多计算机视觉任务的首要工作。由于越来有多的任务都需要依靠显著性目标检测来完成,最近几年这个任务成为了人工智能热门的研究方向。
现有的方法在检测简单的场景时效果非常的好。然而,针对一些复杂场景,例如图像中包含不规则目标、多目标、小目标等场景,或者目标边界轮廓比较复杂等情况,现有的检测方法无法有效的处理这些问题。很多方法预测的显著图存在目标模糊不清、小目标容易漏检、目标边界不够锐化等现象。针对上述的问题,本文重点研究了以下三个方面的内容:
首先,本文利用多尺度模块提取特征获取丰富的上下文信息,可以有效的缓解显著性目标区域与背景不连续、目标易模糊等问题。接着本文提出一个特征融合模块,包括全局上下文特征、浅层特征和深层特征,不仅可以抑制背景噪声的传递,而且可以更有效地恢复显著性目标的空间细节结构信息。
其次,针对复杂场景中的显著性目标检测问题,本文通过引入可变形卷积,可以很好提取不规则目标对象的特征信息,锐化复杂场景中的目标对象边界。然后提出一个全局上下文注意力模块,该模块不仅可以弥补高层语义信息被稀释的问题,还可以增强小目标在图像的重要信息,从而使解码阶段预测的显著图更加准确。
最后,在显著性目标检测任务中,深度信息被认为是对RGB数据的补充。为了充分利用深度信息,本文在RGB数据集方法的基础上,提出一种基于注意力机制的特征模态融合的RGB-D检测方法。本文引入一个通道空间注意力机制模块,来过滤低质量深度图中的冗余和噪声信息,从而改善两种模态特征的匹配性。本文还提出一个特征融合方法来融合RGB高层语义特征信息和Depth高层语义特征信息,从而更好的利用两种模态的互补信息生成全局上下文信息进入到解码阶段。
本文在两种类型的数据集进行了实验,分别是RGB和RGB-D。在RGB数据集上,本文测试了5个常用的数据集,并与现有的主流深度学习的检测方法进行实验比较。同样在RGB-D数据集上,本文也测试了5个数据集,并与现有的主流深度学习的检测方法进行实验比较。本文采用了8种测评指标和生成的显著图综合全面的对比了本文方法和其他的方法的结果。实验结果表明:相比较其它主流的检测方法,本文方法检测的显著图边缘轮廓连续性更好、空间结构细节信息更清晰、与真值图更加接近。在综合指标、平均绝对误差、加权F值、结构化度量、增强对其度量、平均综合指标、精准率-召回率曲线和F-measure曲线等指标上均有明显的提升。
现有的方法在检测简单的场景时效果非常的好。然而,针对一些复杂场景,例如图像中包含不规则目标、多目标、小目标等场景,或者目标边界轮廓比较复杂等情况,现有的检测方法无法有效的处理这些问题。很多方法预测的显著图存在目标模糊不清、小目标容易漏检、目标边界不够锐化等现象。针对上述的问题,本文重点研究了以下三个方面的内容:
首先,本文利用多尺度模块提取特征获取丰富的上下文信息,可以有效的缓解显著性目标区域与背景不连续、目标易模糊等问题。接着本文提出一个特征融合模块,包括全局上下文特征、浅层特征和深层特征,不仅可以抑制背景噪声的传递,而且可以更有效地恢复显著性目标的空间细节结构信息。
其次,针对复杂场景中的显著性目标检测问题,本文通过引入可变形卷积,可以很好提取不规则目标对象的特征信息,锐化复杂场景中的目标对象边界。然后提出一个全局上下文注意力模块,该模块不仅可以弥补高层语义信息被稀释的问题,还可以增强小目标在图像的重要信息,从而使解码阶段预测的显著图更加准确。
最后,在显著性目标检测任务中,深度信息被认为是对RGB数据的补充。为了充分利用深度信息,本文在RGB数据集方法的基础上,提出一种基于注意力机制的特征模态融合的RGB-D检测方法。本文引入一个通道空间注意力机制模块,来过滤低质量深度图中的冗余和噪声信息,从而改善两种模态特征的匹配性。本文还提出一个特征融合方法来融合RGB高层语义特征信息和Depth高层语义特征信息,从而更好的利用两种模态的互补信息生成全局上下文信息进入到解码阶段。
本文在两种类型的数据集进行了实验,分别是RGB和RGB-D。在RGB数据集上,本文测试了5个常用的数据集,并与现有的主流深度学习的检测方法进行实验比较。同样在RGB-D数据集上,本文也测试了5个数据集,并与现有的主流深度学习的检测方法进行实验比较。本文采用了8种测评指标和生成的显著图综合全面的对比了本文方法和其他的方法的结果。实验结果表明:相比较其它主流的检测方法,本文方法检测的显著图边缘轮廓连续性更好、空间结构细节信息更清晰、与真值图更加接近。在综合指标、平均绝对误差、加权F值、结构化度量、增强对其度量、平均综合指标、精准率-召回率曲线和F-measure曲线等指标上均有明显的提升。