论文部分内容阅读
在互联网飞速发展的今天,网络在给人们提供丰富信息资源的同时,也给海量图像数据的整理和归类带来了空前的难度。为此,各种图像分类技术应运而生,其中场景图像分类是该研究领域的一个重要分支。场景图像分类是通过计算机将表达场景属性的各种信息转化为具体的特征描述,并构建合适的特征表达模型,进而实现场景图像的自动标注和分类,广泛地应用在图像分析、整理、视频摘要及机器人导航等机器视觉应用领域中。
场景图像是多个复杂信息的载体,其中变化多样的繁杂目标物之间,以及目标物与环境之间存在着复杂的隐含关系,反映了许多重要的语义联系,即上下文关系,这些关系往往较为隐蔽且多变,难以描述。可用于场景分类的图像特征大致分为低层视觉特征、中层语义特征、高层语义特征以及深度学习特征几大类。如何从这几类特征中获取可以充分表达场景语义的上下文关系,是提升场景分类准确率的关键因素之一。
本文针对场景分类中存在的难点问题,紧密围绕场景图像的上下文关系,构建了合理有效的上下文特征描述模型,显著提升了场景分类算法的精度。
本文主要工作和创新点如下:
(1)场景的时频上下文特征描述模型的构建。针对仅利用空间时域特征,无法充分构建复杂的视觉字典,以及无法有效完成高层建模等问题,依据时域(空域)可描述场景结构,以及频域的不同子带可描述场景从概貌到细节不同特性的优势,充分考虑场景图像中不同目标细节存在的相互影响,建立时频上下文特征描述模型。利用相邻像素点及图像块之间隐含的上下文语义共生关系,通过小波变换得到场景图像不同尺度和细节分量的频域空间上下文信息,并结合DLBP(Different Local Binary Pattern)特征生成多尺度纹理描述子(Multi-scale Texture Descriptor,MSTD),构建时频上下文特征描述模型。该模型充分考虑了细节纹理特征和空间尺度信息,增强了单层特征的区分度,进一步揭示了图像内容之间的深层次互联关系,且模型构造相对简单,对光照和旋转具有一定的鲁棒性,室外场景的分类准确率都在84%以上,有效地提升了场景分类的精度。
(2)场景的显著性上下文特征描述模型的构建。针对场景中目标物的数量和种类繁多,目标物之间以及目标物与环境之间的相互关系错综复杂,图像的拍摄角度不同等原因,造成的场景内容难以辨识,同类场景之间变化较大,而不同类场景之间有时具有高度的相似性等问题,依据场景图像在表达内容时,其核心信息的显著性起着关键的作用,本文构建了显著性上下文特征描述模型。通过优先检测图像的上下文显著性信息,充分反映场景图像内容的多尺度空间上下文关系,弥补了将场景中的目标物割裂开来并硬组合的缺点,同时结合Gabor变换对上下文视觉信息进行多尺度多方向地描述。在标准场景图像集上验证的实验结果表明,本文所建立的模型能够有效地克服拍摄角度和尺度的影响,提高了对于场景中目标物之间相互关系的描述能力。
(3)场景的全局与局部上下文特征描述模型的构建。针对场景本身存在的结构复杂和多样性等特点,依据场景图像的全局特征用于描述目标间的相互关联关系,局部特征用于描述目标细节的原理,充分考虑图像中目标物的相对位置变化、遮挡以及背景混乱等干扰因素,建立全局与局部上下文特征描述模型。在上下文视觉敏感区域检测的基础上,将增强后的全局与局部特征进行加权,并相互融合,生成多尺度空间-频率融合特征,构建上下文特征描述模型。该模型有效地避免了精确分割目标物所带来的算法复杂度的提升,同时,能够很好地描述目标物之间的上下文关系,使目标物周围的背景区域也能够辅助分类判别。此外,避免了传统视觉词袋模型中对于空间信息的忽视,将传统的视觉单词改进为结合上下文的视觉单词,有效地减少了一词多义现象。在标准场景图像集上的实验结果表明,本文所建立的模型能够很好地区分具有相似目标物的不同场景,克服了遮挡以及背景混乱的影响,适用性强。
(4)场景的上下文深度学习特征描述模型的构建。由于场景内容的复杂性和多样性,显性特征通常难以泛化,尽管利用深度学习提取的特征具有较好的泛化特性,但是单纯利用数据驱动训练得到的深度特征对场景核心内容通常表征不足。因此,为了获得场景图像的内涵泛化特征,本文通过结合场景中目标物之间以及目标物与环境之间的上下文关系,建立了特征驱动与数据驱动相结合的深度学习网络训练机制,从而构建了上下文深度学习特征描述模型。利用在大规模场景图像数据集Places上预训练的深度卷积神经网络,分别提取不同驱动模式下场景图像的多层深度卷积特征,对场景图像的高层上下文抽象语义信息进行深层描述。该模型将数据驱动与特征驱动相结合,有效地提升了分类的准确率,特别是对于复杂的室内场景,有着更好的区分力。在标准场景图像集上的测试结果表明,利用本文所建模型的分类结果优于同类许多先进方法。
场景图像是多个复杂信息的载体,其中变化多样的繁杂目标物之间,以及目标物与环境之间存在着复杂的隐含关系,反映了许多重要的语义联系,即上下文关系,这些关系往往较为隐蔽且多变,难以描述。可用于场景分类的图像特征大致分为低层视觉特征、中层语义特征、高层语义特征以及深度学习特征几大类。如何从这几类特征中获取可以充分表达场景语义的上下文关系,是提升场景分类准确率的关键因素之一。
本文针对场景分类中存在的难点问题,紧密围绕场景图像的上下文关系,构建了合理有效的上下文特征描述模型,显著提升了场景分类算法的精度。
本文主要工作和创新点如下:
(1)场景的时频上下文特征描述模型的构建。针对仅利用空间时域特征,无法充分构建复杂的视觉字典,以及无法有效完成高层建模等问题,依据时域(空域)可描述场景结构,以及频域的不同子带可描述场景从概貌到细节不同特性的优势,充分考虑场景图像中不同目标细节存在的相互影响,建立时频上下文特征描述模型。利用相邻像素点及图像块之间隐含的上下文语义共生关系,通过小波变换得到场景图像不同尺度和细节分量的频域空间上下文信息,并结合DLBP(Different Local Binary Pattern)特征生成多尺度纹理描述子(Multi-scale Texture Descriptor,MSTD),构建时频上下文特征描述模型。该模型充分考虑了细节纹理特征和空间尺度信息,增强了单层特征的区分度,进一步揭示了图像内容之间的深层次互联关系,且模型构造相对简单,对光照和旋转具有一定的鲁棒性,室外场景的分类准确率都在84%以上,有效地提升了场景分类的精度。
(2)场景的显著性上下文特征描述模型的构建。针对场景中目标物的数量和种类繁多,目标物之间以及目标物与环境之间的相互关系错综复杂,图像的拍摄角度不同等原因,造成的场景内容难以辨识,同类场景之间变化较大,而不同类场景之间有时具有高度的相似性等问题,依据场景图像在表达内容时,其核心信息的显著性起着关键的作用,本文构建了显著性上下文特征描述模型。通过优先检测图像的上下文显著性信息,充分反映场景图像内容的多尺度空间上下文关系,弥补了将场景中的目标物割裂开来并硬组合的缺点,同时结合Gabor变换对上下文视觉信息进行多尺度多方向地描述。在标准场景图像集上验证的实验结果表明,本文所建立的模型能够有效地克服拍摄角度和尺度的影响,提高了对于场景中目标物之间相互关系的描述能力。
(3)场景的全局与局部上下文特征描述模型的构建。针对场景本身存在的结构复杂和多样性等特点,依据场景图像的全局特征用于描述目标间的相互关联关系,局部特征用于描述目标细节的原理,充分考虑图像中目标物的相对位置变化、遮挡以及背景混乱等干扰因素,建立全局与局部上下文特征描述模型。在上下文视觉敏感区域检测的基础上,将增强后的全局与局部特征进行加权,并相互融合,生成多尺度空间-频率融合特征,构建上下文特征描述模型。该模型有效地避免了精确分割目标物所带来的算法复杂度的提升,同时,能够很好地描述目标物之间的上下文关系,使目标物周围的背景区域也能够辅助分类判别。此外,避免了传统视觉词袋模型中对于空间信息的忽视,将传统的视觉单词改进为结合上下文的视觉单词,有效地减少了一词多义现象。在标准场景图像集上的实验结果表明,本文所建立的模型能够很好地区分具有相似目标物的不同场景,克服了遮挡以及背景混乱的影响,适用性强。
(4)场景的上下文深度学习特征描述模型的构建。由于场景内容的复杂性和多样性,显性特征通常难以泛化,尽管利用深度学习提取的特征具有较好的泛化特性,但是单纯利用数据驱动训练得到的深度特征对场景核心内容通常表征不足。因此,为了获得场景图像的内涵泛化特征,本文通过结合场景中目标物之间以及目标物与环境之间的上下文关系,建立了特征驱动与数据驱动相结合的深度学习网络训练机制,从而构建了上下文深度学习特征描述模型。利用在大规模场景图像数据集Places上预训练的深度卷积神经网络,分别提取不同驱动模式下场景图像的多层深度卷积特征,对场景图像的高层上下文抽象语义信息进行深层描述。该模型将数据驱动与特征驱动相结合,有效地提升了分类的准确率,特别是对于复杂的室内场景,有着更好的区分力。在标准场景图像集上的测试结果表明,利用本文所建模型的分类结果优于同类许多先进方法。