论文部分内容阅读
随着网络和多媒体技术的发展,尤其是智能设备的广泛应用产生了大量的多媒体数据,其中图像和视频数据占有较大比例。数据规模的不断迅猛增长,致使现有的图像处理方法面临诸多挑战,如何有效地管理和利用这些数据成为学术界和工业界都比较关注的问题。基于内容的图像检索通过提取图像自身蕴含的视觉特征对图像进行查询,适用于大规模图像数据的管理和检索,是当前信息检索领域中的一项重要技术。
现有的基于内容的检索方法通常利用图像的颜色、纹理和形状等低层特征进行相似度计算,不能准确表达图像的高层语义,较少考虑人眼对图像观察时的注意力特点。人类视觉注意系统有从复杂场景中快速发现潜在目标对象并将其作为感兴趣区域进行重点分析和处理的能力,这种视觉注意机制可以利用有限的资源获取尽可能多的有效信息,将其应用到基于内容的图像检索方法中能提高图像检索系统的性能。
单一视角的图像特征通常只表示图像某一方面的信息,不能完整描述图像。多视角特征比单视角特征包含更多的有用信息,而简单地组合多种特征不仅会增加算法的复杂度还将导致特征维度过高,不利于图像检索。不同视角特征反映了同一图像的不同属性,并且具有许多一致性和互补性信息,获取这些信息有助于改进图像检索方法的性能。多视角学习可以利用不同视角特征中存在的互补信息,构建一组新的低维嵌入特征,是一种有效的特征融合手段。
本文在基于内容的图像检索框架下,模拟人类的视觉注意机制观察和理解图像,主要针对局部结构描述子特征、图像显著性特征和多视角学习融合特征的一些方法进行分析和研究。通过不断完善图像特征提取方法的系统结构,增强其对图像特征的描述能力,进而提高图像检索系统的性能。
(1)针对现有局部结构描述子在图像基元检测和匹配中出现特征重叠和梯度信息描述不够清晰的问题,本文提出了一种基于梯度变化的对角结构描述子。首先,基于视觉注意机制和图像局部邻域像素之间的变化规律,定义了5种类型的对角结构基元。其次,通过新的基元检测和匹配策略获取图像颜色、纹理和形状的中层特征表示。最后,利用相似度比较给出图像排序进而得到检索结果。实验结果显示,与其他几种方法比较,该方法获得了更高的检索精度。
(2)针对图像局部邻域像素变化的复杂性和多样性,以及现有局部结构描述子在对其进行表示时存在的一些问题。基于人类视觉系统在初始注意阶段的特点,本文提出了一种多趋势二值编码描述子揭示图像局部区域像素的多种变化趋势。首先,利用新的局部结构描述子把输入图像转换为对应的映射子图。在此基础上利用共生矩阵方法统计其空间相关性特征。然后,通过加权归一化策略对各特征向量进行转换并组合为新的全局图像特征向量,最终的图像特征融入了一定的空间信息。与其他几种方法相比,该方法取得了更好的检索效果。
(3)针对视觉显著性在图像分析和理解中的重要作用,以及图像像素显著性计算和区域显著特征提取时存在的问题。基于视觉注意模型和连通粒概念,本文构建了一种以区域显著性为基础的自适应目标和背景的图像特征提取方法。首先定义一组新的结构基元描述子,然后引入连通粒的概念,通过定义连通粒的属性来描述目标的连通性和空间分布特性。最后构建自适应向量融合模型生成一组向量表示图像特征。该方法能同时反映目标和背景特征,具有较强的目标特征区分能力,在检索实验中取得了较好的效果。
(4)针对如何有效模拟人类视觉对图像局部区域感知的问题。根据人类视觉感受野的特点和抽象模型,本文提出了一种基于韦伯定律的多层卷积显著特征图像检索方法。首先在图像预处理中利用韦伯定律计算图像的差分激励子图,在此基础上通过多层卷积和二值转换生成对应的多层显著特征映射子图,保留了图像分层显著信息。最后通过相关性层次统计模型,在不同映射子图之间进行相关性统计,有效获取了图像的空间相关信息。实验结果证明了该方法的有效性。
(5)针对图像单一特征只能表示图像某一方面的信息,不能完整描述图像的问题,本文以多视角学习和谱嵌入方法为基础,提出了一种改进的多视角谱嵌入特征融合方法用于图像检索,从多种视角特征中获取尽可能多的一致性和互补性信息。首先获取每种视角特征的低维嵌入,然后通过构建新的迭代优化策略生成最佳低维嵌入特征。实验结果表明该方法能获得较好的检索性能。
现有的基于内容的检索方法通常利用图像的颜色、纹理和形状等低层特征进行相似度计算,不能准确表达图像的高层语义,较少考虑人眼对图像观察时的注意力特点。人类视觉注意系统有从复杂场景中快速发现潜在目标对象并将其作为感兴趣区域进行重点分析和处理的能力,这种视觉注意机制可以利用有限的资源获取尽可能多的有效信息,将其应用到基于内容的图像检索方法中能提高图像检索系统的性能。
单一视角的图像特征通常只表示图像某一方面的信息,不能完整描述图像。多视角特征比单视角特征包含更多的有用信息,而简单地组合多种特征不仅会增加算法的复杂度还将导致特征维度过高,不利于图像检索。不同视角特征反映了同一图像的不同属性,并且具有许多一致性和互补性信息,获取这些信息有助于改进图像检索方法的性能。多视角学习可以利用不同视角特征中存在的互补信息,构建一组新的低维嵌入特征,是一种有效的特征融合手段。
本文在基于内容的图像检索框架下,模拟人类的视觉注意机制观察和理解图像,主要针对局部结构描述子特征、图像显著性特征和多视角学习融合特征的一些方法进行分析和研究。通过不断完善图像特征提取方法的系统结构,增强其对图像特征的描述能力,进而提高图像检索系统的性能。
(1)针对现有局部结构描述子在图像基元检测和匹配中出现特征重叠和梯度信息描述不够清晰的问题,本文提出了一种基于梯度变化的对角结构描述子。首先,基于视觉注意机制和图像局部邻域像素之间的变化规律,定义了5种类型的对角结构基元。其次,通过新的基元检测和匹配策略获取图像颜色、纹理和形状的中层特征表示。最后,利用相似度比较给出图像排序进而得到检索结果。实验结果显示,与其他几种方法比较,该方法获得了更高的检索精度。
(2)针对图像局部邻域像素变化的复杂性和多样性,以及现有局部结构描述子在对其进行表示时存在的一些问题。基于人类视觉系统在初始注意阶段的特点,本文提出了一种多趋势二值编码描述子揭示图像局部区域像素的多种变化趋势。首先,利用新的局部结构描述子把输入图像转换为对应的映射子图。在此基础上利用共生矩阵方法统计其空间相关性特征。然后,通过加权归一化策略对各特征向量进行转换并组合为新的全局图像特征向量,最终的图像特征融入了一定的空间信息。与其他几种方法相比,该方法取得了更好的检索效果。
(3)针对视觉显著性在图像分析和理解中的重要作用,以及图像像素显著性计算和区域显著特征提取时存在的问题。基于视觉注意模型和连通粒概念,本文构建了一种以区域显著性为基础的自适应目标和背景的图像特征提取方法。首先定义一组新的结构基元描述子,然后引入连通粒的概念,通过定义连通粒的属性来描述目标的连通性和空间分布特性。最后构建自适应向量融合模型生成一组向量表示图像特征。该方法能同时反映目标和背景特征,具有较强的目标特征区分能力,在检索实验中取得了较好的效果。
(4)针对如何有效模拟人类视觉对图像局部区域感知的问题。根据人类视觉感受野的特点和抽象模型,本文提出了一种基于韦伯定律的多层卷积显著特征图像检索方法。首先在图像预处理中利用韦伯定律计算图像的差分激励子图,在此基础上通过多层卷积和二值转换生成对应的多层显著特征映射子图,保留了图像分层显著信息。最后通过相关性层次统计模型,在不同映射子图之间进行相关性统计,有效获取了图像的空间相关信息。实验结果证明了该方法的有效性。
(5)针对图像单一特征只能表示图像某一方面的信息,不能完整描述图像的问题,本文以多视角学习和谱嵌入方法为基础,提出了一种改进的多视角谱嵌入特征融合方法用于图像检索,从多种视角特征中获取尽可能多的一致性和互补性信息。首先获取每种视角特征的低维嵌入,然后通过构建新的迭代优化策略生成最佳低维嵌入特征。实验结果表明该方法能获得较好的检索性能。