论文部分内容阅读
随着计算机软硬件、人工智能技术的不断发展,以及各种智能电子设备和社交网站的流行与普及,人们在工作、生活、学习、社交和娱乐中产生了海量的数字图像,如何能够在互联网环境下实现快速、有效的图像检索方法变成了目前人工智能领域的热点研究问题。基于内容的图像检索由于处理速度慢、效果不理想等缺点,对图像的语义进行标注是一种主流的解决方案,其主要方法有手工标注、半自动标注和自动标注。由于图像的高层语义是抽象的概念,同一个语义对应的图像底层特征千差万别,自动标注需要解决二者之间存在的“语义鸿沟”。最近几十年,尽管各种图像自动标注的方法层出不尽,但图像自动标注依然面临样本稀疏、光照敏感、尺度不一等诸多挑战性的问题。论文正是针对上述问题进行研究,尝试提出新的解决方案,来提高图像语义标注的准确性,同时增加标注词汇的多样性。论文的基本思路如下:提出合适的模型来解决高层语义的表述问题和标注词汇的同义问题。前一个问题主要是指针对标注词所对应的图像底层特征差别巨大,尝试找到表达能力更强的概率模型来表述标注词的视觉内涵;后一个问题主要是指不同词汇的高层语义一致、只是表达方式不一样的问题,尝试在标注词汇数量受限的情况下,找到语义差别大、同时又能准确描述图像的词汇集合。基于上述研究思路,论文的主要内容如下:(1)论文第三章主要研究利用混合概率模型从不同的角度来表达词汇的高层语义,继而完成图像的自动标注。具体地,首先提取图像颜色、形状和纹理等方面的特征,然后利用每个标注词汇对应的样本集合在颜色、形状和纹理三个子空间分别训练一个高斯模型,我们称这些高斯模型为标注词分描述子。由于三个特征子空间是对同一事物不同侧面的描述,对图像的高层语义识别能力不一样,因此需要融合这些高斯模型来增强标注词汇的表达能力。三个高斯模型采用加权的方式一起构成了标注词描述子,并且采用机器学习的方法(论文采用遗传算法)来学习这些权重。每一个标注词训练好后,针对未知图像的标注过程如下:对图像进行分割,对分割后的区域提取颜色、形状和纹理特征,并计算其属于每个词汇的概率,然后为该区域选择标注词。论文利用Corellk数据集对上述方法进行测试,实验的结果表明论文提出的标注词描述子可以有效地建立图像高层语义与底层视觉特征之间的关系,且标注的准确率在平均查全率、平均查准率和平均F1测度值几个方面优于CMRM等主流的标注算法。(2)为了进一步提高高斯混合模型标注的实用性,论文第四章进一步研究了融合标注词之间相关性以及增强标注词多样性的图像标注方法。标注词的相关性是指图像标注词之间的伴生现象,一些标注词之间往往不是相互独立的,而是伴生出现在共同的场景中,利用其相关性会增加标注的准确率。标注词多样性是指词汇的同义词或近义词,它们的存在使得标注标签集出现冗余问题,尤其是标注数量受限的情况下,该问题更加突出。论文考虑标注词之间的相关性和多样性,为图像选择那些信息量最多、可能性最高、并且不同义的标注词,进一步改善图像标注的性能。实现的方法如下:首先利用词汇共生关系和语义伴生关系来表达词汇之间的相关性,并且利用第三章提出的高斯混合模型来计算不同词汇语义之间的多样性,然后利用高斯混合模型描述子、词汇间相关性和多样性来对给定的未标注图像进行标注。其中,第一标注词的选取采用第三章的模型,选取所有区域对应的概率最大的词汇作为第一标注词,并且选取出图像的标注词候选。随后的标注词的选取是计算与前面标注词相关并能从更多角度描述图像的词汇。为了验证该方法的有效性,论文选取Corel5k数据集进行实验验证,实验结果表明此方法标注的效果不亚于第三章提出的图像标注方法,并且增加了标注词汇的多样性。论文的创新之处在于如下两点:(1)提出了融合多个角度表达词汇的概率模型描述子,并采用机器学习的方法来训练描述子的权重。(2)提出了一种基于高斯混合模型描述子来计算词汇语义多样性的方法,将标注词的共生关系、语义关系、标注词与图像区域的关联度结合起来为图像选择相关性高且多样的标注词。