论文部分内容阅读
随着信息技术的发展,多媒体数据的表现形式趋于多样化,伴随网络图像产生了数量庞大的自然数据资源。除图像本身之外,还存在如环绕文本、用户标签、地理位置/时间信息等各类形式的图像元数据(metadata)信息。这些弱标注信息对揭示图像的真实语义非常重要,为提高图像自动标注算法性能提供了新的研究思路。起源于文本挖掘领域的概率主题模型,不仅能够对数据中的隐含语义进行建模,同时还具有灵活易扩展的特点,方便建模多种模态的数据以及不同的数据特征。但是在图像标注中应用概率主题模型,还需要具体地针对多模态弱标注数据的特点来构建模型,通过在模型中增加语义约束或者融入更多的先验知识,以提高算法的性能。 本文的研究工作主要围绕结合文本语义信息的图像自动标注方法展开,结合实际应用需求,针对多模态数据建模中的环绕文本语义分析、地理元信息建模以及语义距离尺度度量等应用进行研究,提出了多模态实体主题模型、多模态位置依赖主题模型以及多模态相关主题模型等概率主题模型的扩展形式,解决了传统图像标注中需要精确人工标注数据集、标注模式单一、对元数据利用不充分等问题。 本文的主要研究内容如下: 1.对现有图像标注方法进行了研究、分析以及总结。通过对研究现状的研究总结,发现传统图像标注方法较少考虑对元数据信息进行建模,相对于低层视觉特征,元数据中丰富的语义信息并未得到充分利用;而概率主题模型具有统计学理论基础与灵活多变的可扩展性,使其在图像标注领域获得广泛应用,尤其在多模态扩展和地理元信息建模等应用中表现优异。因此,开展基于概率主题模型的图像标注方法研究具有较大的应用潜力,并提出了在多模态扩展、地理元信息建模中运用概率主题模型的建模思路。 2.提出了一种基于多模态实体主题模型(Multi-modal Entity LDA,MME-LDA)的图像标注方法。针对传统图像标注方法难以对图像周边环绕文本合理建模的问题,MME-LDA结合自然语言理解领域实体识别的技术,在一个统一的概率主题模型框架下对图像视觉特征、环绕文本以及环绕文本中的实体词同时进行建模,并学习到不同模态数据之间的隐含关联关系,有效地解决了将文本分析与图像处理两部分区别对待导致的两种模态之间关联关系缺失的问题。同时,实体的引入实现了对环绕文本数据中有助于图像标注的信息的语义加权,提高了标注预测性能。实验结果表明,MME-LDA合理地建模了带有环绕文本的图像数据,取得了比传统方法更好的标注预测性能,并学习到更有区分性的主题。 3.提出了一种基于多模态位置依赖主题模型(Muti-modal Location DependentLDA,mLD-LDA)的图像标注方法。在传统的地理主题模型中,对地理位置的建模较少考虑先验,并且地理位置与其他模态缺少关联,影响了图像标注的性能。针对此问题,mLD-LDA通过一个完整的产生式过程建模了图像视觉特征、文本标注以及地理位置信息;同时,模型通过在文本标注与地理位置的产生式过程中引入关联,建模了地理位置与文本标注之间的相互依赖关系。通过为模型中的参数添加超参数先验,提高了模型求解的准确性与鲁棒性。实验结果表明,对于含有地理位置信息的图像数据,mLD-LDA不仅提高了文本标注预测的准确率,并且表现出较强的位置预测性能。 4.提出了一种基于多模态相关主题模型及概率相关成分分析(Multi-modalCorrelated Topic Model based Relevant Component Analysis, MMCTM-RCA)的图像标注方法。在传统的基于搜索的图像标注方法中,距离尺度学习对辅助信息(sideinformation)的“确定性”假设造成了无法以连续的方式实现图像之间关系度量的问题。针对此问题,该方法首先通过相关主题模型(Correlated Topic Model,CTM)的扩展形式学习图像之间的隐含语义约束关系;然后将上述关系以概率约束的形式引入到基于相关成分分析的距离尺度学习中,提高了方法对大规模非精确人工标注图像数据的鲁棒性。为实现模型的高效求解,提出了基于数据增广(DataArgmentation)的Gibbs采样算法。实验结果表明MMCTM-RCA有效地抑制了噪声影响,提高了在大规模非精确数据集上的图像标注预测性能。