结合文本语义信息的图像标注方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:guisq2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,多媒体数据的表现形式趋于多样化,伴随网络图像产生了数量庞大的自然数据资源。除图像本身之外,还存在如环绕文本、用户标签、地理位置/时间信息等各类形式的图像元数据(metadata)信息。这些弱标注信息对揭示图像的真实语义非常重要,为提高图像自动标注算法性能提供了新的研究思路。起源于文本挖掘领域的概率主题模型,不仅能够对数据中的隐含语义进行建模,同时还具有灵活易扩展的特点,方便建模多种模态的数据以及不同的数据特征。但是在图像标注中应用概率主题模型,还需要具体地针对多模态弱标注数据的特点来构建模型,通过在模型中增加语义约束或者融入更多的先验知识,以提高算法的性能。  本文的研究工作主要围绕结合文本语义信息的图像自动标注方法展开,结合实际应用需求,针对多模态数据建模中的环绕文本语义分析、地理元信息建模以及语义距离尺度度量等应用进行研究,提出了多模态实体主题模型、多模态位置依赖主题模型以及多模态相关主题模型等概率主题模型的扩展形式,解决了传统图像标注中需要精确人工标注数据集、标注模式单一、对元数据利用不充分等问题。  本文的主要研究内容如下:  1.对现有图像标注方法进行了研究、分析以及总结。通过对研究现状的研究总结,发现传统图像标注方法较少考虑对元数据信息进行建模,相对于低层视觉特征,元数据中丰富的语义信息并未得到充分利用;而概率主题模型具有统计学理论基础与灵活多变的可扩展性,使其在图像标注领域获得广泛应用,尤其在多模态扩展和地理元信息建模等应用中表现优异。因此,开展基于概率主题模型的图像标注方法研究具有较大的应用潜力,并提出了在多模态扩展、地理元信息建模中运用概率主题模型的建模思路。  2.提出了一种基于多模态实体主题模型(Multi-modal Entity LDA,MME-LDA)的图像标注方法。针对传统图像标注方法难以对图像周边环绕文本合理建模的问题,MME-LDA结合自然语言理解领域实体识别的技术,在一个统一的概率主题模型框架下对图像视觉特征、环绕文本以及环绕文本中的实体词同时进行建模,并学习到不同模态数据之间的隐含关联关系,有效地解决了将文本分析与图像处理两部分区别对待导致的两种模态之间关联关系缺失的问题。同时,实体的引入实现了对环绕文本数据中有助于图像标注的信息的语义加权,提高了标注预测性能。实验结果表明,MME-LDA合理地建模了带有环绕文本的图像数据,取得了比传统方法更好的标注预测性能,并学习到更有区分性的主题。  3.提出了一种基于多模态位置依赖主题模型(Muti-modal Location DependentLDA,mLD-LDA)的图像标注方法。在传统的地理主题模型中,对地理位置的建模较少考虑先验,并且地理位置与其他模态缺少关联,影响了图像标注的性能。针对此问题,mLD-LDA通过一个完整的产生式过程建模了图像视觉特征、文本标注以及地理位置信息;同时,模型通过在文本标注与地理位置的产生式过程中引入关联,建模了地理位置与文本标注之间的相互依赖关系。通过为模型中的参数添加超参数先验,提高了模型求解的准确性与鲁棒性。实验结果表明,对于含有地理位置信息的图像数据,mLD-LDA不仅提高了文本标注预测的准确率,并且表现出较强的位置预测性能。  4.提出了一种基于多模态相关主题模型及概率相关成分分析(Multi-modalCorrelated Topic Model based Relevant Component Analysis, MMCTM-RCA)的图像标注方法。在传统的基于搜索的图像标注方法中,距离尺度学习对辅助信息(sideinformation)的“确定性”假设造成了无法以连续的方式实现图像之间关系度量的问题。针对此问题,该方法首先通过相关主题模型(Correlated Topic Model,CTM)的扩展形式学习图像之间的隐含语义约束关系;然后将上述关系以概率约束的形式引入到基于相关成分分析的距离尺度学习中,提高了方法对大规模非精确人工标注图像数据的鲁棒性。为实现模型的高效求解,提出了基于数据增广(DataArgmentation)的Gibbs采样算法。实验结果表明MMCTM-RCA有效地抑制了噪声影响,提高了在大规模非精确数据集上的图像标注预测性能。
其他文献
本论文以尼罗罗非鱼这一经济鱼类为研究对象,克隆了两种PRL和PRL受体的cDNA,并检测它们的基因表达在鱼体中的时间和空间分布,着重了解两种不同的PRLR在罗非鱼中的调控作用,对这一
现代军用通信、雷达、导引头、应答机、遥测遥控、导航定位等系统大部分工作在射频频段,射频通道作为传输媒质是通信系统的重要组成部分,其特性研究在通信系统设计中的作用越来
本文将图像融合技术应用于远距离地雷场探测的图像处理之中,主要研究了图像预处理的内容方法、图像配准和图像融合技术的理论和方法以及图像融合的效果评价准则,研究分析了
本论文把并行交替式ADC系统的非均匀采样信号理论和DITHER技术应用作为研究内容,在吸收了国内外最新研究成果的基础上,采用理论分析、仿真研究和实验验证的技术路线,利用频谱
盲分离是信号处理领域一个基本的、极富挑战性的研究课题。由于盲分离在语音识别、信号去噪、无线通讯、声纳问题、生物医学信号处理、光纤通信等众多应用领域有着广泛而诱人
随着在不可靠信道,如网络上和无线信道进行视频传送需求的增加,对于WebCamera视频实时传输的可靠性变得越来越重要。该文为了解决视频实时传输方面的问题,在WebCamera系统设计和
非常规油气储层是目前油气勘探开发的主要目标,而多分量感应测井是探测非常规油气的重要手段。然而非常规油气储层具有多尺度,复杂结构,复杂边界及各向异性等特点,对数值模拟方法
本文研究并实现了电视制导系统中的视频压缩系统,并利用图象超分辨技术提高了图象质量。首先,阐述了数字图象压缩的基本原理和图象压缩评价方法,分析了图象压缩传输在图象制
目前,LANDSAT-8的地面处理系统只能处理WRS(World ReferenceSystem)分幅体系下的标准景数据,其得到的标准景产品覆盖区域较小,难以满足大区域遥感应用的需求。传统的获取长条带
稀疏微波成像是将稀疏信号处理引入微波成像当中而形成的新的理论、体制和方法,与传统雷达成像相比,稀疏微波成像可以降低现有微波成像系统采样要求,减少数据量,降低系统复杂度,具