结合文本语义信息的图像标注方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：guisq2

【摘要】

：

随着信息技术的发展，多媒体数据的表现形式趋于多样化，伴随网络图像产生了数量庞大的自然数据资源。除图像本身之外，还存在如环绕文本、用户标签、地理位置/时间信息等各类形式

【作者】

：

田璟

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

图像标注概率主题模型文本语义信息元数据视觉特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展，多媒体数据的表现形式趋于多样化，伴随网络图像产生了数量庞大的自然数据资源。除图像本身之外，还存在如环绕文本、用户标签、地理位置/时间信息等各类形式的图像元数据(metadata)信息。这些弱标注信息对揭示图像的真实语义非常重要，为提高图像自动标注算法性能提供了新的研究思路。起源于文本挖掘领域的概率主题模型，不仅能够对数据中的隐含语义进行建模，同时还具有灵活易扩展的特点，方便建模多种模态的数据以及不同的数据特征。但是在图像标注中应用概率主题模型，还需要具体地针对多模态弱标注数据的特点来构建模型，通过在模型中增加语义约束或者融入更多的先验知识，以提高算法的性能。　　本文的研究工作主要围绕结合文本语义信息的图像自动标注方法展开，结合实际应用需求，针对多模态数据建模中的环绕文本语义分析、地理元信息建模以及语义距离尺度度量等应用进行研究，提出了多模态实体主题模型、多模态位置依赖主题模型以及多模态相关主题模型等概率主题模型的扩展形式，解决了传统图像标注中需要精确人工标注数据集、标注模式单一、对元数据利用不充分等问题。　　本文的主要研究内容如下:　　1.对现有图像标注方法进行了研究、分析以及总结。通过对研究现状的研究总结，发现传统图像标注方法较少考虑对元数据信息进行建模，相对于低层视觉特征，元数据中丰富的语义信息并未得到充分利用;而概率主题模型具有统计学理论基础与灵活多变的可扩展性，使其在图像标注领域获得广泛应用，尤其在多模态扩展和地理元信息建模等应用中表现优异。因此，开展基于概率主题模型的图像标注方法研究具有较大的应用潜力，并提出了在多模态扩展、地理元信息建模中运用概率主题模型的建模思路。　　2.提出了一种基于多模态实体主题模型(Multi-modal Entity LDA，MME-LDA)的图像标注方法。针对传统图像标注方法难以对图像周边环绕文本合理建模的问题，MME-LDA结合自然语言理解领域实体识别的技术，在一个统一的概率主题模型框架下对图像视觉特征、环绕文本以及环绕文本中的实体词同时进行建模，并学习到不同模态数据之间的隐含关联关系，有效地解决了将文本分析与图像处理两部分区别对待导致的两种模态之间关联关系缺失的问题。同时，实体的引入实现了对环绕文本数据中有助于图像标注的信息的语义加权，提高了标注预测性能。实验结果表明，MME-LDA合理地建模了带有环绕文本的图像数据，取得了比传统方法更好的标注预测性能，并学习到更有区分性的主题。　　3.提出了一种基于多模态位置依赖主题模型(Muti-modal Location DependentLDA，mLD-LDA)的图像标注方法。在传统的地理主题模型中，对地理位置的建模较少考虑先验，并且地理位置与其他模态缺少关联，影响了图像标注的性能。针对此问题，mLD-LDA通过一个完整的产生式过程建模了图像视觉特征、文本标注以及地理位置信息;同时，模型通过在文本标注与地理位置的产生式过程中引入关联，建模了地理位置与文本标注之间的相互依赖关系。通过为模型中的参数添加超参数先验，提高了模型求解的准确性与鲁棒性。实验结果表明，对于含有地理位置信息的图像数据，mLD-LDA不仅提高了文本标注预测的准确率，并且表现出较强的位置预测性能。　　4.提出了一种基于多模态相关主题模型及概率相关成分分析(Multi-modalCorrelated Topic Model based Relevant Component Analysis, MMCTM-RCA)的图像标注方法。在传统的基于搜索的图像标注方法中，距离尺度学习对辅助信息(sideinformation)的“确定性”假设造成了无法以连续的方式实现图像之间关系度量的问题。针对此问题，该方法首先通过相关主题模型(Correlated Topic Model，CTM)的扩展形式学习图像之间的隐含语义约束关系;然后将上述关系以概率约束的形式引入到基于相关成分分析的距离尺度学习中，提高了方法对大规模非精确人工标注图像数据的鲁棒性。为实现模型的高效求解，提出了基于数据增广(DataArgmentation)的Gibbs采样算法。实验结果表明MMCTM-RCA有效地抑制了噪声影响，提高了在大规模非精确数据集上的图像标注预测性能。

其他文献

尼罗罗非鱼（Oreochromis niloticus）催乳素（PRL）及其受体（PRLR）的cDNA克隆及表达分析

本论文以尼罗罗非鱼这一经济鱼类为研究对象，克隆了两种PRL和PRL受体的cDNA，并检测它们的基因表达在鱼体中的时间和空间分布，着重了解两种不同的PRLR在罗非鱼中的调控作用，对这一

学位

尼罗罗非鱼生长繁殖催乳素受体基因表达

射频通道模拟器技术研究

现代军用通信、雷达、导引头、应答机、遥测遥控、导航定位等系统大部分工作在射频频段，射频通道作为传输媒质是通信系统的重要组成部分，其特性研究在通信系统设计中的作用越来

学位

射频通道模拟器DSP多径衰落阴影衰落多普勒频展通信系统设计

地雷场图像融合技术研究

本文将图像融合技术应用于远距离地雷场探测的图像处理之中，主要研究了图像预处理的内容方法、图像配准和图像融合技术的理论和方法以及图像融合的效果评价准则，研究分析了

学位

图像融合地雷场小波变换可见光图像红外图像

非均匀采样信号理论与DITHER技术应用研究

本论文把并行交替式ADC系统的非均匀采样信号理论和DITHER技术应用作为研究内容,在吸收了国内外最新研究成果的基础上,采用理论分析、仿真研究和实验验证的技术路线,利用频谱

学位

并行交替式ADC非均匀采样信号Offset失配Gain失配Dither技术

盲信号分离及在非线性混叠环境下的分离问题

盲分离是信号处理领域一个基本的、极富挑战性的研究课题。由于盲分离在语音识别、信号去噪、无线通讯、声纳问题、生物医学信号处理、光纤通信等众多应用领域有着广泛而诱人

学位

信号处理信号处理盲信号分离盲信号分离非线性混叠非线性混叠

WebCamera中改善视频流传输可靠性的途径和方法

随着在不可靠信道，如网络上和无线信道进行视频传送需求的增加，对于WebCamera视频实时传输的可靠性变得越来越重要。该文为了解决视频实时传输方面的问题，在WebCamera系统设计和

学位

实时视频传输实时传输协议错误复原数据分割可逆变长编码

多分量感应测井矢量有限元模拟方法研究

非常规油气储层是目前油气勘探开发的主要目标，而多分量感应测井是探测非常规油气的重要手段。然而非常规油气储层具有多尺度，复杂结构，复杂边界及各向异性等特点，对数值模拟方法

学位

非常规油气储层多分量感应测井矢量有限元法低频电磁场数值模拟

基于电视制导的视频压缩和图象超分辨技术的研究及实现

本文研究并实现了电视制导系统中的视频压缩系统，并利用图象超分辨技术提高了图象质量。首先，阐述了数字图象压缩的基本原理和图象压缩评价方法，分析了图象压缩传输在图象制

学位

电视制导系统视频压缩图象超分辨视频信号传输编码效率

LANDSAT-8卫星影像长条带数据处理方法研究及系统实现

目前，LANDSAT-8的地面处理系统只能处理WRS(World ReferenceSystem)分幅体系下的标准景数据，其得到的标准景产品覆盖区域较小，难以满足大区域遥感应用的需求。传统的获取长条带

学位

卫星遥感长条带图像长条带影像数据处理

机载稀疏微波成像观测矩阵分析及误差研究

稀疏微波成像是将稀疏信号处理引入微波成像当中而形成的新的理论、体制和方法，与传统雷达成像相比，稀疏微波成像可以降低现有微波成像系统采样要求，减少数据量，降低系统复杂度，具

学位

稀疏微波成像合成孔径雷达信号处理误差补偿性能评估

结合文本语义信息的图像标注方法研究

其他学术论文