基于跨模态关联分析的多媒体检索与标注方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhanghtlx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与多媒体技术的发展,互联网上的多媒体数据得到了飞速增长。网络上的多媒体数据通常呈现多模态的特征,在社交网络上共享的图像、视频等媒体数据通常附有相当数量的文本信息,包括用户标签、评论等。因此需要研究出有效的跨模态方法来分析与管理这些多模态的媒体数据。  多媒体的检索与语义标注是多媒体数据管理中的研究热点与难点。传统的单模态方法仅能处理单个模态数据的检索与标注,已经远远满足不了当前的需要。用户可能需要通过文本来检索图像,而不是传统的利用图像样例来检索图像。传统的多模态方法能够处理多模态的媒体数据,但同样无法关联异构数据。而跨模态检索则能够实现不同模态数据之间的检索,是信息检索领域未来发展的一个重要方向。跨模态关联在图像等多媒体数据的语义标注中也有着重要的作用。不同模态之间的关联能使得它们之间的语义信息得到有效互补,从而能提高语义标注的效果。此外,在基于语义的多媒体检索中,多媒体标注能够有效的建立媒体数据到语义的映射。因此多媒体标注在基于语义的检索中也有着重要地位。  对跨模态关联进行分析可以有效提高和改进多媒体数据的检索与标注。本文首先研究基于语义的跨模态关联,并建立了一种语义生成模型(SGM)。SGM能够通过相同的语义概念条件独立的生成不同模态的数据,并将这些异构数据关联起来。在SGM的估计中,既采用了传统的生成方式进行直接估计,也采用判别方法进行间接估计以得到更为精确的结果。接着基于SGM分别推导出基于语义的跨模态检索与多模态检索方法。最后在多模态数据集上,验证了基于语义生成模型的跨模态与多模态检索方法的效果。  基于语义的跨模态关联需要带有显式语义标注的训练集,而实际中难以得到带有足够语义信息的数据集用作训练。为了解决这个问题,本文先自动学习数据集中的隐藏语义概念,然后基于语义生成模型构造隐藏语义关联。接着将隐藏语义关联与显式语义关联进行合并,并用于跨模态检索。最后通过一系列的实验表明了在各种训练集显式语义信息不足的情况下,隐藏语义均能对显式语义起到很好的补充与替代作用。  多媒体数据的语义标注在多媒体检索与管理中有着重要的作用,而图像标注则是其中的一个难点与热点。本文利用马尔科夫随机场来分析跨模态关联,以此为基础推导出一种多模态融合方法DPGF,并将其用于监督式多模态图像标注。接着将DPGF扩展为一种三步的半监督式方法,通过利用未标注的样本进行训练,以解决训练集中标注样本不足的问题。同时基于多模态训练集训练出的模型能为单模态图像进行标注。实验证明了基于DPGF的监督式与半监督式图像标注的有效性,同时也通过实验表明DPGF在弱监督环境中有着良好的表现。  最后进一步考虑语义概念之间的关联,研究了一种跨模态多任务学习方法来同时分析语义概念关联与跨模态关联。该方法将多任务学习、跨模态学习与半监督学习合并成一个统一框架,得到一个统一的目标函数。在优化过程中将目标函数转化为一个特征值求解问题,并学习出一个共享子空间。不同的概念与不同的模态均通过子空间得到共享,而这两种关联也显著改善了图像标注的性能。在多个真实世界数据集上的实验表明了CMMTL能够显著提高图像标注的效果。
其他文献
随着信息技术的迅速发展,企事业单位中打印设备的使用越来越频繁,给信息共享提供了极大的便利。但是长期以来,人们对打印机的安全管理缺乏深入认识,安全打印的思想还没有深入
近年来IT行业技术方向变幻莫测,技术发展一日千里,能正确理解技术、运用技术为企业构建解决方案的人员为数不多;而在实际的项目的需求中又要求用尽可能短的时间满足用户的复杂需
最优化问题是工程应用和科学研究中的基本问题。只有一个目标函数的优化问题被称为单目标优化问题,而同时需要优化多个目标函数的问题被称为多目标优化问题。处理多目标优化问
随着计算机网络的开放性、共享性、互连程度的扩大,使得网络与信息系统的安全与保密问题显得越来越重要,成了制约其发展之关键所在。本文旨在给出基于实体模型的计算机网络安全
随着计算机处理能力和网络通讯能力的飞速提升,计算机网络研究和应用的热点从核心网络延伸到了边缘网络,出现了应用层覆盖网络。应用层覆盖网络的路由表构造、维护及数据转发均
本文讨论了数字图象处理技术在肺部细胞图象上的应用。首先进行细胞图象增强处理。细胞图象增强主要目的是改善细胞图象的质量,突出细胞图象的整体或局部特征,提高细胞的视觉效
本文针对加油IC卡系统的网络发展现状和实际,详细分析了系统网络安全的风险、安全需求和安全目标。为了确保加油IC卡系统的网络安全,提出了一个总的安全策略,即在加油IC卡系统网
同步数字体系SDH(SynchronousDigitalHierarchy),是指由若干SDH网元组成,并在光纤或者无线媒介上进行同步数据信息传输、复用、分插和交叉连接的网络。我国现在使用的广电传输
本文对实时分布仿真环境及其运行支撑框架展开了研究,主要研究工作如下:1.分析了实时分布仿真系统的特点,研究了实时分布仿真环境在构造实时分布仿真系统的作用,并对分布交互
视图发布是数据交换的主要手段,视图发布为数据交换提供了方便,但在视图发布过程中有可能造成信息的泄漏,因此,保证发布视图的安全成为数据库安全的一个新课题。本文对国内外关于