论文部分内容阅读
随着互联网与多媒体技术的发展,互联网上的多媒体数据得到了飞速增长。网络上的多媒体数据通常呈现多模态的特征,在社交网络上共享的图像、视频等媒体数据通常附有相当数量的文本信息,包括用户标签、评论等。因此需要研究出有效的跨模态方法来分析与管理这些多模态的媒体数据。 多媒体的检索与语义标注是多媒体数据管理中的研究热点与难点。传统的单模态方法仅能处理单个模态数据的检索与标注,已经远远满足不了当前的需要。用户可能需要通过文本来检索图像,而不是传统的利用图像样例来检索图像。传统的多模态方法能够处理多模态的媒体数据,但同样无法关联异构数据。而跨模态检索则能够实现不同模态数据之间的检索,是信息检索领域未来发展的一个重要方向。跨模态关联在图像等多媒体数据的语义标注中也有着重要的作用。不同模态之间的关联能使得它们之间的语义信息得到有效互补,从而能提高语义标注的效果。此外,在基于语义的多媒体检索中,多媒体标注能够有效的建立媒体数据到语义的映射。因此多媒体标注在基于语义的检索中也有着重要地位。 对跨模态关联进行分析可以有效提高和改进多媒体数据的检索与标注。本文首先研究基于语义的跨模态关联,并建立了一种语义生成模型(SGM)。SGM能够通过相同的语义概念条件独立的生成不同模态的数据,并将这些异构数据关联起来。在SGM的估计中,既采用了传统的生成方式进行直接估计,也采用判别方法进行间接估计以得到更为精确的结果。接着基于SGM分别推导出基于语义的跨模态检索与多模态检索方法。最后在多模态数据集上,验证了基于语义生成模型的跨模态与多模态检索方法的效果。 基于语义的跨模态关联需要带有显式语义标注的训练集,而实际中难以得到带有足够语义信息的数据集用作训练。为了解决这个问题,本文先自动学习数据集中的隐藏语义概念,然后基于语义生成模型构造隐藏语义关联。接着将隐藏语义关联与显式语义关联进行合并,并用于跨模态检索。最后通过一系列的实验表明了在各种训练集显式语义信息不足的情况下,隐藏语义均能对显式语义起到很好的补充与替代作用。 多媒体数据的语义标注在多媒体检索与管理中有着重要的作用,而图像标注则是其中的一个难点与热点。本文利用马尔科夫随机场来分析跨模态关联,以此为基础推导出一种多模态融合方法DPGF,并将其用于监督式多模态图像标注。接着将DPGF扩展为一种三步的半监督式方法,通过利用未标注的样本进行训练,以解决训练集中标注样本不足的问题。同时基于多模态训练集训练出的模型能为单模态图像进行标注。实验证明了基于DPGF的监督式与半监督式图像标注的有效性,同时也通过实验表明DPGF在弱监督环境中有着良好的表现。 最后进一步考虑语义概念之间的关联,研究了一种跨模态多任务学习方法来同时分析语义概念关联与跨模态关联。该方法将多任务学习、跨模态学习与半监督学习合并成一个统一框架,得到一个统一的目标函数。在优化过程中将目标函数转化为一个特征值求解问题,并学习出一个共享子空间。不同的概念与不同的模态均通过子空间得到共享,而这两种关联也显著改善了图像标注的性能。在多个真实世界数据集上的实验表明了CMMTL能够显著提高图像标注的效果。