论文部分内容阅读
在当前的移动互联网时代,每个人都能随时随地、自由地通过网络发布信息、传递信息和接收信息。这些信息中通常包含文字、语音、图片、视频等多模态数据。这些飞速增长的多模态数据带来了大量的跨模态检索应用需求,如以文检图、以图检文等。这些需求不能由以文检文等单模态检索技术来解决,迫切需要发展适用于跨模态检索的理论、方法和技术。因此,跨模态检索的研究具有重要的应用价值和研究意义。近年来,深度学习技术在图像、语音、自然语言处理等各个领域都取得重大的进展,展示出深度学习模型具有处理不同模态信息的能力,其在处理不同模态信息时模型结构上的类似性,以及逐层深入的编码能力,为建立跨模态信息检索模型提供了有力的工具。本文主要关注图像和文本两个模态间的跨模态检索任务。在深入研究跨模态信息检索特点、广泛分析已有相关研究工作的基础,本文提出了一系列适合于跨模态信息检索的跨模态深度学习模型,并在多个公开数据上进行了丰富的评测验证。具体而言,本文的主要研究工作和成果包括:提出了一个跨模态对应自编码器(Correspondence Autoencoder, Corr-AE),进而构建了基于Corr-AE的跨模态深度学习模型。Corr-AE是由两个单模态自编码器组成。文本首先在这两个自编码器的表示层引入一个约束,以建模不同模态在表示层的共性关联。然后设计了一个新的目标函数以及优化算法。该目标函数要求最小化两个单模态自编码器的重构误差与不同模态表示层之间的关联误差之和,这使得模型可以将单模态表示学习与多模态关联学习集成在一个统一的模型中。最后,在三个公开数据集上对模型进行了评测。实验表明,本文提出的基于Corr-AE的跨模态深度学习模型在跨模态检索任务的性能上优于一个基于典型关联分析(CCA)的模型和两个已有的多模态深度学习模型。分别提出了一组重构多模态的Corr-AE模型以及一组重构单模态的Corr-AE模型。在这两组模型中,Corr-AE模型中的跨模态关联约束依然保留,但是对单模态重构部分进行了新的设计。重构多模态的Corr-AE模型要求同时重构图像和文本两个模态,而重构单模态的Corr-AE模型要求两个单模态自编码器只重构图像和文本中的一个模态。这些不同的重构设计可以满足不同的跨模态检索任务的需求。同样,这两组模型也在三个公开数据集上进行了评测。大量的实验分析不仅表明了这两组模型在满足不同跨模态检索任务时的有效性,为多模态检索任务提供了更多的可供选择的模型,也对深入揭示Corr-AE模型的工作原理提供了重要的帮助。提出了一个跨模态对应受限玻尔兹曼机(Correspondence Restricted Boltzmann Machine,Corr-RBM),进而构建了两个基于Corr-RBM的跨模态深度学习模型。Corr-RBM由两个单模态受限玻尔兹曼机组成。与Corr-AE类似,本文首先在这两个受限玻尔兹曼机的表示层之间引入一个约束,以建模不同模态的表示层之间的共性关联。然后为此设计了一个新的目标函数以及优化算法。该目标函数要求最小化两个模态数据的负对数似然和不同模态表示层之间关联误差之和。这使得模型可以将单模态表示学习与跨模态关联学习集成在个统一的模型中同时获得。与Corr-AE不同的是,本模型的目标函数中不同模态的似然具有各自独立的系数。基于Corr-RBM,本文构建了两个跨模态深度学习模型:Corr-DBN和Stacked Corr-RBMs。前者只在最后一层学习不同模态数据之间的关联,而后者在每一层都学习不同模态数据之间的关联。最后,在三个公开数据集上对模型进行了评测。实验表明,Stacked Corr-RBMs在跨模态检索任务上优于若干个相关模型。设计并实现了一个基于跨模态深度学习模型的跨模态检索演示系统。基于上述提出的跨模态深度学习模型,实现了一个面向服装领域的跨模态检索演示系统。该系统具备两个功能:其一是为输入的服装图片返回相关的文本描述信息;其二是为输入的文本信息返回相关的服装图片。