论文部分内容阅读
互联网技术的快速发展,使得信息的获取和分享变得越来越便捷,进而形成了网络上的海量信息,这些信息中包含图像、文本、声音、视频等多模态数据。这些海量多模态数据带来了大量的跨模态检索需求,并且不能由以文检文等单模态检索技术解决,因此迫切需要发展适用于跨模态检索的理论、方法和技术,可见跨模态检索具有重要的应用价值和研究价值。 本文重点关注图像和文本间的跨模态检索任务,主要包括图像和文本的表示学习以及两者之间关联学习等子任务。本文的主要研究工作包括: 提出基于模态间语义蕴含的图文匹配模型。本文分析并证实图像和文本间的语义关系是一种蕴含关系,并以此为基础提出上述模型,该模型首先利用神经网络对图像和文本进行表示学习,进而进行关联学习。然后为该模型设计一个新的目标函数,其要求模型在训练过程中计算图像和文本两者之间关联误差时兼顾两者之间的语义蕴含关系,从而使得模型尽可能多的学习两者语义的公共部分。所提模型在公开数据集上进行了评测,实验表明,所提模型的匹配效果优于已有代表模型。 提出基于细粒度特征的图像表示方法。该方法首先对训练集进行不同类型的增强处理,然后利用处理后的训练集分别训练深度神经网络,从而得到多个训练好的深度模型,进而利用这些模型形成最终的多列神经网络。所提方法在相关细粒度图像识别比赛中进行了评测,实验表明所提方法能够有效地提取图像的细粒度语义特征。 提出面向排序损失的文本表示方法。考虑与整个图文匹配模型的相容性,该方法利用卷积神经网络获得文本的向量化表示,并以排序损失函数为目标函数来训练网络。所提方法在公开数据集上进行了评测,实验表明,所提方法能够有效地提取文本的语义特征。 设计并实现图文跨模态检索系统。该系统实现了图像和文本这两种模态间的互搜功能,并且其图像搜索技术成功运用到核高基项目“安全可靠桌面计算机操作系统”的子任务“桌面搜索工具箱”和863项目“智慧城市”中城市大数据搜索功能中。