基于深度学习的跨模态检索研究

被引量 : 46次 | 上传用户:wjh_1201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前的移动互联网时代,每个人都能随时随地、自由地通过网络发布信息、传递信息和接收信息。这些信息中通常包含文字、语音、图片、视频等多模态数据。这些飞速增长的多模态数据带来了大量的跨模态检索应用需求,如以文检图、以图检文等。这些需求不能由以文检文等单模态检索技术来解决,迫切需要发展适用于跨模态检索的理论、方法和技术。因此,跨模态检索的研究具有重要的应用价值和研究意义。近年来,深度学习技术在图像、语音、自然语言处理等各个领域都取得重大的进展,展示出深度学习模型具有处理不同模态信息的能力,其在处理不同模态信息时模型结构上的类似性,以及逐层深入的编码能力,为建立跨模态信息检索模型提供了有力的工具。本文主要关注图像和文本两个模态间的跨模态检索任务。在深入研究跨模态信息检索特点、广泛分析已有相关研究工作的基础,本文提出了一系列适合于跨模态信息检索的跨模态深度学习模型,并在多个公开数据上进行了丰富的评测验证。具体而言,本文的主要研究工作和成果包括:提出了一个跨模态对应自编码器(Correspondence Autoencoder, Corr-AE),进而构建了基于Corr-AE的跨模态深度学习模型。Corr-AE是由两个单模态自编码器组成。文本首先在这两个自编码器的表示层引入一个约束,以建模不同模态在表示层的共性关联。然后设计了一个新的目标函数以及优化算法。该目标函数要求最小化两个单模态自编码器的重构误差与不同模态表示层之间的关联误差之和,这使得模型可以将单模态表示学习与多模态关联学习集成在一个统一的模型中。最后,在三个公开数据集上对模型进行了评测。实验表明,本文提出的基于Corr-AE的跨模态深度学习模型在跨模态检索任务的性能上优于一个基于典型关联分析(CCA)的模型和两个已有的多模态深度学习模型。分别提出了一组重构多模态的Corr-AE模型以及一组重构单模态的Corr-AE模型。在这两组模型中,Corr-AE模型中的跨模态关联约束依然保留,但是对单模态重构部分进行了新的设计。重构多模态的Corr-AE模型要求同时重构图像和文本两个模态,而重构单模态的Corr-AE模型要求两个单模态自编码器只重构图像和文本中的一个模态。这些不同的重构设计可以满足不同的跨模态检索任务的需求。同样,这两组模型也在三个公开数据集上进行了评测。大量的实验分析不仅表明了这两组模型在满足不同跨模态检索任务时的有效性,为多模态检索任务提供了更多的可供选择的模型,也对深入揭示Corr-AE模型的工作原理提供了重要的帮助。提出了一个跨模态对应受限玻尔兹曼机(Correspondence Restricted Boltzmann Machine,Corr-RBM),进而构建了两个基于Corr-RBM的跨模态深度学习模型。Corr-RBM由两个单模态受限玻尔兹曼机组成。与Corr-AE类似,本文首先在这两个受限玻尔兹曼机的表示层之间引入一个约束,以建模不同模态的表示层之间的共性关联。然后为此设计了一个新的目标函数以及优化算法。该目标函数要求最小化两个模态数据的负对数似然和不同模态表示层之间关联误差之和。这使得模型可以将单模态表示学习与跨模态关联学习集成在个统一的模型中同时获得。与Corr-AE不同的是,本模型的目标函数中不同模态的似然具有各自独立的系数。基于Corr-RBM,本文构建了两个跨模态深度学习模型:Corr-DBN和Stacked Corr-RBMs。前者只在最后一层学习不同模态数据之间的关联,而后者在每一层都学习不同模态数据之间的关联。最后,在三个公开数据集上对模型进行了评测。实验表明,Stacked Corr-RBMs在跨模态检索任务上优于若干个相关模型。设计并实现了一个基于跨模态深度学习模型的跨模态检索演示系统。基于上述提出的跨模态深度学习模型,实现了一个面向服装领域的跨模态检索演示系统。该系统具备两个功能:其一是为输入的服装图片返回相关的文本描述信息;其二是为输入的文本信息返回相关的服装图片。
其他文献
商业银行独立保函在近十年的发展速度之快,令人瞠目,特别是随着国家“一带一路”和“走出去、引进来”政策的影响,融资性独立保函业务已成为除借款和基金外,第三大投资方式。
<正>近年来,人民银行系统干部职工"八小时以外"和离退休干部的违纪案件呈高发态势,加强职工"八小时以外"和离退休干部的管理,是预防各类违法违纪案件发生的重要举措,现结合基
通过世界工业遗产的突出普遍价值统计、对比分析、价值要点、价值载体等方面研究,对我国保存至今重要的清末军工产业遗产福建马尾船政与北洋水师大沽船坞的突出普遍价值做出
随着经济全球化和新技术革命对技能型人才的需求不断增加,各国对职业教育的发展也愈加重视。近年来,我国大力推动职业教育发展的过程中,中高职学生的职业意识问题开始受到广
磁流变抛光技术是一种确定性的超精密光学元件加工技术,是强激光光学元件表面无缺陷加工的主要手段。磁流变抛光液是磁流变抛光技术的关键和基础,它直接作用于光学元件表面并
<正>1基地的选择选择远离工矿企业(距离3km),无"三废"污染,水质良好,土壤肥沃,空气清新,光照资源丰富,生物资源呈多样性的基地。大气、水、土壤环境符合无公害农产品生产基地
作为语言的具体表现,各类语篇体现出特定的社会政治环境与社会权力关系。读者不妨从批评语言学的视角,分析网络新闻语篇中的语言形式与发话人传递的意识形态之间的关系,能发
将当前中国的城市景观所面临的一种特殊"中间"状态的困境定义为"迪斯尼化",并通过归纳几类具有代表性的"迪斯尼化"城市景观现象,从社会文化的角度分析其特征,研究这类景观对
实践教学在高职院校会计专业人才培养过程中发挥着越来越重要的作用,文章对高职院校会计专业实践教学存在的问题和改革措施进行有关探讨。
通过对中国与日本在住宅设计流程、设计深度、工作习惯等细节的比较,介绍日本住宅内装工业化的基础背景;并通过分析中日设计手法、建造手法的不同点,了解我国与日本在住宅工