基于深层语义的图文跨模态检索关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:magicglf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展,使得信息的获取和分享变得越来越便捷,进而形成了网络上的海量信息,这些信息中包含图像、文本、声音、视频等多模态数据。这些海量多模态数据带来了大量的跨模态检索需求,并且不能由以文检文等单模态检索技术解决,因此迫切需要发展适用于跨模态检索的理论、方法和技术,可见跨模态检索具有重要的应用价值和研究价值。  本文重点关注图像和文本间的跨模态检索任务,主要包括图像和文本的表示学习以及两者之间关联学习等子任务。本文的主要研究工作包括:  提出基于模态间语义蕴含的图文匹配模型。本文分析并证实图像和文本间的语义关系是一种蕴含关系,并以此为基础提出上述模型,该模型首先利用神经网络对图像和文本进行表示学习,进而进行关联学习。然后为该模型设计一个新的目标函数,其要求模型在训练过程中计算图像和文本两者之间关联误差时兼顾两者之间的语义蕴含关系,从而使得模型尽可能多的学习两者语义的公共部分。所提模型在公开数据集上进行了评测,实验表明,所提模型的匹配效果优于已有代表模型。  提出基于细粒度特征的图像表示方法。该方法首先对训练集进行不同类型的增强处理,然后利用处理后的训练集分别训练深度神经网络,从而得到多个训练好的深度模型,进而利用这些模型形成最终的多列神经网络。所提方法在相关细粒度图像识别比赛中进行了评测,实验表明所提方法能够有效地提取图像的细粒度语义特征。  提出面向排序损失的文本表示方法。考虑与整个图文匹配模型的相容性,该方法利用卷积神经网络获得文本的向量化表示,并以排序损失函数为目标函数来训练网络。所提方法在公开数据集上进行了评测,实验表明,所提方法能够有效地提取文本的语义特征。  设计并实现图文跨模态检索系统。该系统实现了图像和文本这两种模态间的互搜功能,并且其图像搜索技术成功运用到核高基项目“安全可靠桌面计算机操作系统”的子任务“桌面搜索工具箱”和863项目“智慧城市”中城市大数据搜索功能中。
其他文献
学位
认证加密算法是能够同时保护数据机密性、完整性以及数据源认证的对称密码算法,在现实生活中有着广泛的应用需求。随着CAESAR竞赛的展开,认证加密算法的分析与设计成为了密码学
该文从中国、中国人民解放军气象装备和通信条件的实际情况出发,重点研究探讨了天气雷达组网、雷达信息压缩传输和多种型号雷达信息的同化处理技术,为天气雷达组网拼图的实现
自动推理是一门在给定知识及有关推理策略的前提下,研究用计算机帮助人们进行推理的学科.多种类逻辑及多种类谓词演算是经典一阶逻辑及其演算的重要拓展,并已经在计算机科学
该文提出了一种相类似的新算法——使用色彩与视差空间信息的SCADI(Segmentation of Colorand Disparity Information)分割技术,它由多帧平均的FAS(Frame AverageSegmentatio
近年来,随着大数据环境的快速发展,数据处理集群的规模在不断增长。目前由几千台服务器组成的数据处理集群已非罕见,部分领军企业的集群甚至包含上万台服务器。在这些大规模集群
信息安全是指如何防止计算机和通信系统中的数据被非授权泄漏和篡改的科学和研究方法.密码学理论和密码技术是信息安全的一个重要组成部分.它涉及到许多学科,诸如数学、计算
近些年来,伴随着人工智能领域的浪潮,机器人越来越多地出现在我们的日常生活中,与我们的生活紧密相关,例如足球机器人、无人车、无人机等。这些机器人虽然不是安全攸关系统,但是一
针对目前银行存在的多种数据库应用并存的状况,该文提出了一种基于XML的异构数据库挖掘方案,即通过JDBC访问数据库,然后将数据存放到XML文档中,并在此基础上进行数据挖掘.该
防火墙技术是建立在现代通信网络技术和信息安全技术基础上的应用性安全技术,越来越多地应用于专用网络与公用网络的互联环境之中。但是,防火墙作为必备的安全手段,其性能直接决