多模态数据分类与检索的关键技术研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:visualstudio2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、云计算和移动电子设备的快速发展,计算和存储成本的持续降低,各领域积累的电子数据急剧增长,数据量从PB时代跨入ZB时代而且形式日趋多样化。据统计,海量数据中85%以上是文本、图像、视频等多模态数据,这些数据中蕴藏着丰富的有价值的信息。如何使计算机自动理解数据内容、挖掘数据内部关系等隐藏信息,以及从海量数据中准确检索出用户所需的相关内容,仍然是多模态数据中亟待解决的难题。作为多模态数据的研究热点,分类和检索一直以来都受到了研究人员的广泛关注,并在文本/图像内容理解、多媒体检索等应用领域取得了显著成果。然而,对多模态数据的分析研究在某些方向还存在一些不足,如高效的数据计算、复杂图像的内容理解、精确的跨模态检索等。本文基于多模态数据中最常见的文本和图像数据,对文本特征的选择、基于深度神经网络的图像单标签、多标签分类以及图像检索、跨模态数据检索等一系列关键技术进行深入研究,创新地提出了相应的解决方法,并通过一系列的实验分析来验证所提方法的有效性。具体而言,本文取得的创新性研究成果主要包含以下几个方面:(1)提出了一种并行文本特征选择方法用以解决大规模文本分类中的高维特征降维问题。在该方法中,本文用基于Renyi熵的互信息来度量特征变量和类变量之间的相关性,用最大互信息理论来选择信息量最大的特征变量组合,实现了基于MapReduce的并行特征选择,有效地解决大规模文本数据的特征选择问题;为进一步降低特征选择的计算量,本文提出一种基于信息损失量的测度,用于度量每个特征带来的信息增加量,有效避免了联合互信息的计算,从而有效地降低了特征选择的计算量。(2)提出了一种融合场景信息的深度学习网络模型来解决复杂图像内容的分类问题。在该模型中,本文利用两类深度神经网络来获取图像基于内容感知和场景感知的特征表示,并提出一种一对多的多重交叉熵损失函数用以更好的优化网络的训练过程。本文提出的融合场景信息的深度学习网络可以通过端到端的形式进行学习,在Pascal VOC 2007和MS COCO上的实验结果证明了本文提出的方法在图像多标签分类任务上的有效性。(3)提出一种简单有效的深度学习方法,用以解决图像和文本之间的跨模态检索问题。在该方法中,本文通过两个独立的深度神经网络分别将处于异构空间中的图像和文本特征映射到同构的语义空间中,在该语义空间的每一维都对应了某种具体的高层语义,从而实现图像和文本之间的相似性度量。在NUS-WIDE和Pascal VOC 2007两个公开数据集上的实验结果证明了本文所提出方法的有效性。通过实验分析的结果表明,本文提出的这些方法可有效解决多模态数据分类和检索问题,无论是在科学研究还是在实际应用都有着广阔的应用前景。
其他文献
小产权房,顾名思义,是指建立在集体土地上,而因缺乏审批手续并尚未缴纳土地出让金,其产权证不是由国家房管部门颁发,而是由乡政府或村政府颁发,只能在乡村集体经济组织成员之间内部
自1988年至1993年我科对60例食管与贲门癌病人,采用食管瓣成形—食管胃套接法进行手术治疗。手术切除肿瘤后行颈部吻合9例;弓上吻合23例,弓下吻合28例。术后无吻合口瘘,随访中无吻合口狭窄病例。
研究了聚丁二烯橡胶接枝聚合转化率的测试方法,参照GB/T 8298—2008制定了适合装置控制需要的胶乳总固含量测试方法。确定了胶乳用0.20mm滤网过滤、100℃烘干15min的测试条件
本文通过对计算机、多媒体、网络辅助外语教学概念、理论及应用的阐述,指出计算机、多媒体及网络用于外语教学激发了学生的学习兴趣,提高了课堂教学效率。
财务政策对于企业的财务管理有着很大的影响和作用,财务风险控制是企业财务管理中的重要内容之一,对于企业的运营管理以及发展有着积极的作用和影响。本文主要结合财务政策对于
为了适应社会对高技术、高技能人才的需求,高职电子器件技术与应用引入项目课程教学,为高等院校培养面向21世纪的电子器件技术专业人才。根据电子器件的发展对电子器件专业技术
<正> 荔枝是我国南方著名的特产水果,深受国内外消费者的喜爱。但荔枝采收期集中在盛夏高温季节,采后难以贮藏保鲜。近年来随着荔枝栽培技术的发展和种植面积的逐年增加,荔枝
在广告艺术设计专业的诸多专业课中,书法是非常重要的专业课之一,这是因为一方面它与平面设计都同属于艺术,另一方面它们之间还存在着许多共通的地方并有着十分密切的联系。我们