论文部分内容阅读
随着互联网、云计算和移动电子设备的快速发展,计算和存储成本的持续降低,各领域积累的电子数据急剧增长,数据量从PB时代跨入ZB时代而且形式日趋多样化。据统计,海量数据中85%以上是文本、图像、视频等多模态数据,这些数据中蕴藏着丰富的有价值的信息。如何使计算机自动理解数据内容、挖掘数据内部关系等隐藏信息,以及从海量数据中准确检索出用户所需的相关内容,仍然是多模态数据中亟待解决的难题。作为多模态数据的研究热点,分类和检索一直以来都受到了研究人员的广泛关注,并在文本/图像内容理解、多媒体检索等应用领域取得了显著成果。然而,对多模态数据的分析研究在某些方向还存在一些不足,如高效的数据计算、复杂图像的内容理解、精确的跨模态检索等。本文基于多模态数据中最常见的文本和图像数据,对文本特征的选择、基于深度神经网络的图像单标签、多标签分类以及图像检索、跨模态数据检索等一系列关键技术进行深入研究,创新地提出了相应的解决方法,并通过一系列的实验分析来验证所提方法的有效性。具体而言,本文取得的创新性研究成果主要包含以下几个方面:(1)提出了一种并行文本特征选择方法用以解决大规模文本分类中的高维特征降维问题。在该方法中,本文用基于Renyi熵的互信息来度量特征变量和类变量之间的相关性,用最大互信息理论来选择信息量最大的特征变量组合,实现了基于MapReduce的并行特征选择,有效地解决大规模文本数据的特征选择问题;为进一步降低特征选择的计算量,本文提出一种基于信息损失量的测度,用于度量每个特征带来的信息增加量,有效避免了联合互信息的计算,从而有效地降低了特征选择的计算量。(2)提出了一种融合场景信息的深度学习网络模型来解决复杂图像内容的分类问题。在该模型中,本文利用两类深度神经网络来获取图像基于内容感知和场景感知的特征表示,并提出一种一对多的多重交叉熵损失函数用以更好的优化网络的训练过程。本文提出的融合场景信息的深度学习网络可以通过端到端的形式进行学习,在Pascal VOC 2007和MS COCO上的实验结果证明了本文提出的方法在图像多标签分类任务上的有效性。(3)提出一种简单有效的深度学习方法,用以解决图像和文本之间的跨模态检索问题。在该方法中,本文通过两个独立的深度神经网络分别将处于异构空间中的图像和文本特征映射到同构的语义空间中,在该语义空间的每一维都对应了某种具体的高层语义,从而实现图像和文本之间的相似性度量。在NUS-WIDE和Pascal VOC 2007两个公开数据集上的实验结果证明了本文所提出方法的有效性。通过实验分析的结果表明,本文提出的这些方法可有效解决多模态数据分类和检索问题,无论是在科学研究还是在实际应用都有着广阔的应用前景。