论文部分内容阅读
随着智能手机和大数据的风靡,人们对多媒体数据的处理需求也日益增加,传统单一模态的处理方法已难以满足多元化信息综合挖掘的需求。因此,针对多模态数据的研究逐渐被许多学者所关注,而最前沿的热点之一就是多模态数据的内容特征分析与语义理解。传统的多媒体语义理解研究大多都是对单一类型的多媒体数据进行处理,然而难以挖掘多模态数据间的潜在语义关系。因此,这些方法在进行多模态数据分类和检索应用时效果也不尽人意。如何挖掘异构数据间的潜在语义,并准确度量特征间的相似度是多模态语义理解的关键问题。针对上述问题,本文提出了基于因子分析优化的多模态特征子空间映射,它通过迭代算法得到映射矩阵和分类矩阵,用映射矩阵将图像特征线性映射到文本空间中,然后在文本空间用分类矩阵进行分类;在此基础上,本文又将多核偏二乘回归应用于多模态语义匹配,利用多模态数据的非线性和多核学习的有效性,对不同模态特征选用不同核,通过多核偏二乘回归分析将图像特征映射到文本空间,然后再用逻辑回归对文本空间进行语义分析。最后将本文方法应用于图像和文本数据的混合分类和检索,通过在三个标准多模态数据集上的实验从多方面验证了本文工作的有效性。