论文部分内容阅读
大数据时代,数据的采集方式更为多样化,数据的表征形态更为多元化,因而观察对象往往可以被不同的特征表征,学术界称之为多视角数据。例如,在图像处理问题中,图像可以用反映图像整体特性的全局特征表示,也可以用基于图像显著区域或关键点的局部特征表示。为了更好利用多视角数据的丰富信息,多视角学习应运而生,并很快成为机器学习领域一个研究热点。 子空间学习旨在将高维特征的数据映射到一个低维子空间,并保持数据特定的统计特性,可以有效缓解所谓的维数灾难问题。但在面临多视角数据的处理时,许多经典子空间学习方法诸如主题模型、矩阵分解等,都忽略了多视角数据本身蕴含的内在关联属性,无法对多视角数据实现有效的处理。 本文就基于子空间的多视角学习方法展开了深入研究。不同于经典的子空间学习将数据从一个高维原始特征空间映射到一个低维子空间,基于子空间的多视角学习试图从多个高维原始特征空间发现一个统一的低维子空间,从而获得蕴含多视角信息的统一特征表达。基于子空间的多视角学习不仅保留了子空间学习有效缓解维数灾难的特点,而且实现了对多视角数据的充分利用。 本文首先深入讨论了两种多视角内在关联属性,即一致性和互补性。这两种属性是多视角学习有效性的根本保障。在此基础上,本文在无监督条件和半监督条件下,挖掘多视角的一致性和互补性,提出了若干有效的基于子空间的多视角学习方法。此外,本文将多视角学习思想推广应用到了一类拟多视角学习问题。本文主要贡献包括以下几个方面: 1.本文在概率潜在语义分析的框架下基于互正则化思想提出了两种无监督多视角学习方法:基于主题互正则化的概率潜在语义分析和基于样本对互正则化的概率潜在语义分析。这两种方法均基于多视角一致性,但其互正则化项基于完全不同的原则。前者基于不同视角潜在主题一致原则,后者基于样本对相似度一致原则。这两种方法可以有效地对高维多视角数据进行降维,并在真实数据集上提升了的多视角聚类实验的性能。 2.本文在无监督条件下,提出了一种贝叶斯生成式模型,多视角潜在狄里克莱算法。该方法将潜在语义主题空间划分为多视角共享部分和各个视角私有部分,并通过一个伯努利过程来确定文档中的词汇是由共享主题还是视角私有主题生成。多视角潜在狄里克莱算法通过探索多视角一致性和互补性,可以获得多视角特征一个全面的低维表示,其有效性在真实数据集上的聚类和分类任务中得到了验证。 3.本文将非负矩阵分解推广到多视角学习领域,提出了两种半监督多视角学习方法:统一潜在因子学习和部分共享潜在因子学习。前者仅考虑了一致性,后者同时考虑了一致性和互补性,是包含前者的更一般形式。这两种方法在保留非负矩阵分解基于局部表示的特性基础上,可以有效发现多视角数据潜在结构,而且通过回归正则化项将部分标注样本的监督信息融入到了子空间表示中。真实数据集上的实验验证了两者的有效性。 4.本文借鉴多视角学习思想,针对一类拟多视角学习问题,基于子空间的评分预测问题,提出了两种有效算法:所谓的TCRec方法将外界辅助信息融入到用户子空间和产品子空间挖掘中;所谓的DsRec方法充分探索用户视角和产品视角之间的某种一致性帮助未知评分预测。相比传统基于子空间的协同过滤方法,本文提出的方法由于充分利用、挖掘了用户和产品视角信息,在真实数据集上取得了更小的预测误差。