论文部分内容阅读
随着计算机技术的飞速发展,数据的收集和存储能力得到了极大地提高,在科学研究和社会生活的各个领域,海量表现形式复杂的数据涌现。针对同一对象从不同途径或不同层面获得的特征数据被称为多视角数据(Multi-view data)。多视角学习(Multi-view learning)是指利用事物的多视角数据,对其内在模式进行识别和学习。在机器学习领域,如何综合利用多视角数据进行充分有效地学习,实现对由多视角所刻画的对象的深入理解与分析,已成为该领域的一个热点问题,这一研究具有重要的理论意义与应用价值。 为了更好地挖掘其中的信息,多视角学习需要遵循两个原则:一致性原则和互补性原则。一致性原则是指同一对象不同视角的特征存在内在联系,通过最大化多个不同视角之间的一致性,产生具有更好泛化能力的模型。互补性原则是指不同视角数据间的差异性使得每个视角都包含对象某一方面独特的信息,通过利用此类相互补充的信息,全面而准确地描述数据。为确保多视角学习取得成功,一致性和互补性两原则在多视角学习中起着相当重要的作用。目前的大部分研究工作要么遵循一致性原则,要么遵循互补性原则,同时遵循这两个原则的研究工作还比较少,值得更多的研究人员关注。 本文主要研究多视角学习的理论与方法。以已有的多视角学习理论与方法为基础,以一致性和互补性原则为指导,以最优化理论与方法为工具,系统地构建新的理论框架,在此框架下进行一系列的模型与算法研究。主要包括:开发基于特权信息学习理论下的两视角支持向量机,多视角支持向量机及半监督两视角支持向量机。同时,基于非平行支持向量机构建多视角非平行支持向量机。本文的主要工作如下: (1)两视角支持向量机(PSVM-2V)以将特权信息学习策略(Learning Using Privileged Information,LUPI)应用于多视角学习的思路为主导,构建新的两视角支持向量机(Privileged SVM for two-view learning,PSVM-2V),并进行相应的算法研究。同时,利用Rademacher复杂度理论,对模型进行了相应的理论分析,并通过大量的数值实验验证模型和算法的合理有效性,实验结果表明,在大部分的多视角数据集上,PSVM-2V提高了分类准确率,并且这种提高具有统计显著性。 (2)多视角支持向量机(IPSVM-MV)将两视角支持向量机(PSVM-2V)拓展到多个视角上,提出多视角支持向量机(Improved privileged SVM for multiview learning,IPSVM-MV),该模型通过直接继承LUPI学习范式下的经典模型SVMΔ+,更为充分地利用多视角数据间的互补信息。通过采用交替方向乘子法(Alternating direction method of multipliers,ADMM),对其进行快速求解。进一步,从理论上分析了IPSVM-MV的一致性和泛化能力,并与PSVM-2V进行了全面比较。最后,通过大量数值实验验证了IPSVM-MV的有效性,实验结果表明,在大多数多视角数据集上,IPSVM-MV具有比PSVM-2V更高的分类准确率。 (3)多视角非平行支持向量机(MVNPSVM)基于非平行支持向量机(Nonparallel support vector machine,NPSVM)的相关理论与方法,提出了多视角非平行支持向量机(Multi-view nonparallel support vector machine,MVNPSVM),该模型不仅继承了NPSVM和多视角数据的优势,而且是NPSVM分类器在多视角学习领域的新拓展。我们采用交替方向乘子法(ADMM)对其进行快速求解。进一步,从理论上分析了MVNPSVM的一致性,并与SVM-2K和MvTSVMs进行比较。最后,通过大量的数值实验证明了所提出的模型与算法的有效性。 (4)半监督两视角支持向量机(SPSVM-2V)基于两视角支持向量机(PSVM-2V)和拉普拉斯正则化(Laplacian regularization),提出了一种新的半监督两视角支持向量机(Semi-supervised two-view privileged support vector machine,SPSVM-2V)。通过合适的参数设置,SPSVM-2V可以退化为PSVM-2V。此外,针对SPSVM-2V设计了有效的求解算法,并利用Rademacher复杂度理论对模型进行理论分析。数值实验验证了该模型和算法的有效性。 本文所提出的四种多视角学习模型丰富和完善多视角学习的理论研究和方法体系,为多视角学习提供新思路和新模型。在此基础之上,所提出的有趣而富有挑战性的新问题,也为我们未来的研究工作奠定了基础。