基于子空间的多视角学习方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chencr33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据的采集方式更为多样化,数据的表征形态更为多元化,因而观察对象往往可以被不同的特征表征,学术界称之为多视角数据。例如,在图像处理问题中,图像可以用反映图像整体特性的全局特征表示,也可以用基于图像显著区域或关键点的局部特征表示。为了更好利用多视角数据的丰富信息,多视角学习应运而生,并很快成为机器学习领域一个研究热点。  子空间学习旨在将高维特征的数据映射到一个低维子空间,并保持数据特定的统计特性,可以有效缓解所谓的维数灾难问题。但在面临多视角数据的处理时,许多经典子空间学习方法诸如主题模型、矩阵分解等,都忽略了多视角数据本身蕴含的内在关联属性,无法对多视角数据实现有效的处理。  本文就基于子空间的多视角学习方法展开了深入研究。不同于经典的子空间学习将数据从一个高维原始特征空间映射到一个低维子空间,基于子空间的多视角学习试图从多个高维原始特征空间发现一个统一的低维子空间,从而获得蕴含多视角信息的统一特征表达。基于子空间的多视角学习不仅保留了子空间学习有效缓解维数灾难的特点,而且实现了对多视角数据的充分利用。  本文首先深入讨论了两种多视角内在关联属性,即一致性和互补性。这两种属性是多视角学习有效性的根本保障。在此基础上,本文在无监督条件和半监督条件下,挖掘多视角的一致性和互补性,提出了若干有效的基于子空间的多视角学习方法。此外,本文将多视角学习思想推广应用到了一类拟多视角学习问题。本文主要贡献包括以下几个方面:  1.本文在概率潜在语义分析的框架下基于互正则化思想提出了两种无监督多视角学习方法:基于主题互正则化的概率潜在语义分析和基于样本对互正则化的概率潜在语义分析。这两种方法均基于多视角一致性,但其互正则化项基于完全不同的原则。前者基于不同视角潜在主题一致原则,后者基于样本对相似度一致原则。这两种方法可以有效地对高维多视角数据进行降维,并在真实数据集上提升了的多视角聚类实验的性能。  2.本文在无监督条件下,提出了一种贝叶斯生成式模型,多视角潜在狄里克莱算法。该方法将潜在语义主题空间划分为多视角共享部分和各个视角私有部分,并通过一个伯努利过程来确定文档中的词汇是由共享主题还是视角私有主题生成。多视角潜在狄里克莱算法通过探索多视角一致性和互补性,可以获得多视角特征一个全面的低维表示,其有效性在真实数据集上的聚类和分类任务中得到了验证。  3.本文将非负矩阵分解推广到多视角学习领域,提出了两种半监督多视角学习方法:统一潜在因子学习和部分共享潜在因子学习。前者仅考虑了一致性,后者同时考虑了一致性和互补性,是包含前者的更一般形式。这两种方法在保留非负矩阵分解基于局部表示的特性基础上,可以有效发现多视角数据潜在结构,而且通过回归正则化项将部分标注样本的监督信息融入到了子空间表示中。真实数据集上的实验验证了两者的有效性。  4.本文借鉴多视角学习思想,针对一类拟多视角学习问题,基于子空间的评分预测问题,提出了两种有效算法:所谓的TCRec方法将外界辅助信息融入到用户子空间和产品子空间挖掘中;所谓的DsRec方法充分探索用户视角和产品视角之间的某种一致性帮助未知评分预测。相比传统基于子空间的协同过滤方法,本文提出的方法由于充分利用、挖掘了用户和产品视角信息,在真实数据集上取得了更小的预测误差。
其他文献
脑作为人类神经系统的中枢,是一个精细、复杂和高效的系统,控制着人类的情感、思维和行为。探索脑的结构和功能、揭示脑的工作机制,是重大的科学前沿。现代影像技术的发展为人类
近年来,层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构,层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层
学位
随着互联网技术的快速发展,多样、异构、稀疏、海量的数据呈指数级快速增长。如何有效地表示和深入理解这些大数据已经越来越受到人们的重视,甚至已经成为当前的重要研究课题。
随着移动互联网的迅速扩张,网络购物大大地提升了人们的生活质量。在此背景下,许多电子商务网站提供了产品评价平台,以方便用户分享产品使用经验以及对产品的满意程度作出评价。
随着计算机和网络技术的广泛使用,网络安全防护成为一个研究热点。入侵检测技术是保障网络安全的重要手段,基于人工智能算法的入侵检测方法成为了当前网络安全领域的重要研究课
胶囊内窥镜的出现和发展,为小肠疾病患者提供了有效而低痛苦的检测手段。然而,胶囊内镜同时也有低效、漏检的缺点,甚至存在一定的危险性,因此,现实需要发展胶囊机器人技术,赋予胶囊
随着工业开始朝着大规模、复杂化的方向发展,针对工业生产的过程监控和故障检测成为了工业系统中备受关注的问题之一。如何从大量数据中挖掘出隐藏的有用信息,使其能够服务于
视觉是人类认识和理解世界的首要途径。长久以来,人们都希望能够在人工系统上复刻人类的视觉能力。其中,视觉分类是最受关注,最为核心,也是实现起来最具挑战性的视觉功能之一。同
红外视频深度估计是机器学习、计算机视觉等领域中的热点研究问题之一。近些年来基于几何光学方法、传统机器学习方法和深度学习方法的深度估计研究取得了很大的进步。然而,现