论文部分内容阅读
聚类分析是一种重要的数据分析工具,它根据相似度将数据组织到群集或组中,从而揭示数据的类别属性。最近,很多多核聚类方法被提出,它们使用了存在于多核的多视图补充信息以改善聚类的性能。尽管这些方法取得了一定的成效,但是在一个聚类任务中选择合适的核以及核的重要性仍然具有挑战性。此外,噪声处理也仍未得到优化。考虑到现实世界中的数据大多是非线性的,因此核聚类以及多核聚类在数据挖掘和模式识别中具有广泛的应用。本论文的目的是利用多核和自适应邻居以及集成学习来提高聚类性能。
本论文首先概述研究的背景和聚类的应用领域,接着讨论了研究现状。在当前的整个研究中,数据聚类分析已经取得了重大进展。本文针对进一步改善谱聚类方法性能问题,提出三种新颖的方法:一种是度量谱聚类自适应相似度的多核方法;一种是在双核空间中具有自适应相似度度量的共同正则化可鉴别的谱聚类方法;以及一种基于鲁棒的可鉴别的多核谱聚类集成方法。论文的主要内容如下:
(1)本文提出了一种用于度量谱聚类自适应相似度的多核方法。基于多核空间的自适应邻域,该方法学习数据点间的相似性。在数据中具有更精确的自适应相似度度量的核会自动获取更大的权重,从而获得了一个能真正反映数据点内部结构的最佳核。基于组合核的局部结构,该方法将自适应的、最佳的邻居分配给每个数据点。所获得的组合相似度度量是稀疏的,并且是通过各种核的加权和得到组合核。在本方法中,考虑到相似度度量和数据聚类在两个单独的步骤中进行会导致次优结果,因此,数据相似度矩阵和聚类结构采用同时学习。所提出的方法能够搜索数据点之间的潜在相似关系,并且对复杂数据具有鲁棒性。与其他的最新方法进行了实验对比分析,表明该方法具有更好的聚类性能。
(2)提出了双核空间中的共同正则化的可鉴别谱聚类方法。针对过去很多基于谱聚类的研究都没有考虑数据集的全局可判别结构问题,本方法方法考虑了保留全局几何信息和全局可判别信息进行优化聚类。同样,尽管以往的研究已经表明:在聚类中使用多核比使用单核可以获得更准确的聚类,但是关于谱聚类使用多核的优点尚未得到充分利用。同时,与单核方法相比,多核方法往往更耗时。为了提高谱聚类准确性又具有较快处理速度,该方法使用两个异构核将全局可鉴别项集成到具有自适应邻近框架中,在两个核视图之间寻找一致的聚类,以检测数据集固有的非线性几何信息。同时使用K-means改进的拉普拉斯算子获得标识矩阵执行聚类。实验结果表明:该方法有效提高了数据聚类性能,并且具有一定的抗噪能力和较快的处理速度。
(3)提出了一种鲁棒的基于可鉴别的多核谱聚类集成方法。通常,真实数据包括损坏的部分,这些损坏的部分使得学习到的图不准确或不可信。为了进一步改善聚类性能和抗噪能力,基于图学习方案,该方法将可鉴别的多核谱聚类进行集成,通过自适应地去除原始数据中的噪音和错误,从现实世界的噪声数据中学习可靠的图,将可鉴别性纳入到基于纯净数据构建的相似度图中,通过将数据集的非线性特征空间投影到高维空间,自适应地学习这些空间中的每个数据点的最佳近邻。同时在多核空间(RDSC-MK)中,将多个可鉴别的核谱聚类方法进行相互约束集成。在大量合成和真实的数据集上与相关方法进行了实验比较,结果表明:该方法数据分类准确率更高,抗噪能力更好。
本论文首先概述研究的背景和聚类的应用领域,接着讨论了研究现状。在当前的整个研究中,数据聚类分析已经取得了重大进展。本文针对进一步改善谱聚类方法性能问题,提出三种新颖的方法:一种是度量谱聚类自适应相似度的多核方法;一种是在双核空间中具有自适应相似度度量的共同正则化可鉴别的谱聚类方法;以及一种基于鲁棒的可鉴别的多核谱聚类集成方法。论文的主要内容如下:
(1)本文提出了一种用于度量谱聚类自适应相似度的多核方法。基于多核空间的自适应邻域,该方法学习数据点间的相似性。在数据中具有更精确的自适应相似度度量的核会自动获取更大的权重,从而获得了一个能真正反映数据点内部结构的最佳核。基于组合核的局部结构,该方法将自适应的、最佳的邻居分配给每个数据点。所获得的组合相似度度量是稀疏的,并且是通过各种核的加权和得到组合核。在本方法中,考虑到相似度度量和数据聚类在两个单独的步骤中进行会导致次优结果,因此,数据相似度矩阵和聚类结构采用同时学习。所提出的方法能够搜索数据点之间的潜在相似关系,并且对复杂数据具有鲁棒性。与其他的最新方法进行了实验对比分析,表明该方法具有更好的聚类性能。
(2)提出了双核空间中的共同正则化的可鉴别谱聚类方法。针对过去很多基于谱聚类的研究都没有考虑数据集的全局可判别结构问题,本方法方法考虑了保留全局几何信息和全局可判别信息进行优化聚类。同样,尽管以往的研究已经表明:在聚类中使用多核比使用单核可以获得更准确的聚类,但是关于谱聚类使用多核的优点尚未得到充分利用。同时,与单核方法相比,多核方法往往更耗时。为了提高谱聚类准确性又具有较快处理速度,该方法使用两个异构核将全局可鉴别项集成到具有自适应邻近框架中,在两个核视图之间寻找一致的聚类,以检测数据集固有的非线性几何信息。同时使用K-means改进的拉普拉斯算子获得标识矩阵执行聚类。实验结果表明:该方法有效提高了数据聚类性能,并且具有一定的抗噪能力和较快的处理速度。
(3)提出了一种鲁棒的基于可鉴别的多核谱聚类集成方法。通常,真实数据包括损坏的部分,这些损坏的部分使得学习到的图不准确或不可信。为了进一步改善聚类性能和抗噪能力,基于图学习方案,该方法将可鉴别的多核谱聚类进行集成,通过自适应地去除原始数据中的噪音和错误,从现实世界的噪声数据中学习可靠的图,将可鉴别性纳入到基于纯净数据构建的相似度图中,通过将数据集的非线性特征空间投影到高维空间,自适应地学习这些空间中的每个数据点的最佳近邻。同时在多核空间(RDSC-MK)中,将多个可鉴别的核谱聚类方法进行相互约束集成。在大量合成和真实的数据集上与相关方法进行了实验比较,结果表明:该方法数据分类准确率更高,抗噪能力更好。