论文部分内容阅读
高维数据普遍存在于各个领域,特别是进入大数据时代,这对于传统聚类算法提出了很大的挑战,子空间聚类算法作为有效的解决高维数据聚类问题的有效算法吸引了研究人员的广泛关注。近来,基于稀疏表示(SR)和低秩表示(LRR)的子空间聚类算法凭借其优良的性能成为新的研究热点。本文也集中研究了基于稀疏表示和低秩表示的子空间聚类算法,对其进行了深入研究分析,提出了相关改进方法,提高了算法在处理具体问题的性能。论文的主要工作如下:1.提出了一种鲁棒的结构约束低秩表示算法(RSLRR)。低秩表示算法在挖掘数据子空间结构方法得到了成功的应用。但是基于低秩表示的算法通常分类分离的两个步骤,第一,通过求解秩最小化构造亲和图;第二,利用谱聚类算法对亲和图进行划分得到最终的分割结果。这表示亲和图的构造和谱聚类是相互依赖的,而传统的基于低秩表示的算法是无法保证最终的结果为全局最优解。论文提出的鲁棒的结构约束低秩表示算法通过将亲和图构造和谱聚类结合在一个统一的优化框架之内,通过联合优化可以同时得到数据聚类结果和数据集的低秩表示结构信息。在多个数据集上的实验证明了该算法的有效性。2.提出了一种基于流形局部约束的低秩表示算法(MLCLRR)。低秩表示算法能够有效的挖掘数据集的低维子空间结构。但是大部分基于低秩表示的算法并没有考虑数据集的非线性几何结构,那么在算法处理过程中会丢失数据集的局部结构信息和相似性信息,而这些信息对数据分析问题也起到重要作用。为了提高低秩表示算法在此问题上的性能,本文提出了一种基于流形局部约束的低秩表示算法,通过在在算法框架中引入数据的局部流形结构,本文提出的算法不仅能够有效保持数据的全局低维子空间结构,同时能够挖掘数据的局部非线性几何结构信息。在不同计算机视觉任务上的实验表明了算法的有效性。3.提出了一种Latent Space结构约束低秩表示算法(Lat RSLRR)。大部分已经提出的基于稀疏表示和低秩表示的子空间聚类算法实在原始空间上对数据集进行处理,当原始数据集的维数较高时,会大大增加算法的时间成本。本文提出了一种基于Latent Space的结构约束低秩表示算法,通过在低维Latent Space中求解数据的低秩表示系数大大提高了计算效率。同时多数低秩表示算法采用数据集本身作为数据字典,当数据集中含有较多噪声和例外点时,会严重影响算法最终性能,本文提出的算法通过利用矩阵恢复技术求解得到的鉴别性字典作为低秩表示的字典。子空间聚类问题上的实验表明了算法的有效性。4.将半监督学习和低秩表示进行了有机的结合,通过将图嵌入学习和稀疏回归方法统一在一个优化框架之中,提出了基于低秩表示的半监督学习算法。目前,大部分基于图的半监督学习算法考虑了数据的局部近邻信息,但是忽略了样本数据的全局结构信息。本文提出的方法通过将数据投影到低维子空间中学习得到低秩权重矩阵,在亲和图的构造过程中充分利用数据集的已标记样本信息。降维过程中,算法能够有效的保留数据集的全局结构信息,并且学习得到的低秩权重矩阵能够有效的降低噪声数据对最终结果的影响。在多个数据集上的实验表明了该算法能够获得较高的分类准确率。5.提出了一种熵加权迁移软子空间聚类算法。为了获得较高的聚类准确率,传统聚类算法通常需要大量历史样本数据的支持,这带来的影响是:如果当前数据采集环境中存在信息丢失或者数据之间的划分关系不明确的情况下,这会导致聚类算法的失效。迁移学习对解决数据样本不足的问题具有很好的效果,通过利用数据集的历史信息,本文提出了一种熵加权的软子空间聚类算法。在多个UCI标准数据集和高维基因表达数据集上的实验表明了算法能够充分利用数据集的历史信息弥补当前数据样本量不足的缺点,提高聚类算法的准确率。