子空间聚类分析新算法及应用研究

来源 :江南大学 | 被引量 : 9次 | 上传用户:huangyqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据普遍存在于各个领域,特别是进入大数据时代,这对于传统聚类算法提出了很大的挑战,子空间聚类算法作为有效的解决高维数据聚类问题的有效算法吸引了研究人员的广泛关注。近来,基于稀疏表示(SR)和低秩表示(LRR)的子空间聚类算法凭借其优良的性能成为新的研究热点。本文也集中研究了基于稀疏表示和低秩表示的子空间聚类算法,对其进行了深入研究分析,提出了相关改进方法,提高了算法在处理具体问题的性能。论文的主要工作如下:1.提出了一种鲁棒的结构约束低秩表示算法(RSLRR)。低秩表示算法在挖掘数据子空间结构方法得到了成功的应用。但是基于低秩表示的算法通常分类分离的两个步骤,第一,通过求解秩最小化构造亲和图;第二,利用谱聚类算法对亲和图进行划分得到最终的分割结果。这表示亲和图的构造和谱聚类是相互依赖的,而传统的基于低秩表示的算法是无法保证最终的结果为全局最优解。论文提出的鲁棒的结构约束低秩表示算法通过将亲和图构造和谱聚类结合在一个统一的优化框架之内,通过联合优化可以同时得到数据聚类结果和数据集的低秩表示结构信息。在多个数据集上的实验证明了该算法的有效性。2.提出了一种基于流形局部约束的低秩表示算法(MLCLRR)。低秩表示算法能够有效的挖掘数据集的低维子空间结构。但是大部分基于低秩表示的算法并没有考虑数据集的非线性几何结构,那么在算法处理过程中会丢失数据集的局部结构信息和相似性信息,而这些信息对数据分析问题也起到重要作用。为了提高低秩表示算法在此问题上的性能,本文提出了一种基于流形局部约束的低秩表示算法,通过在在算法框架中引入数据的局部流形结构,本文提出的算法不仅能够有效保持数据的全局低维子空间结构,同时能够挖掘数据的局部非线性几何结构信息。在不同计算机视觉任务上的实验表明了算法的有效性。3.提出了一种Latent Space结构约束低秩表示算法(Lat RSLRR)。大部分已经提出的基于稀疏表示和低秩表示的子空间聚类算法实在原始空间上对数据集进行处理,当原始数据集的维数较高时,会大大增加算法的时间成本。本文提出了一种基于Latent Space的结构约束低秩表示算法,通过在低维Latent Space中求解数据的低秩表示系数大大提高了计算效率。同时多数低秩表示算法采用数据集本身作为数据字典,当数据集中含有较多噪声和例外点时,会严重影响算法最终性能,本文提出的算法通过利用矩阵恢复技术求解得到的鉴别性字典作为低秩表示的字典。子空间聚类问题上的实验表明了算法的有效性。4.将半监督学习和低秩表示进行了有机的结合,通过将图嵌入学习和稀疏回归方法统一在一个优化框架之中,提出了基于低秩表示的半监督学习算法。目前,大部分基于图的半监督学习算法考虑了数据的局部近邻信息,但是忽略了样本数据的全局结构信息。本文提出的方法通过将数据投影到低维子空间中学习得到低秩权重矩阵,在亲和图的构造过程中充分利用数据集的已标记样本信息。降维过程中,算法能够有效的保留数据集的全局结构信息,并且学习得到的低秩权重矩阵能够有效的降低噪声数据对最终结果的影响。在多个数据集上的实验表明了该算法能够获得较高的分类准确率。5.提出了一种熵加权迁移软子空间聚类算法。为了获得较高的聚类准确率,传统聚类算法通常需要大量历史样本数据的支持,这带来的影响是:如果当前数据采集环境中存在信息丢失或者数据之间的划分关系不明确的情况下,这会导致聚类算法的失效。迁移学习对解决数据样本不足的问题具有很好的效果,通过利用数据集的历史信息,本文提出了一种熵加权的软子空间聚类算法。在多个UCI标准数据集和高维基因表达数据集上的实验表明了算法能够充分利用数据集的历史信息弥补当前数据样本量不足的缺点,提高聚类算法的准确率。
其他文献
对轻基苯基丙酮酸双加氧酶(p-Hydroxyphenylpyruvate Dioxygenase,EC 1.13.11.27,简称HPPD),广泛存在于除少数细菌外的绝大多数需氧生物体内。HPPD参与生物体内酪氨酸和苯丙
本文基于内蒙古自治区1980-2009年数据,建立平均工资与职工人数、GDP、工业总产值、失业人数、社会商品零售价格指数的多元回归模型,并对回归模型进行统计检验。结论显示:GDP
本文选取了中部具有代表性的地区——安徽省阜南县作为研究对象,通过文献研究、数据分析、实地调查等方法系统分析了该地区农业、农村的现状及存在的问题,如:基层干部素质低
《嫌疑人X的献身》是日本推理小说家东野圭吾的代表作之一,因作家的知名度和该作品的追捧热度,中日韩三国皆将其作为改编蓝本搬上银幕,且取得了较好的票房和口碑。影视改编和
本刊2011年第7期刊登了宁波籍茶文化专家竺济法先生《宋僧吴理真是如何成为西汉茶祖的》一文,后四川农大茶学系李家光副教授专门撰文《茶祖吴理真是西汉人》,由我刊编发至201
运用抽样方法进行调查,确定样本规模是一个不可回避的问题。过去人们主要是依据势函数原理,事先规定好抽样估计精度,然后计算样本的大小。本文主要从统计决策的角度讨论样本
在辨别电网故障时各类事件发生的先后顺序中,SOE记录具有重要意义,可以为电网调度运行人员正确处理事故、分析和判断电网故障提供手段。如何正确识别开关抖动信号,保证SOE不
结合临床实践,提出改变恶性肿瘤患者整体阴阳失调的6大法则,即固摄法、调心法、柔肝法、温阳法、通利二便法、以毒攻毒法,通过固摄正气、调理心肝两脏功能、振奋阳气、排除体
果胶酶在果蔬饮料中的应用非常广泛,可以用于果汁的提取、澄清、提高出汁率等方面。
目的采用锥形束CT(CBCT)分析正常青年人下颌管在下颌骨内的三维位置以及下颌骨的形态特征,为临床下颌骨手术提供解剖学依据。方法对29例个别正常进行CBCT扫描,用In Vivo 5软