面向大规模数据集的谱聚类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:jyyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,人类收集数据的能力大幅度提高,各个行业都已经或正在积累大量的数据,人们需要对这些数据进行分析推理获取有意义的信息,而聚类分析研究上取得好的成果,对于数据分析推理具有重要的意义。谱聚类方法是众多聚类分析方法中的一支独秀,是聚类分析相关领域的一个研究热点。谱聚类方法能在任意形状的样本空间上聚类,且收敛于全局最优解。谱聚类方法能够揭示数据的低维的非线性特性,可以用于各种对象的降维,在降维的同时也将这些对象嵌入到欧式空间,所以谱聚类方法可以执行各种数据的聚类。但是,谱聚类方法的计算复杂度过高,故谱聚类方法的诸多优点只适合小数据集,面向大规模数据集的谱聚类方法研究并不多。当今,很多行业积累的数据量都非常庞大,为了获取大规模数据集更好的聚类分析成果,使得数据分析推理更精确、更有效,研究面向大规模数据集的谱聚类方法是必要的。首先,针对大规模数值型数据集的谱聚类,其Laplacian矩阵特征分解的时间复杂度及空间复杂度过高,受增量协方差无关方法计算主成分思想的启发,提出一种快速计算Laplacian矩阵的前k个最小特征向量的方法。该方法构建两个对称半正定矩阵,使其前k个最大特征向量与Laplacian矩阵的前k个最小特征向量相同,通过循环输入构建矩阵的列向量,增量方法计算出Laplacian矩阵的前k个最小特征向量。该方法所用空间为n量级,特征分解时间复杂度为线性时间,有效解决了谱聚类中Laplacian矩阵特征分解的问题。实验证明该方法能够快速特征分解Laplacian矩阵。其次,针对这样一类大规模混合型数据集,随着时间的推移,样本数量呈爆炸式增长,而样本的属性空间变化则逐渐趋于固定范围,提出一种基于准超图像映射的谱聚类方法,有效解决了这类混合型数据集的划分问题。量化数据集的每个属性,由每个属性的量化份数确定准超图像的每个维的尺寸,根据量化公式将大规模数据集映射到准超图像,并确定像素相似度函数。使用谱聚类方法划分准超图像,则能够获得数据集的全局分布情况。数据集到准超图像的映射计算是线性的,准超图像的像素规模已经很小,采用谱聚类所用时间也会很少,而通过映射极大地减小了数据的存储空间,故该方法满足时间和存储的要求。实验结果表明,该方法能够迅速处理此类大规模混合型数据集的划分问题,同时获得数据的全局分布情况。再次,针对大规模异构信息网络的结构特点,利用异构信息网络的稀疏性,提出一种基于嵌入技术的异构信息网络的快速谱聚类方法。从相容的角度将异构信息网络转化为若干个相容的二部图,使用随机映射和一种线性时间求解程序快速计算出每个二部图的近似commute time嵌入,每个嵌入都存在一个子集指示目标数据集,也就是目标数据集同时被多个指示子集所指示。使用这些指示子集构建一个通用的聚类模型,将所有指示子集的类设置标号,通过计算指示同一目标对象的指示数据与标号相同类的中心点的加权距离总和,同时划分所有的指示子集,从而快速获得通用模型的极小值。实验结果表明,该方法聚类准确率高,聚类速度快,能够有效处理异构信息网络的划分问题。最后,针对动态异构信息网络划分问题,利用异构信息网络的稀疏性,提出一种解决星型模式的动态异构信息网络的演化谱聚类方法。从相容的角度将异构信息网络转化为若干个相容的二部图。时间平滑每个二部图结点间的关系,使得时间平滑二部图能够充分表达某时刻及先前时间结点间的关系。稀疏化时间平滑二部图,由随机映射和一种线性时间的求解程序快速计算出每个时间平滑二部图的近似commute time嵌入,获得指示目标数据集的多个指示子集。计算指示同一个目标对象的所有指示数据与标号相同类的中心点的加权距离总和,由加权距离总和确定目标对象所属的类。实验表明该方法划分动态异构信息网络的准确率高于以往的动态异构信息网络聚类方法,计算速度也比较快。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
协同过滤推荐系统被广泛地应用到电子商务网站等诸多领域,可以有效解决“信息超载”问题。但是,一些恶意用户蓄意伪造虚假用户评分来干扰系统的决策推荐过程,企图使系统产生
在信号分析理论的研究中,人们总是希望能够用最“经济”的方式来表达信号。稀疏表示方法作为一种新兴的信号表示方法,有效的实现了这一目的。所谓“稀疏”,即是绝大多数的表
本论文分析了当前中国企业家队伍的成长现状,指出对企业家资源需求的不均衡、非生产性配置和政府政策的不均衡所导致的企业家经营管理活动效率不高是目前企业家队伍成长过程
[摘要] 随着集团企业规模、地域范围扩大,一套行之有效的管理方法的应用就显得非常重要,如何最大限度地利用集团企业的现有资源取得更大的经济效益,科学、合理地管理集团企业的人、才、物、供、产、销六要素的发挥就迫在眉捷,ERP先进管理理念和方法的应用正好解决了此项问题。但是,在ERP的应用中人们只重视其实施过程的技术要素,往往忽略的ERP的生存要素,使得ERP存在着“不上也死”“上了等死”的局面。本文从
当前,我国经济增速放缓,房地产行业也无可避免的面临着下行的危机,目前我国房地产企业自身也存在一定的问题,成本管理落后、人员素质不高、开发成本攀升,盈利空间越来越小,竞
[摘要] 随着组织中知识型员工越来越多,员工行为也越来越复杂和难以预测,这增加了组织内部环境的不确定性风险,使得传统的管理方式面临严峻的挑战。本文从组织和谐管理和博弈论的视角审视了人与组织之间的互动,分析了组织内部的不确定风险因素,讨论了达成组织和谐管理的条件,并在此基础上探讨了组织中管理者如何通过信息的反馈以及管理途径的调整,促使组织中的个体行为最终与组织目标相一致,达到和谐的问题。  [关键词
2010年3月3日下午3时18分,三一集团总裁唐修国先生隆重宣布:SAC303——中国首台千吨级全地面起重机在长沙三一起重机新产业园正式下线。中国工程机械工业协会、国家工程机械质
党的十九大报告首次把党的政治建设列入党的建设总体布局,并将其“摆在首位”,强调以党的政治建设为统领。从“四个意识”的角度来说,政治意识是加强党的政治建设的本质内涵
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield