基于Spark平台的K-Means++算法的研究及其应用

来源 :南昌大学 | 被引量 : 0次 | 上传用户:dfhdgfhdgf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对大数据时代产生的海量数据进行标注的成本过于高昂,聚类分析作为一种无监督学习方法,能够对海量的无标签数据进行挖掘,发现数据中蕴含的规律。K-Means算法是聚类分析中的代表性算法,具有简单,速度快,良好的伸缩性等优点。但是,其存在聚类数目K需要人工指定,性能依赖于初始聚类中心的选择等问题。针对这些不足,提出改进K-Means算法来提高聚类质量,并利用Spark云计算框架进行并行处理提升算法的并行计算性能。主要研究及改进工作如下:本文提出了Spark-based Parallel Improved K-Means(SPIK-Means)算法。第一,针对K-Means算法中K值的主观性和初始簇中心的随机选择使得簇类结果不稳定并且容易陷入局部最小值的问题,提出一种改进K-Means算法用来提升算法运行效率。利用简化轮廓系数确定合适的K值,使用K-Means++算法选择出合适的K个初始簇中心,并将形态学相似距离MSD作为相似性度量方法。在UCI标准数据集上的仿真实验表明,改进后的K-Means算法在运行时间和准确度上都优于K-Means++算法和Spark-based Kd-Tree K-Means(SKDKMeans)算法。第二,改进K-Means算法在计算距离时比较费时,并且随着样本点数量的增加计算量随之增大,导致运行时间过长。为了解决该问题,改进算法结合了Apache Spark云计算框架提出了SPIK-Means算法,通过不同节点数和不同数据集间运行时间上的对比实验,结果表明SPIK-Means算法在集群环境下能保持良好的并行计算性能,有效提升执行效率。第三,利用提出的SPIK-Means算法对遥感图像数据进行了分类实验。通过SPIK-Means算法与K-Means++算法在并行环境下对遥感图像分类实验的效果对比,本文从总体精度和Kappa系数两个方面进行了总结。结果表明,SPIK-Means算法比K-Means++算法在遥感图像分类上更准确,性能更好。
其他文献
结合大学教学目标和学生对知识需求的多样性特点对基础会计的实践教学目标、进行分析,并就实践教学的内容、环节、组织方式和考核办法等具体方案进行设计,以便能收到较好的教
旅游人力资源是旅游业发展的核心竞争力构成的主体。作者对南疆旅游人力资源现状进行了详尽的分析,指出了其存在的问题,提出了全方位提高南疆旅游人力资源素质的具体对策。
明智的金融投资者皆知,衰退市场提供了大量的投资良机,在股票急剧下滑的时候,很多恐慌的投资者为安全起见放弃了手中股票。殊不知,正是在这日益衰退的时候买入优质股票,他日
<正>~~
期刊
石涛对我国山水画的影响之深远毋须多言,其人游历广博,画风自开一家,古往今来对其研究分析的不乏其人,本文从《石涛话语录》入手,以一点拙见试析其理论体系中的"一画论",分析
我国刑法中存在一些将帮助犯、教唆犯拟制为正犯的规定,对于这种立法模式的正当性与否,学界存在肯定说与否定说之分。过多的规定拟制的正犯会破坏刑法总则与分则的体系一致性,有
以2011~2017年信息技术行业上市公司为样本,以企业绩效为被解释变量,研发人员占比和研发密度为解释变量,研究技术创新对企业绩效的影响;以公司治理的股东制度、董事会结构、
乡村基础教育作为培养乡村建设人才的最有效的途径,在城市文明的主导下却已然离乡村本身越来越远。对于乡村基础教育,必须将其置于现代化的视野中重新审视,既要保留乡土特色,
选取2种类型水稻土(黄泥土和红泥土)和9个水稻品种,通过温室盆栽试验,研究Pb(250 mg/kg)、Hg(0.6 mg/kg)污染条件下,水稻品种对水稻Pb、Hg耐性和富集能力的影响。结果表明,Pb污染处
分享经济的发展,可通过“互联网+”成果与经济社会领域的融合,增加地区经济潜能,同时优化地区需求结构,提升其总供给能力。因此,在我国经济社会进入到新常态背景后,河南省经济社会