布谷鸟搜索改进的K-means聚类算法及其并行化实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yzahnig621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的迅速发展,数据量呈爆发式增长,海量数据的高效处理和利用成为当前社会面临的最艰巨任务之一;同时如何高效率、低成本、准确地从现有的海量数据中挖掘出潜在、有用的知识是数据挖掘领域研究面临的一大难题。以K-means算法为代表的聚类分析是数据挖掘领域最重要的研究方向之一,K-means是一种典型的基于划分方法的聚类算法,具有思路简单、收敛速度快、时间复杂度近似于线性等特点,较适合应用于海量数据的聚类;群体仿生优化算法能够利用群体优势、并行搜索,以全局寻优的方式快速获得优化问题最优解,被认为是目前处理K-means聚类优化问题最行之有效的方法。当前已有很多学者基于多种不同的群体仿生智能算法对K-means聚类算法进行优化,但现有的K-means聚类改进算法还存在以下两个问题需进一步完善:(1)聚类过程中的全局寻优能力不够突出,容易陷入局部最优;(2)在数据量较大时的聚类效率不高,没有充分利用服务器集群优势。作者所做的主要工作包括:(1)提出一种新型元启发式基于仿生行为的改进的布谷鸟搜索算法(Quantum-based Adaptive Cuckoo Search,QACS),解决了原始布谷鸟算法搜索步长的自适应性问题,并引入量子运算使该算法的搜索方向具有一定的倾向性。(2)针对K-means聚类算法易陷入局部最优的问题,将新算法QACS与K-means聚类算法相结合,提出了一种新的串行K-means聚类算法(K-means clustering algorithm based on QACS,QACS-KMeans),提高了K-means聚类算法的全局搜索能力;(3)针对K-means聚类算法在处理较大数据量时效率较低的问题,利用Hadoop分布式平台的MapReduce编程模型实现了对新算法QACS-KMeans的并行化处理。通过在虚拟机中搭建的Hadoop伪分布式集群对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:(1)并行QACS-KMeans新算法聚类的平均准确率在实验所采用的6种UCI标准数据集上,相比原始K-means聚类算法、利用粒子群优化算法(Particle Swarm Optimization,PSO)改进的K-means聚类算法和自适应布谷鸟搜索(Adaptive Cuckoo Search,ACS)改进的K-means聚类算法都有所提高;(2)并行QACS-KMeans新算法聚类的平均运行效率在实验所采用的5种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于并行PSO-Kmeans算法和并行ACS-KMeans算法。实验结果表明,当数据量较大并且维数较低时,利用并行QACS-KMeans算法的聚类效果较好。
其他文献
本文通过对企业财务风险分散机制及不同企业所具有的风险分散功能的分析,提出了企业风险分散机制选择的思路。
目的:1.描述老年2型糖尿病患者智谋、心理痛苦和生存质量的现状;2.探讨老年2型糖尿病患者智谋、心理痛苦和生存质量的影响因素;3.综合分析老年2型糖尿病患者智谋的影响因素。方法:本次研究属于横断面调查研究。采用一般资料调查表、智谋量表(Resourcefulness Scale)、糖尿病痛苦量表(Diabetes Distress Scale)、糖尿病特异生存质量量表(Diabetes Speci
W UMa型相接双星由于其独特的几何构型使得他们很容易发生掩食,这也给我们的观测提供了方便。随着近几十年光电测光和CCD测光技术的应用,为此类双星系统积累了大量的高精度观
用X射线衍射研究了高强度(T系列)与高模量(M系列)聚丙烯腈基碳纤维的微观结构,结果表明两类碳纤维具有不同的结构特征:(1)高模量碳纤维的晶胞尺寸较接近于石墨结构;(2)高模量
<正>作为检察机关的重要监督职权,刑事抗诉对于纠正法院错误裁判,促进公正司法具有重要意义。司法实践中,检察机关是否启动刑事抗诉权,更多地考虑被害人的意见、单位的总体考
<正>刑事一体化思想是储老师标志性的学术成果,博大精深。刑事一体化既是观念也是方法,作为观念它是形而上的,作为方法是形而下的,具有操作性和指导性意义。刑事一体化的思想
放射治疗是宫颈癌临床治疗的重要手段。临床资料显示,IA期宫颈癌患者放疗后5年生存率可达90%以上。然而,宫颈癌的临床放射治疗仍存在一个主要问题:放疗后出现的复发转移。值
通过6英寸直径火箭发动机的静态试车,并用独特的计算机编码进行数据处理,求出了11种不同喷管型面的喷管排出效率和推力效率。确定了具有尖角和大的喉部曲率半径的普通收敛—
朱南孙教授临床主张运用中医传统膏方治疗更年期综合征。更年期综合征中医病机多因天癸竭,肝肾两虚,治则当以补益肝肾、疏理冲任为主,自拟验方朱氏怡情更年汤。其中紫草根、
文章以法国时装品牌Dior为例,介绍了法国Dior品牌服装营销传播方式,探讨了Dior品牌服装营销传播的启示,并思考了新媒体时代下Dior服装营销传播模式创新。