面向海量数据的并行KMeans算法

来源 :华中科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户:lslandgp1972
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.
其他文献
以两种不同型号的大功率白光LED为研究对象,通过热阻法和正向压降法综合测量LED的结温,利用荧光光度计测量LED光谱,研究大功率白光LED的结温与光谱之间的关系。结果发现对于
本论文包括文献综述和临床研究两个部分。文献综述共2篇,第一篇为西医综述,回顾了西医对手足综合征的认识及防治研究进展,包括引起手足综合征的常见化疗药物、卡培他滨的临床
[目的]测试国内护理本科生批判性思维水平。[方法]应用WGCTA量表和CCTDI量表的中文译文,对国内4所护理学院的160名本科生进行测试。[结果]护理本科生批判性思维的认知技能由
随着我国人才战略的实施,如何适应新时期国家经济与社会发展对各个层次人才的需要,这是摆在我们面前的重要任务,而党管人才无疑是做好人才工作的根本保证。从党管人才的重要
目的了解优质护理服务模式下护士和患者对良性护患关系的认知差异性,为改善管理对策提供依据。方法采用自设问卷调查法,调查内容为护患关系的重要性、当前护患关系性质、对未
随着现代空间光学技术的发展,超精密、大口径、复杂面型的光学元件在光学系统中被广泛应用。计算机控制光学表面成型技术、应力盘加工技术、气囊抛光技术、磁流变抛光技术、
本文主要讨论河南孟州方言中的一种反事实虚拟句"忘了+S"。该虚拟句中"忘了"属于主句现象,"忘了+S"的句法主语只能是第一人称代词和第二人称代词复数;典型形式"忘了+否定式"
<正> 一、流行性腮腺炎的近况流行性腮腺炎(简称流腮)是个全球性流行的小儿常见呼吸道传染病,国外60年代前发病率很高,美国报道约达250/10万。自1968年美国开展流腮疫苗接种
繁殖性状是绵羊的重要经济性状,而繁殖性状是受多基因控制的,遗传力低,传统的选择方法对其遗传进展的改良非常缓慢,培育新的高繁殖率品种是相当繁琐甚至是非常难实现的。小尾
会议