基于Spark的大规模文本k-means并行聚类算法

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:tq08eb0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意.本文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求.实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。
其他文献
ITU-TSG15(传送网、系统和设备)于1998年10月12日~23日在瑞士日内瓦ITU总部召开了(1997~2000年)研究期第3次会议。参加会议的有来自30个国家的23个电信主管部门、26个认可的电信运营
在Hadoop系统中,大规模数据分析应用程序的数据本地性是影响其性能的关键因素.传统的Hadoop系统是部署在物理机中的,目前针对传统Hadoop系统提高数据本地性的资源调度方法在
会议
特征融合是提高三维模型检索有效性的一种重要手段,越来越受到广泛关注.为解决融合特征权重的自适应问题,提出了一种基于信息熵加权的三维模型多特征融合算法,以提升检索效果
会议
探讨S100A6蛋白对细胞中β-catenin水平的影响及可能机制。用表达S100A6及其siRNA的重组腺病毒AdS100A6和AdsiS100A6处理人骨肉瘤细胞系143B,Western blot分析处理前后细胞中
在大数据处理系统中,系统对数据处理效率、安全、稳定性有非常高的要求.为了满足对大数据实时、高效、稳定处理的需求,文章提出了一种接收与处理分离的数据处理模型,数据处理
会议
使匈奴中郎将在东汉皇朝与匈奴族关系史中,是一个颇为重要的问题。但是,目前尚缺乏系统全面的探讨,本文欲述一管之见,就教于方家。 (一) 使匈奴中郎将是因东汉皇朝与匈奴关
为了弥补从大数据技术到行业应用之间的鸿沟,针对当前行业用户对大数据处理平台的持续扩展、一体化和多样性需求,提出了大数据一体机的可扩展性、可定制性和多类型处理模型,
会议
传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.本文使
会议
本文介绍“衰减”的基本概念,影响“衰减”测量的重要因素,“衰减”测量值与系统反射系数的关系,最后介绍了常用的克服失配与泄漏的方法。 This article introduces the basic
在推荐系统领域中,针对数据集稀疏性问题的研究大都建立在静态数据集的基础上,而实际工业应用中的数据集则往往是动态的并且具有以下两个明显的特征:1)User-Item矩阵维度逐渐
会议