基于Spark的大规模文本k-means并行聚类算法

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:vctlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意.本文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求.实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。
其他文献
LNG加气机是将LNG加气站液化后的天然气加注到LNG汽车的设备,设备主要由 LNG 质量流量计、管路系统、电脑控制系统三部分组成。质量流量计是LNG加气机的关键设备,其计量稳定性
涡轮流量传感器是一种精密流量测量仪表,与相应的流量积算仪表配套可同于测量液体的流量和总量,用于广泛。涡轮流量传感器叶片角度对其性能有很大影响,改善传感器特性需要采用
FT011浮子流量计是AP1000回路中使用的一种水平安装的流量测量装置.由于管道走向不确定,流量计的安装方位也是随机的,从而造成流量计所承受的地震及接管载荷的作用方向也存在
电化学气体传感器,采用三电极体系,将工作电极恒定在选定的电位下,使被测气体在该电极上产生氧化还原电流.该电流与被测气体浓度成正比,故可以定量检测,在低浓度气体的检测中
电化学及电致化学发光生物传感器具有快速、灵敏、选择性高、操作简便等优点,是目前生物技术研究最为活跃的领域之一.近年来科研人员利用酶和功能化纳米材料,结合多种构建方
  MicroRNAs (miRNAs) play important roles in a wide range of biological processes,and their aberrant expressions are associated with various diseases.Here,we
大数据集成是提供高质量数据进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间
随着大数据的到来,数据流处理技术又成为了新的研究热点.为此本文回顾了近期提出的面向大数据的流处理技术的现状,并且从流处理模型上对这些技术进行了划分,重点分析了面向大
大数据(Big data)技术的普遍应用正在改变着传统的信息安全体系,因此需要设计新的信息安全模型和新的信息安全处理方法来面对新型信息安全挑战.本文从"端"、"管"、"云"三个层
随着社交网络、知识图谱等图应用的不断发展,对亿万个顶点级别大规模图的处理能力的需求愈加迫切,这是当前海量数据处理领域的研究和开发热点.但是,目前并没有一个全面的评估