基于Spark的动态聚类算法研究

来源 :计算机科学与应用 | 被引量 : 0次 | 上传用户:second5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据流的聚类算法,近年来取得了有效的进展,出现了许多卓有成效的算法。随着信息采集技术的进步,需要处理的数据量越来越大,需要研究针对数据流的并行聚类算法。本文基于串行的数据流聚类算法D-Stream作出并行化改进,用通用的大数据处理框架Spark设计了一个基于分布式架构运行的动态数据聚类算法PDStream。实验结果表明,该算法具有更高的效率和良好的扩展性,能够实现分布式架构下的流数据动态聚类。
其他文献
决策树分类器,是一种基于实例的分类算法,广泛被应用于人工智能领域。ID3算法是最为经典的决策树建树算法,它通过递归和逐次挑选信息量最多的属性来构造决策树。决策树的结构
公路环保关联性设计(Context Sensitive Design)强调多学科联合设计,综合考虑生态、景观、旅游、文化、经济等各因素,并保证交通安全、通畅。这与我国公路设计新理念的精髓一致
目前预测股票价格大多都基于单支股票的历史价格数据,并试图找出其股价变化规律,训练出可预测价格的模型。但实际股票价格的波动会受众多社会实时因素和投资者行为的影响,因
为了提高有限元建模效率,基于NX的CAD/CAE设计分析一体化的优势,将CAD船舶模型快速高效地转换为可用来划分网格的CAE模型,提出基于NX的船舶CAD/CAE模型预处理设计方案,测试表
涉法涉诉信访改革以来,内蒙古自治区检察机关的信访总量持续高位运行,且呈现"倒三角"现象。2014年以来,内蒙古检察机关每年的信访总量均超过公安机关与法院的总和,自治区检察
电子商务的发展为物流行业的发展带来的发展机遇,并扩宽了未来的发展空间,满足当前时代的需求。但在实际的发展过程中,受行业自身的性质影响,还存在许多发展问题,例如,建设成
摘要:新课程实践与科学发展观启示我们,要以学生为本,优化语文知识的呈现方式,开展丰富的语文实践活动,用大语文的教育资源滋润我们的语文教学,构建生动和谐的语文教学,让学生乐学、爱学,成为一个丰富语文素养、善于交际的现代文明人。  关键词:以生为本;优化方式;开展实践;挖掘资源    教学是一种由教师的教授与学生的学习构成的双边活动过程。“教”与“学”是一对矛盾结合体,既对立又统一,双方都不可缺少。不
目的探讨尿白细胞酯酶在诊断老年尿路结石患者合并尿路感染中的临床价值。方法选取2011年7月至2014年7月该院288例老年(≥60岁)尿路结石疑似尿路感染患者为实验组,同时选取126
从1991年至2011年的20年间,公司员工从3,300人增加至45,000人,年收入从3.87亿美元增长至80亿美元;在2012年《ENR》杂志评选出的全球150强设计咨询顾问公司中排名第一,国际200强设计
报纸
为了解决室外环境中由于光照不均或者大雾天气下,草地图像模糊不清,不能有效的识别和提取草地图像重要信息的问题,本文提出一种专门针对草地图像的图像增强算法。本文基于传