基于Spark平台的大数据聚类算法研究及其应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yuhmmmmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息社会高速发展的现状下,我国同样紧跟世界的步伐,迅速发展,在这样的高速度发展状态下,无疑会产生海量数据,数据的分类也是无法避免其杂乱无章,对于海量数据的整理归类需求急剧增加。在这样的背景下,就产生了如下两个问题,第一个问题是传统的聚类算法已经无法满足如今数据复杂度的需求,对算法的优化改进或者提出新的算法迫在眉睫。第二个问题是单台机器的硬件配置瓶颈已经无法满足对海量数据的处理。那么集群模式的分布式平台在大数据处理方面逐步替代传统的单机服务器。特别是基于内存的Spark分布式计算框架的出现,让绝大部分的海量数据的处理问题迎刃而解。本文针对聚类算法BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)进行优化改进,并实现其在Spark分布式计算框架上的并行运行。对BIRCH算法的分析改善,本文完成的主要工作内容如下:(1)针对海量数据先进行汇聚预处理,具体的操作是对数据进行压缩,减少数据量,减轻海量数据处理压力。在压缩之前,备份原始数据,谨防丢失。(2)针对BIRCH算法输入数据顺序敏感性的特点,本文首先使用K-means算法将数据进行粗略的聚类操作,簇的个数比较少,阈值参数比较大,目的就是快速给出k个簇。针对k个簇进行全排列操作,最后根据排列数的大小选取全部或部分排列进行下一步的聚类操作。(3)在BIRCH聚类算法的基础之上进行改进,使之能够在Spark平台并行化运行,本文在改进方法中引入K-means算法,BIRCH算法在集群中每个节点都形成聚类特征树,然后利用K-means算法实现并行性,从而让BIRCH算法能够在Spark平台并行化运行。通过实验,本文对聚类算法的改进在性能上有一定的提升,并且在移动GPS数据的分析上给出了一定的展示,对人口密集度的划分和区域高峰时间给出了良好的分析结果。本文的优化算法在系统的应用方面提高了分析计算的效率。
其他文献
近年来,于立法和执法及司法实务中商标使用在案件事实考量中权重不断加大的趋势相协调,商标撤销3年不使用商标制度也受到了更多的关注。在商标审理标准中,确立了以“公开真实合
报纸
工程教育认证对于非织造材料与工程专业人才的培养具有积极的意义,"非织造学"是非织造材料与工程专业的专业基础必修课程,基于工程认证标准的"非织造学"课程建设是培养非织造
目的探讨急性脑梗死后认知障碍的特点及相关因素分析。方法回顾性分析2018年7月至2019年5月就诊于本院的神经内科的98例急性脑梗死患者的人口学资料,根据测得的MMSE评分将其
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的 探讨妇科下腹部切口不同部位持续灌注罗哌卡因对术后镇痛效果的影响.方法 选取就诊于西北妇女儿童医院妇二科拟行经腹手术的70例患者,根据电脑随机数字法将其分为鞘膜上
在涉及我国现行商标法第三十条适用的商标授权确权行政案件中,面对引证商标的在先障碍,除对近似商标和类似商品的认定表示异议外,商标申请人还会采取其他的一些策略。例如,以引证
报纸
目的探讨更年期妇女血管舒缩失调的影响因素,为建立有效的预防控制措施提供依据。方法采用病例对照研究方法 ,对45~5岁的124名血管舒缩失调病例及100名健康对照妇女运用非条件
设计了S3C2440A和ADS1256基于SPI的接口电路,阐述了嵌入式Linux2.6.32.2下ADS1256驱动程序的开发、编译和加载过程,编写了相应的驱动程序和采集系统的测试程序。该驱动在气密
产品设计过程中会遇到以图像形式给出的轮廓,在数控加工时也必须给出廓线的一系列坐标值。在此提出一种采用人机交互的方式,用若干段贝塞尔曲线逼近图像给出的廓线,实现从图像到CAD/CAM系统可以直接利用的坐标数据生成的方法。
介绍了柑橘疫霉病的发病症状及发病特点,调查其发病率,分析了其暴发的原因,并提出了柑橘疫霉病的综合防治措施,以供参考。