基于Spark的若干数据挖掘技术研究

被引量 : 0次 | 上传用户：dengjuanjuan8288

【摘要】

：

随着大数据概念的火热兴起,分布式框架和并行化计算方法得到迅猛的发展。大数据带来的是数据量的增长和计算复杂度的增加,传统的数据挖掘处理方式已经捉襟见肘。如何快速、准

【作者】

：

宁永恒

【发表日期】

：

2015年期

【关键词】

：

大数据分布式 Spark 数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据概念的火热兴起,分布式框架和并行化计算方法得到迅猛的发展。大数据带来的是数据量的增长和计算复杂度的增加,传统的数据挖掘处理方式已经捉襟见肘。如何快速、准确的实现大数据挖掘任务,成为当下研究的热点。相对于传统流程不能解决海量数据的挖掘和近年来流行的Hadoop平台处理数据挖掘任务效率低下的状况,大数据平台Spark基于内存计算、灵活性高、通用性强,对数据挖掘算法的实现有着无与伦比的优势。本文围绕大数据平台Spark和数据挖掘两个概念,对Spark上的数据挖掘算法进行了研究、优化、增加,同时在实际应用中做出了准确性、吞吐量、处理速度的测试,证明了工作的有效性。论文的主要工作如下:设计了关联规则算法在Spark上的实现结构,同时将Apriori算法在Spark平台上实现。针对Spark与Apriori算法的特性对Apriori算法进行多次优化,使算法在数据量巨大的情况下并发计算执行,在较短时间内得到正确结果。并将算法在实际中应用,吞吐量和处理时间性能测试,证明了算法实现的有效性。研究了分类算法在Spark上的实现结构,将朴素贝叶斯分类算法做相应改进,设计其在Spark Streaming上的实现过程,实现了流数据的实时分类问题。最后在垃圾短信分类中测试了算法的有效性。研究了Spark算法库Mllib中存在的聚类算法k-means,并根据k-means实现原理对其只能识别大小相近、凸形簇的缺陷做针对性改进,使k-means算法能够识别大小相差较大簇的问题,同时,将改进后的算法在Spark上实现,最后使消费人群的聚类问题得到了更好的聚类结果。

其他文献

河南省农村社区居家养老服务标准研究

<正>目前我国已经进入老龄化社会,养老成为不容忽略的社会问题。对于河南省来说,农村中有为数众多的老年人,并且不乏年龄较大的老年人,而且伴随着我国城镇化进程的推进,农村

期刊

社区居家养老服务养老服务机构农村老年人河南省标准研究

CT引导下气管前腔静脉后间隙病变穿刺活检术的应用价值

目的:探讨CT引导下气管前腔静脉后间隙病变穿刺活检术的应用价值.方法:选择2016年3月至2018年3月本院行CT引导下气管前腔静脉后间隙病变穿刺活检术患者52例的资料进行分析,通

期刊

CT引导气管前腔静脉后间隙病变穿刺活检术

莫奈油画中的东方元素

<正>在1867年世界博览会上,当莫奈第一次看到具有东方情调的浮世绘时,曾经兴奋异常地写道:"他们以精辟的趣味时时叫我喜欢,我赞同他们美学原则中的暗示,它利用一个阴影引起实

期刊

日本浮世绘浮世绘版画重叠透视法印象派画家安藤广重版画家东方元素东方绘画

玻璃转子流量计检定前调与后调流量的对比分析

<正>在实际工作中,由于工作习惯或是其他原因,不少人采用前调气体的流量来检定玻璃转子流量计。在检定中对气体流量的调节,前调和后调都能起到调节流

期刊

钟罩式气体流量标准装置标准状态二氧化碳示值误差玻璃转子流量计检定点示值相对误差

论句子的功能

期刊

疑问句第二人称祈使句感叹句陈述句命令式

基于紫外吸收光谱技术的混合气体SO2和H2S浓度的实时监测

采用紫外波段吸收光谱检测技术,实现了SO2和H2S混合气体各组分浓度的实时监测。在实验中选用氘灯为测试光源,MAYA2000Pro光谱仪用于采集数据。基于光谱的峰谷特性,选择吸收光

期刊

大气光学SO2气体H2S气体吸收光谱光谱技术

长株潭城市群交通低碳转型的发展路径

"五位一体"的总体布局将生态文明建设提到前所未有的战略高度,低碳发展、绿色发展已成为区域要求和全民共识。现实表明,交通运输部门的碳排放量仅次于工业部门,是导致全球变

期刊

城市交通低碳转型发展路径

液体在不均质双层油层中不稳定一维渗流问题

液体在不均质双层油层中的不稳定渗流问题可以化为解抛物线型微分方程组。本文用Laplace变换解所提问题,得出了一系列解答。这些解答所阐明的不均质双层油层中压力分布的一些

期刊

不稳定渗流渗透率一维渗流

中国特色社会主义制度自我完善能力的内在逻辑探析

经过改革开放30多年的实践探索,中国特色社会主义制度已经内化生成出强大的自我完善能力。具备良性的路径依赖是中国特色社会主义制度能自我完善、自我优化的关键所在,其路径

期刊

中国特色社会主义制度自我完善能力路径依赖制度开发

2011年世界纪录片发展研究报告

2011年,世界纪录片"大片化"趋势增加,联合制作更为普遍。不同体制带来资金构成的差异及制作模式的不同选择,而纪录片内容也呈现出异彩纷呈的特质。我们如何进入全球化产业运

期刊

KBS电视频道NHK频道定位

基于Spark的若干数据挖掘技术研究

其他学术论文