基于Spark的若干数据挖掘技术研究

被引量 : 0次 | 上传用户:dengjuanjuan8288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据概念的火热兴起,分布式框架和并行化计算方法得到迅猛的发展。大数据带来的是数据量的增长和计算复杂度的增加,传统的数据挖掘处理方式已经捉襟见肘。如何快速、准确的实现大数据挖掘任务,成为当下研究的热点。相对于传统流程不能解决海量数据的挖掘和近年来流行的Hadoop平台处理数据挖掘任务效率低下的状况,大数据平台Spark基于内存计算、灵活性高、通用性强,对数据挖掘算法的实现有着无与伦比的优势。本文围绕大数据平台Spark和数据挖掘两个概念,对Spark上的数据挖掘算法进行了研究、优化、增加,同时在实际应用中做出了准确性、吞吐量、处理速度的测试,证明了工作的有效性。论文的主要工作如下:设计了关联规则算法在Spark上的实现结构,同时将Apriori算法在Spark平台上实现。针对Spark与Apriori算法的特性对Apriori算法进行多次优化,使算法在数据量巨大的情况下并发计算执行,在较短时间内得到正确结果。并将算法在实际中应用,吞吐量和处理时间性能测试,证明了算法实现的有效性。研究了分类算法在Spark上的实现结构,将朴素贝叶斯分类算法做相应改进,设计其在Spark Streaming上的实现过程,实现了流数据的实时分类问题。最后在垃圾短信分类中测试了算法的有效性。研究了Spark算法库Mllib中存在的聚类算法k-means,并根据k-means实现原理对其只能识别大小相近、凸形簇的缺陷做针对性改进,使k-means算法能够识别大小相差较大簇的问题,同时,将改进后的算法在Spark上实现,最后使消费人群的聚类问题得到了更好的聚类结果。
其他文献
<正>目前我国已经进入老龄化社会,养老成为不容忽略的社会问题。对于河南省来说,农村中有为数众多的老年人,并且不乏年龄较大的老年人,而且伴随着我国城镇化进程的推进,农村
目的:探讨CT引导下气管前腔静脉后间隙病变穿刺活检术的应用价值.方法:选择2016年3月至2018年3月本院行CT引导下气管前腔静脉后间隙病变穿刺活检术患者52例的资料进行分析,通
<正>在1867年世界博览会上,当莫奈第一次看到具有东方情调的浮世绘时,曾经兴奋异常地写道:"他们以精辟的趣味时时叫我喜欢,我赞同他们美学原则中的暗示,它利用一个阴影引起实
<正>在实际工作中,由于工作习惯或是其他原因,不少人采用前调气体的流量来检定玻璃转子流量计。在检定中对气体流量的调节,前调和后调都能起到调节流
采用紫外波段吸收光谱检测技术,实现了SO2和H2S混合气体各组分浓度的实时监测。在实验中选用氘灯为测试光源,MAYA2000Pro光谱仪用于采集数据。基于光谱的峰谷特性,选择吸收光
"五位一体"的总体布局将生态文明建设提到前所未有的战略高度,低碳发展、绿色发展已成为区域要求和全民共识。现实表明,交通运输部门的碳排放量仅次于工业部门,是导致全球变
液体在不均质双层油层中的不稳定渗流问题可以化为解抛物线型微分方程组。本文用Laplace变换解所提问题,得出了一系列解答。这些解答所阐明的不均质双层油层中压力分布的一些
经过改革开放30多年的实践探索,中国特色社会主义制度已经内化生成出强大的自我完善能力。具备良性的路径依赖是中国特色社会主义制度能自我完善、自我优化的关键所在,其路径
2011年,世界纪录片"大片化"趋势增加,联合制作更为普遍。不同体制带来资金构成的差异及制作模式的不同选择,而纪录片内容也呈现出异彩纷呈的特质。我们如何进入全球化产业运