论文部分内容阅读
随着大数据概念的火热兴起,分布式框架和并行化计算方法得到迅猛的发展。大数据带来的是数据量的增长和计算复杂度的增加,传统的数据挖掘处理方式已经捉襟见肘。如何快速、准确的实现大数据挖掘任务,成为当下研究的热点。相对于传统流程不能解决海量数据的挖掘和近年来流行的Hadoop平台处理数据挖掘任务效率低下的状况,大数据平台Spark基于内存计算、灵活性高、通用性强,对数据挖掘算法的实现有着无与伦比的优势。本文围绕大数据平台Spark和数据挖掘两个概念,对Spark上的数据挖掘算法进行了研究、优化、增加,同时在实际应用中做出了准确性、吞吐量、处理速度的测试,证明了工作的有效性。论文的主要工作如下:设计了关联规则算法在Spark上的实现结构,同时将Apriori算法在Spark平台上实现。针对Spark与Apriori算法的特性对Apriori算法进行多次优化,使算法在数据量巨大的情况下并发计算执行,在较短时间内得到正确结果。并将算法在实际中应用,吞吐量和处理时间性能测试,证明了算法实现的有效性。研究了分类算法在Spark上的实现结构,将朴素贝叶斯分类算法做相应改进,设计其在Spark Streaming上的实现过程,实现了流数据的实时分类问题。最后在垃圾短信分类中测试了算法的有效性。研究了Spark算法库Mllib中存在的聚类算法k-means,并根据k-means实现原理对其只能识别大小相近、凸形簇的缺陷做针对性改进,使k-means算法能够识别大小相差较大簇的问题,同时,将改进后的算法在Spark上实现,最后使消费人群的聚类问题得到了更好的聚类结果。