论文部分内容阅读
在大数据时代,如何提升数据挖掘算法的运行效率是解决大数据挖掘的关键问题。Online BBM算法虽然具有较好的分类效果,但该算法无法实时处理数据流,且处理海量数据效率较慢。本文基于Spark Streaming提出了一种实时处理大数据量的分布式数据流处理算法BBM.Streaming。本文使用4个较大数据集从分类准确率和运行效率两个方面进行了实验分析,实验结果证明了在分类准确率满足一定误差的情况下,BBM.Streaming的运行效率高于Online BBM。