论文部分内容阅读
FP-Tree算法是关联规则经典算法之一,它避免重复扫描数据库,比Apriori快一个数量级。FP-Tree算法在数据量较小时可以取得很好的效果,但是当数据库规模非常大时,在内存中构建FP-Tree是不切实际的。本文提出一种基于MapReduce的FP-Tree算法,通过并行化算法扩大算法可处理的数据集规模,并提高构建和挖掘FP-Tree的速度,实验表明优化后的算法性能有所提高。