论文部分内容阅读
传统数据挖掘模式在处理海量、多维、复杂等特征的数据时,存在计算能力弱、效率低、可扩展性差等问题。论文提出基于Map/Reduce的决策树分类挖掘方法(C4.5BH算法),该算法采用K-means聚类方法对连续属性进行离散化,并利用Map/Reduce编程模型和属性表结构实现了决策树构造过程中属性的并行计算和节点的并行分裂。实验证明,与传统的C4.5算法相比,C4.5BH算法在处理大规模数据集时具有更高的执行效率和良好的加速比。