论文部分内容阅读
采用交叉验证方法针对C4.5、Bayesian置信网络、序贯最小优化(SMO)三种主流数据挖掘分类算法对中国烟草年鉴2011-2012中的销售数据进行了实验分析,分别得出了在相同训练、测试样本数据下三种算法建立模型所需时间、分类准确性、覆盖率及Margin曲线。分析了训练样本数量对三种算法的不同影响,为使用者在不同的样本质量下选择相应的分类算法提供理论和实验依据。