论文部分内容阅读
决策树算法是机器学习领域具有代表性的算法之一,具有分类速度快、精度高、生成过程简单以及产生的规则易于理解等优点,已经被应用到数据挖掘、风险评估等领域。但是决策树算法也存在着对噪声敏感、在测试属性选择时倾向于选择取值较多的属性等缺陷。蚁群算法是一种高效的仿生算法,它以模拟蚂蚁的觅食行为而得名,具有信息素反馈、启发式搜索和分布式计算等特征,与其它算法结合,可以得到性能卓越的优化算法。许多研究人员尝试利用蚁群算法来对决策树算法进行优化,并提出了许多性能卓越的改进决策树算法,比如分类回归树算法(CART, Classification And Regression Tree)。该算法性能非常优秀,生成的决策树的预测精度高,但是也存在一定的不足:一是只适用于连续属性;二是没有充分利用蚁群算法中的启发信息特征。本文提出了一种新的基于蚁群优化的改进决策树算法(ACODT, Ant Colony Optimization Decision Tree),该算法将蚁群算法应用于决策树生成过程,充分利用了蚁群算法信息素反馈和启发搜索的特点,降低了决策树的规模,优化了决策树的生成过程。在决策树属性分支选择时,改进算法采用将信息素反馈特征和信息增益比结合的方法代替了CART算法中采用的基尼指数方法,提高了属性分支的准确性。在利用蚁群算法搜索最优解的过程中,改进算法又借鉴了最大最小蚂蚁算法中采用的信息素更新方法,增强了算法搜索最优解的能力,提高了生成的决策树的预测精度。为了验证改进算法的性能,本文设计了两个实验:一是从UCI数据集中选取了15个经典数据集,采用C4.5和CART两个算法进行对比实验;二是设计并实现了基于蚁群优化的改进决策树算法的入侵检测系统,选择KDD CUP99作为实验数据集,采用C4.5算法进行对比实验。实验结果表明,改进算法能够有效提高决策树的预测精度,降低决策树规模,增强可理解性。