论文部分内容阅读
决策树C4.5算法是数据挖掘中的一种分类算法,其算法思想简单、分类规则提取方便且容易理解,得到了广泛的应用。然而,传统的C4.5算法在数据集中各个类别样本相对平衡下分类效果较好,在不平衡数据集中,由于少数类样本所占比例很小,不能为分类器提供足够的分类信息,并且为了保证算法的整体分类精度,分类器会更加关注多数类的分类精度而忽视少数类的分类情况。这就导致了C4.5算法在不平衡数据集分类中,虽然整体的分类精度高但是少数类的分类精度却很低的现象。对此,本文分析了目前国内外的研究现状及相关解决方法,同时在借鉴前人的观点与经验的基础上,提出了一种改进的C4.5算法,称之为MR_C4.5算法。该算法首先计算少数类在每个属性上的最大值与最小值之间的区间,并把该区间称为少数类区间。然后以每个属性为分裂点,分别计算其在对应的少数类区间上的信息增益率。最后通过比较各个分裂点的信息增益率,选择具有最大信息增益率的分裂点作为真正的分裂点创建决策树。实际上MR_C4.5算法主要通过减少少数类区间之外的多数类的样本实例来提高少数类在创建决策树时为分类器提供更多的分类信息,从而增加少数类分类的精度。与此同时,把决策树C4.5算法引用到大学生情感素质分析中,针对大学生情感素质数据分布不平衡,探讨了改进后的MR_C4.5算法的分类性能。此外,考虑到模型的预测准确性、描述的简洁性同时避免过拟合现象,本文在建立决策树之前,首先对大学生情感素质数据集进行了数据预处理,包括清洗、变换、规约,把多元线性回归模型的显著性检验和偏回归系数的显著性检验引入到数据预处理中,对数据进行规约处理。本文设计了三组实验,探讨了改进后的C4.5算法在大学生情感素质分析中的应用,结果表明:(1)C4.5算法可以用在大学生情感素质分析中且分类效果较好,但是对少数类分类效果不佳;(2)合理的利用数据预处理,可以有效的提升决策树模型的整体性能;(3)MR_C4.5算法比C4.5算法能够更好的处理不平衡数据集,在样本容量最少的“A”类分类中,F-measure平均提升了9%左右。