改进的C4.5算法在大学生情感素质分析中的研究与应用

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:chennyliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树C4.5算法是数据挖掘中的一种分类算法,其算法思想简单、分类规则提取方便且容易理解,得到了广泛的应用。然而,传统的C4.5算法在数据集中各个类别样本相对平衡下分类效果较好,在不平衡数据集中,由于少数类样本所占比例很小,不能为分类器提供足够的分类信息,并且为了保证算法的整体分类精度,分类器会更加关注多数类的分类精度而忽视少数类的分类情况。这就导致了C4.5算法在不平衡数据集分类中,虽然整体的分类精度高但是少数类的分类精度却很低的现象。对此,本文分析了目前国内外的研究现状及相关解决方法,同时在借鉴前人的观点与经验的基础上,提出了一种改进的C4.5算法,称之为MR_C4.5算法。该算法首先计算少数类在每个属性上的最大值与最小值之间的区间,并把该区间称为少数类区间。然后以每个属性为分裂点,分别计算其在对应的少数类区间上的信息增益率。最后通过比较各个分裂点的信息增益率,选择具有最大信息增益率的分裂点作为真正的分裂点创建决策树。实际上MR_C4.5算法主要通过减少少数类区间之外的多数类的样本实例来提高少数类在创建决策树时为分类器提供更多的分类信息,从而增加少数类分类的精度。与此同时,把决策树C4.5算法引用到大学生情感素质分析中,针对大学生情感素质数据分布不平衡,探讨了改进后的MR_C4.5算法的分类性能。此外,考虑到模型的预测准确性、描述的简洁性同时避免过拟合现象,本文在建立决策树之前,首先对大学生情感素质数据集进行了数据预处理,包括清洗、变换、规约,把多元线性回归模型的显著性检验和偏回归系数的显著性检验引入到数据预处理中,对数据进行规约处理。本文设计了三组实验,探讨了改进后的C4.5算法在大学生情感素质分析中的应用,结果表明:(1)C4.5算法可以用在大学生情感素质分析中且分类效果较好,但是对少数类分类效果不佳;(2)合理的利用数据预处理,可以有效的提升决策树模型的整体性能;(3)MR_C4.5算法比C4.5算法能够更好的处理不平衡数据集,在样本容量最少的“A”类分类中,F-measure平均提升了9%左右。
其他文献
<正>学习2011版新课程标准时,我想到了老子《道德经》里的一句话:"知其白,守其黑,为天下式。"并将之改成:知白守黑,为"语文"式。"知白",就是了解语言背后的丰富的内容;"守黑"
本文基于多元智能理论,从评价主体、评价内容、环境支持、评价方法四个方面构建小学英语学生评价的实践框架,并从评价共同体(学生、教师、家长)、评价内容(智能本位评价)、评
随着农产品电商市场的不断完善,电商平台之间的竞争不仅是价格战,更是服务战。为揭示农产品电商平台服务质量提升的内在机理,运用演化博弈模型探讨了顾客在平台上初次和多次
针对目前"桥梁工程"课程教学难以满足工程师职业能力培养要求,即满足工程教育专业认证标准的"产出"要求的问题,提出案例分析、知识串联、引入设计图纸和规范、桥梁工程建设新
<正>目前,我国葡萄酒产业发展迅猛,但产区个性、产品同质化的问题十分突出。要打造优秀葡萄酒产区,提高国内外市场竞争力,首要的是彰显产区的个性。为什么要张扬产区的个性?
以小型冷库智能控制试验台为被控对象,对自适应模糊控制器进行实验研究。结果表明在变控制目标的控制过程中,控制器对库温和过热度的控制效果良好,表现出跟踪性能好、控制精
利用离子注入掺杂技术设计、制作半导体集成器件时,了解离子注入半导体材料的射程分布、射程离散和横向离散规律等是很重要的.用400keV能量的铒(Er)离子分别与样品表面法线方
“客观真实”是一种哲学智慧,是司法实践追求的理想目标;而“法律真实”代表了一种典型的法律家思维,是一种经验智慧,是司法实践追求的现实目标。会计活动和司法活动有许多相
企业文化是社会文化的子系统,优秀的企业文化将极大地促进企业的发展,反之则会削弱企业的组织功能。认真剖析中国企业文化发展的现状,总结优秀的成果,分析存在的问题,探讨其