论文部分内容阅读
随着信息技术在企业中的普遍应用及多年的数据积累,面向分析型应用的数据挖掘及数据仓库技术逐渐发展起来。数据挖掘是用于从大量数据中寻找有用的信息,即从大型数据库或数据仓库中提取人们感兴趣的、隐含的、事先未知的、潜在的知识的过程。
本文详细介绍了数据挖掘中的各类知识及算法。决策树算法是数据挖掘中最常用的一种方法,它能够直接体现数据的特点,便于理解,具有较好的分类预测能力,并能方便提取决策规则。文中重点介绍了基于决策树的分类算法中的ID3算法。但是ID3算法还存在着一些不足,本文针对其多值偏向性、决策树剪枝等方面的不足,根据相似性原理,对ID3算法进行改进,引入以描述属性和决策分类属性的趋近度确定测试属性,构建决策树。并对改进过的T_ID3算法和ID3算法进行理论和实例对比验证,结果表明T_ID3算法避免了多值偏向性问题,在剪枝有效性等方面也有了一定的提高。论文最后较为详细的介绍了本校学生信息管理系统的具体实现过程,并对面向毕业生就业情况分析主题进行数据挖掘,最后对挖掘结果进行分析,结合实际工作,为高校学生管理决策提供参考。