论文部分内容阅读
数据挖掘,也称之为数据库中的知识发现,是一个从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程.分类是数据挖掘的重要内容之一,在许多领域都得到了广泛应用,现已有多种分类方法,其中决策树算法在海量数据环境中应用最为广泛.
本文对数据挖掘中的决策树算法进行了系统地探讨,介绍了数据挖掘的概念和分类,研究了数据挖掘中的决策树的几种算法,比较了他们的优缺点.对决策树算法相关的数据预处理技术和剪枝技术也进行了一定研究.
本文在研究ID3算法的基础上,对ID3算法进行了改进,并引入属性个数来改进ID3算法。改进后的算法不仅减小了生成决策树的计算成本,并且克服了ID3算法偏向于选择取值较多属性作为测试属性的缺点,提高了决策树的生成效率.
本文还研究了利用属性对正例的影响度来比较属性对分类提供的信息量,进而选择分类属性构造决策树的条件概率决策树算法,同时实例计算说明该算法有效地简化了决策树的生成进程.
针对基于ID3算法发展起来的增量决策树算法——ID5R进行了相应的研究和改进工作,根据分类属性熵变的特点,证明改进后的ID5R算法的理论基础.同时研究了ID5R算法处理增量数据集的过程.
在ID3算法和ID5R算法的基础上,提出了减量决策树算法-DID3,该算法解决当训练数据集中的记录数量减少时,如何构造决策树的问题.并证明了与DID3减量决策树算法相关的三个定理,保证DID3减量决策树算法的合理性.