数据挖掘决策树算法的研究及应用

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:wuyuetian530
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,也称之为数据库中的知识发现,是一个从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程.分类是数据挖掘的重要内容之一,在许多领域都得到了广泛应用,现已有多种分类方法,其中决策树算法在海量数据环境中应用最为广泛. 本文对数据挖掘中的决策树算法进行了系统地探讨,介绍了数据挖掘的概念和分类,研究了数据挖掘中的决策树的几种算法,比较了他们的优缺点.对决策树算法相关的数据预处理技术和剪枝技术也进行了一定研究. 本文在研究ID3算法的基础上,对ID3算法进行了改进,并引入属性个数来改进ID3算法。改进后的算法不仅减小了生成决策树的计算成本,并且克服了ID3算法偏向于选择取值较多属性作为测试属性的缺点,提高了决策树的生成效率. 本文还研究了利用属性对正例的影响度来比较属性对分类提供的信息量,进而选择分类属性构造决策树的条件概率决策树算法,同时实例计算说明该算法有效地简化了决策树的生成进程. 针对基于ID3算法发展起来的增量决策树算法——ID5R进行了相应的研究和改进工作,根据分类属性熵变的特点,证明改进后的ID5R算法的理论基础.同时研究了ID5R算法处理增量数据集的过程. 在ID3算法和ID5R算法的基础上,提出了减量决策树算法-DID3,该算法解决当训练数据集中的记录数量减少时,如何构造决策树的问题.并证明了与DID3减量决策树算法相关的三个定理,保证DID3减量决策树算法的合理性.
其他文献
随着信息科学、电子技术和控制理论的发展,出现了各种不同类型、不同功能的智能机器人。但由于其稳定性、灵活性、智能性和适应性的不足,此类机器人大多处于实验室研究阶段,远未
UniSim是功能强大的流程模拟软件,用于过程与设备模拟、分析、设计、优化及开停车指导、动态仿真培训和设计先进控制系统等。然而,由于某些化工过程的复杂性和具体性,此软件现有
单相接地选线是小电流接地系统运行中长期存在的难题。本文论述了研究该课题的现实意义及价值,并根据国内外的研究现状,分析了小电流接地选线存在的不足。在小电流接地系统中,发生单相接地故障时,分别对其暂稳态特征进行了分析。为了对小电流接地系统单相接地故障有更深入的了解,对6kV模拟电网单相接地故障实验与数据进行分析。在分析小电流接地选线单相接地故障特征的基础上,基于稳态分量和暂态分量分别采用了导纳互差之绝
随着科学技术的发展,移动机器人被寄予越来越高的期望,要求其具有更高的机动性、更强的环境适应及感知能力和快速反应能力。因此,研究高效的移动机构和高性能控制系统成为排爆、
生物特征识别是利用人的生理或者行为特征进行身份鉴别的技术。作为生物特征识别技术的研究对象,人脸、指纹、掌纹、手形、虹膜以及声音已被广泛应用于各类身份识别系统。然
视觉系统是机器人感知外部环境信息的重要传感部件。通常视觉处理都比较耗时,因此需要开发计算资源丰富的视觉系统来执行视觉处理算法,以减轻机器人主处理器的计算负担,提高机器
本文根据天然气输气管末段的运行情况,针对末段管道储气调峰时的能量损耗问题,建立天然气末段输气管道的动态机理模型,并对其出口流量和出口压力进行控制,以达到保证用户需求又节
人类之所以能够准确地对各种复杂事件进行积极反应,是因为人类具有一个高度发达的大脑。人们试图利用人工神经网络模拟人脑,对现实中的复杂系统进行认识、建模与控制。在前期
在后基因时代,功能基因学(functi0.al gen0.ics)成为生物研究的一大挑战。其研究内容之一是:基因的表达同细胞表型特征的关系。想要从基因角度理解复杂器官的生物学原理,本文作
本论文主要从三方面进行论述:超声回波信号的处理、超声检测系统的设计、网络通信。研究对象是钢板焊缝,采用的是超声脉冲反射方法来对焊缝缺陷信号进行采集。但是由于缺陷信