【摘 要】
:
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程,是信息处理技术研究领域的一项重要课题。它是指从大型数据库或数据仓库中提取隐含的、未知的、
论文部分内容阅读
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程,是信息处理技术研究领域的一项重要课题。它是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的以及有潜在应用价值的信息或模式的过程。它融合了数据库、人工智能、机器学习等多个领域的理论和技术。分类分析是数据挖掘技术研究的一个重要方向。数据挖掘中分类算法在商业应用最为广泛,而决策树算法又是数据挖掘分类的核心技术算法之一。Quinlan于1986年提出的ID3算法在决策树算法中最为著名。本文主要研究决策树ID3算法及其改进算法。本文首先详细地介绍了ID3算法,然后对其进行了深入地研究。ID3算法有两大缺点:第一,ID3算法由于使用log进行计算,所以运算起来并不简单;第二,算法往往偏向于选择取值较多的属性,而取值较多的属性却不总是最优的属性。其次,为了解决ID3算法运算复杂的缺点,引入麦克劳林公式,在ID3算法的基础上提出了ID3简化算法,使运算变得简洁;为解决ID3算法偏向于选择取值较多的属性的不足,通过使用数据结构中的二叉树来存储决策树,在ID3算法基础上提出了将ID3简化算法与普通二叉树算法相结合的ID3简化算法的二叉树存储算法。然后通过使用同一训练集的实例进行具体计算,分别得到其对应的决策树。最后对不同算法建立的决策树进行比较研究,得到结论:通过对ID3算法、ID3简化算法和ID3简化算法的二叉树存储算法三种决策树算法的比较,证明应用ID3简化算法的二叉树存储算法比ID3算法和ID3简化算法得到的决策树更为理想。
其他文献
社会认同理论(social identity theory)是探索群体间行为的一项重要理论,目前已成为社会心理学的核心范式,在西方经济、政治、文化、组织行为、民族等领域发挥了重要的应用价
随着客户满意度测评在我国的广泛应用,如何将通信企业客户满意度测评工作与客户满意理论相结合,形成一套完整理论来指导通信企业不断发现问题和不足,提升通信企业的市场竞争
以南京大学的学生为研究对象,运用文献资料法、问卷调查法、访谈法等研究方法对大学生夜跑行为的原因、优劣性展开讨论,拟为大学生进行夜跑运动提供参考。
2004年末,国有投资企业雅能公司和两家民营企业共同组建了罗美项目公司,合作开发罗美房地产项目,由雅能公司相对控股。经过三方股东不断的磨合,项目公司较为顺利的完成了项目
2008年北京奥运会是中国第一次承办的大型国际性赛事,为北京的发展带来了千载难逢的机遇。借此机遇,北京从各个方面对城市展开了长达7年的建设,并取得了巨大的成就。奥运场馆
产能预测对油气的开发与生产有着重要的意义,产能的预测又可分为自然产能(原始产能)预测与理论协调产能的预测。其中,前者表示油气由储层流入井底的产能,直接反映了储层的供油能力也是本次研究的关键。随着渗流理论的不断完善与发展,基于该理论所推导出的公式成为了产能预测的重要倚仗。该类公式较为全面的考虑到了储层以及管内各参数对油气流动的影响,可以较为有效的对油气流动状态以及产出能力进行评价。同时,为了在一定程
随着新课程标准的实施,器乐教学在中小学越来越受到重视。近年来,小学器乐教学取得了一定成就,同时也出现了很多问题,如:器乐教学课时少、受众小、教学内容安排随意等等致使学生演奏技能在低端徘徊,严重阻碍了小学器乐教学的发展。本文以长沙市五所小学为主要对象,通过访谈五所小学的五位音乐教师,观察其器乐教学及乐团教学的情况,对小学的器乐教学情况进行了充分研究。通过调查,笔者从理念、内容、方法三个方面总结出小学
TeeChart Pro控件应用于转台界面控制程序中,利用控件提供的编程接口调节曲线的显示速度、更新数据刷屏显示、调整曲线幅值等,实现了转台运行过程中轨迹曲线的实时显示,保证
近年来,随着深潜技术的发展,潜器在海洋综合调查、海底资源探测等方面得到广泛应用,受到了越来越多的关注。由于潜器运动具有很强的非线性和耦合性,采用常规的控制方法很难获
本文对中药提取实验设计理论、提取方法、化学分析方法和黄芪化学成分及药理方面的国内外研究现状等进行了较详细的叙述。针对目前中草药提取工艺优选过程中,资源消耗高、成