基于决策树和粗糙集的分类方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:suntiger2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是利用分析工具从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中、事先未知、潜在有用的信息和知识的过程,建立数据间关系模型,用其做出预测,从而为决策者提供辅助。决策树是一种常用的分类模型,并以其能直接体现数据特点,分类效率高、速度快、理解性好等特点在数据挖掘及其它领域中被广泛使用;粗糙集理论是一种处理不精确、不确定和不完备信息的有效方法,随着其在各领域中的成功应用,引起各国广大学者的关注。 本文围绕决策树和粗糙集理论进行了相关的研究和创新,主要内容包括: 首先,对决策树、粗糙集理论和粗糙集中信息熵的表现形式进行了系统的研究,分析了信息熵与粗糙集理论中上、下近似之间的关系。考虑到经典的ID3算法用求熵的方法选择节点分裂属性时没有考虑到噪声的影响,对噪声比较敏感,而可变精度粗糙集理论对噪声有很好的抑制作用,所以,结合可变精度的思想对ID3算法进行了改进,使其更能适应噪声比例较大的数据集,更加符合实际要求。 其次,粗糙集理论中的属性约简方法可以在不影响分类能力的前提下对数据集进行简化,为此,提出了一种基于属性重要性概念的启发式的属性约简算法。 而后,用提出的基于属性重要性的属性约简方法对数据集进行简化,以改进后的ID3算法为建树算法,根据建树算法的特点选择了基于期望误分率的后剪枝算法为树的剪枝算法,设计了一个分类器;之后,用UCI数据库中的多个数据集为实验数据进行了模拟实验,实验结果表明,这种改进后的决策树生成算法在抑制噪声方面要优于改进前的ID3算法,其实用性更好。 最后,对论文工作做了总结、分析了存在的问题,指出了下一步的工作。
其他文献
传感器网络是由大量传感器节点组成的分布式无线网络。传感器网络被广泛地应用到军事国防、环境监测、生物医疗、区域远程控制等领域。在一些关键性的监测任务中,任意两个节
影响松花江干流汛期安全泄流的黑龙江省方正是方正煤矿煤矸石清障工作,现已全期完成,并于2月下旬通过了由水利部松辽水利委员会、黑龙江省防汛抗旱指挥部、哈尔滨市防汛抗旱指
目前,基于J2EE的Web系统在企业级解决方案中处于主导地位,影响基于J2EE的Web系统性能的因素是多方面的,包括:硬件(计算机和网络)、操作系统、Java虚拟机、数据库管理系统、数据库
本文主要设计并实现了动画自动生成系统中的两个子系统——自然语言处理子系统和故事内容理解子系统。自然语言处理是动画自动生成系统的第一个模块。系统接受一个中文儿童故
目前存在的各种人体运动捕获技术存在着成本高昂、环境要求较高、精确度较低等各种缺点,基于计算机视觉的人体运动捕获方法成为目前人体运动捕获研究领域的热点之一。而基于
在1997年12月份,枣庄市被山东省矿业秩序整顿与维护工作检查验收组批准为全国首批、山东第一的矿业秩序根本好转的地区,为枣庄市争取了荣誉,也为全市的经济建设作出了贡献。
笔者在调研中了解到,部分村的党组织工作就是村党支部书记一个人管,支委对党组织工作知道得不多,甚至对有些工作的原委一点也不知情,支委的设置成了牌位。 The author learn
习近平:从陕北山村一路走来在延川县文安驿镇梁家河村,“习近平”这个名字,是家家户户再熟悉不过的名字。他们说,“习近平是从梁家河村出去的。” Xi Jinping: From Shanbei
随着互联网技术和数字技术的共同发展,更多的数字作品被放到了网络这个开放的大环境中,而且数字作品也因为网络技术的发展得到了广泛的传播和应用。虽然更多的人可以共享信息
作为一个极富挑战性的高技术密集型项目,机器人足球吸引了越来越多的研究和关注。视觉子系统是半自主足球机器人唯一能感知环境的部分,其实时性和对目标识别的精度对整个系统