决策树误差降低剪枝算法的改进研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:myxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树是数据挖掘中常用的分类和回归方法之一。本文主要讨论分类决策树。顾名思义,决策树为树状结构,从根结点开始逐渐开枝散叶,长成一棵具有多个分支和结点的大树。决策树遵循的是“分而治之”的策略,在分类问题中,每次划分选择一个特征变量将样本的集合分为若干部分,然后再对各部分进行相同的操作,直到特征变量全部选取完毕,每个样本都落入某个叶子结点中,这个叶子结点的类别由多数原则来决定。决策树具有计算复杂度不高、输出结果易于理解、对中间值的缺失不敏感、可以处理不相关特征数据等优点,因此在分类问题中应用较为广泛。一般来说,决策树的训练过程包括特征选择、树的生长、剪枝三个步骤。其中根据特征选择的不同标准,决策树可分为ID3、C4.5、CART三类,在实践中这三种标准生成的树的性能差异较小,几乎可以忽略不计。由于实际问题中变量的个数较多,由这些数据得到的决策树往往会变得大而复杂。然而,经验表明,大而复杂的决策树不仅解释起来较为困难,而且往往并不意味着可以得到更准确的分类结果,这说明决策树的生长具有过拟合的倾向。因此对决策树进行剪枝是很有必要的。剪枝可以简化决策树,提高泛化性能,避免对训练集的过拟合,是决策树学习中的重要研究内容。研究[1]表明,在数据中含有噪声时,剪枝甚至可以将决策树的泛化性能提升25%。目前常用的剪枝算法有误差降低剪枝(REP)、代价复杂度剪枝(CCP)、悲观误差剪枝(PEP)、最小误差剪枝(MEP)等。本文的创新点是针对误差降低剪枝(REP)算法提出了改进方案,在REP算法原有步骤的基础上增加了计算卡方统计量和多重检验修正的步骤,并在模拟数据和实际数据集上与现有的常见剪枝算法进行了比较。结果表明,改进后的REP剪枝算法相比于原算法能较好的提升决策树的泛化性能,同时改进算法没有明显的增加时间和空间复杂度,具有一定的可操作性和实践价值。
其他文献
1,2,3-三氮唑类化合物以其独特的氮杂环结构而拥有特殊的物理化学性质及良好的生物活性和低毒性,使其在有机化学、有机金属化学、材料化学和药物化学等领域有诸多的应用。而
传统的寿命试验模型中通常假定产品失效的机理只有一种,但在实际中,产品的失效机理可能存在很多种,且任何一种失效机理均可以导致产品失效,这就是竞争失效。带有竞争风险的产
在生物医学、社会学、经济学以及教育心理学等领域常常遇见大量的缺失数据。在已有的研究成果中,大多都是在可忽略缺失数据机制的条件下进行讨论的。然而,在很多实际应用中,
目的:T细胞免疫球蛋白和黏蛋白结构域-3(T-cell immunoglobulin and mucin-domain containing-3,TIM-3)与程序性死亡受体 1(programmed cell death 1,PD-1)和肿瘤浸润性淋巴
目前,我国经济社会发展已经进入一个新时代,城市人口总量的发展逐渐由人口迁移流动代替人口自然变动,人口迁移流动等因素也对城市经济、社会发展产生了较为显著的影响。在人
microRNA简称miRNA,是一类长约22核苷酸(nt)的非编码的单链RNA分子,由约70nt的前体miRNA(pre-miRNA)经Dicer酶剪切而来。miRNA参与生命过程中一系列的重要进程,包括发育、造
随着科技的发展及大数据时代的到来,越来越多的实际应用领域中需要用张量去描述一些数据问题,比如计算机可视化、信号处理、量子纠缠、自动化控制、统计数据分析、高阶马尔科
随着人们对口腔健康重视程度的不断提高,人们对龋齿的修复也提出了更高的要求,希望龋齿修复体能具有更高的颜色协调性、更高的逼真程度、较高的性价比,传统利用比色板比色的方法已不能满足当前的需求,数字式比色仪能够快速、准确的确定修复体的色号,在临床应用方面具有重要的实际意义。数字式比色仪在国外临床比色领域是研究热点之一,但在国内数字式比色仪研究领域还是空白。本文在查阅相关文献的基础上,了解到传统比色方法的
目的:结肠癌是全球范围内常见的消化系统癌症,开发可以实时示踪的药物载体,有望提高结肠癌放疗和化疗过程中的精准性和可控性;本研究合成了一种光声影像辅助定位的石墨烯水凝
离子液体(IL_S)是由阳离子和阴离子组成的盐。在过去的二十年中,离子液体作为非传统介质或催化剂迅速出现。由于它们对于各种有机和无机化合物有着无法比拟的溶解性,以及其他优点,如非挥发性,高热稳定性,适应性强,优良的物理化学性质。本论文针对离子液体在气体吸收及催化醇解两种用途中存在的不足,分别设计了两类低粘度离子液体,并对其吸收和催化性能进行了深入研究。主要研究内容包括:(1)设计合成了一种质子型亚