基于数据流的决策树的探讨

来源 :中山大学 | 被引量 : 0次 | 上传用户:VANDY115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树以高效性著称,采用贪心算法对大量数据进行构建一种树形的知识表示,是一种应用广泛的分类算法。自从CLS学习算法开始,经历了三个阶段:基于内存的ID3系列,最有影响的是C4.5算法;基于磁盘(数据库)的IBM Almaden Research Center所研究的一些决策树,如SLIQ;基于数据流的VFDT系列。 本文在VFDT的基础上,设计并实现了一种基于值域区间的增量学习决策树算法Range Interval Decision treE(RIDE),本文的主要创新之处有:(1)在决策树学习中,提出了一种新的连续型属性离散化方法,即从值域的角度来对连续属性离散化,大大减少区间数量,提高在区间端点为较优分裂点的性能;(2)RIDE的学习,会根据训练集来增加叶子或合并叶子,相当于动态地构建决策树和修剪决策树,而且重构时间短,与VFDT系列相比,决策树的规模不会太大,避免过学习现象;(3)采用小样本和类计数表,不论节点分裂还是合并,都能保留历史数据的所有信息,而不用对所有数据进行存储,较好地防止噪声和异常点的影响,适用于概率分布变化的数据源。本文通过10个UCI数据集来验证值域区间法,结果接近最优值;用不同分布的数据流来验证RIDE,无论是提高分类准确率还是降低构建决策树的时间复杂度方面,本文的RIDE算法都优于C4.5。
其他文献
在新课程改革的推动下,自主学习越来越受关注.在初中语文教学中不断培养学生自主学习能力是非常重要的课题,提高学生自主学习能力,既是新一轮语文课改顺利实施的保障,也是学
探究激发中学生学习英语兴趣的途径,阐述有效的学习方法.针对学生学情,给学生信心和实践的时间与空间,使他们主动去探索、思考,并辅以现代媒体手段,以激发学生学习英语的兴趣
本文研究了拟Banach空间中的广义可加泛函不等式的Hyers-Ulam-Rassias稳定性,讨论了二阶微分方程的Hyers-Ulam稳定性,最后通过转化与归纳的方法,得到了高阶微分方程的Hyers-Ulam
近30年来,超平面构形研究取得了重大的进展,并广泛应用于代数、组合、物理等领域。本文用矩阵方法讨论仿射超平面构形的可约性。 随着空间维数的增大,超平面个数的增加,由于缺
我国巨灾风险日显凸现,但目前我国的巨灾风险保障制度主要以政府作用为主,由于政府作用的局限性,此保障制度存在明显缺陷。我国巨灾风险保障制度的主要问题存在于商业化的巨灾保
对于无约束优化问题而言,信赖域方法是一类很有效的数值方法。信赖域方法思想新颖,算法可靠,具有很强的收敛性。不仅可以很快的解决良态问题,而且可以有效的求解病态问题,从而受到
本文研究了连续时不变广义线性系统的可靠线性二次状态反馈控制问题.基于广义代数Riccati方程的解,在允许指定执行器集合中的执行器发生故障时,给出了可靠线性二次调节器的设
课堂教学是一门艺术,而课堂导入更是艺术中的艺术,它是教师引导学生参与学习活动的过程和手段,也是课堂教学的必需环节,更是教师必备的教学技能的体现.新奇有趣的课堂导入,能
近年来,混沌系统及控制的研究得到了蓬勃发展,已成为非线性科学领域研究的一个热点,在许多工程领域中有着广泛的应用。混沌在非线性动力学系统中是广泛存在的,很多情况下人们希望
在新的历史时期确保武装力量的人民军队性质不变、光荣传统不变、听党指挥的原则不变。核心是坚持党对人民武装的绝对领导,坚决贯彻执行“党管武装”的冶军原则。各级党组织