WILD:基于加权信息损耗的离散化算法

来源 :南京大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zeng007008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实应用中常常涉及许多连续的数值属性 ,而目前许多机器学习算法则要求所处理的属性具有离散值 .基于信息论的基本原理 ,提出一种新的有监督离散化算法WILD ,该算它可以看成是决策树离散化算法的一种扩充 ,其主要改进在于考虑区间内观测值出现的频度 ,采用加权信息损耗作为区间离散化的测度 ,以克服决策树算法离散不均衡的问题 .该算法非常自然地采用了自底向上的区间归并方案 ,可以同时归并多个相邻区间 ,有利于提高离散化算法的速度 .实验结果表明该算法能够提高机器学习算法的精度 . Many real-time applications often involve many continuous numerical attributes, but many current machine learning algorithms require that the attributes to be processed have discrete values. Based on the basic theory of information theory, a new supervised discretization algorithm, WILD, is proposed As an extension of decision tree discretization algorithm, the main improvement is to consider the occurrence frequency of interval observations and to use weighted information loss as a measure of interval discretization to overcome the problem of discrete unbalanced decision tree algorithm. It is very natural to adopt a bottom-up interval merging scheme, which can merge multiple adjacent intervals at the same time, which is helpful to improve the speed of the discretization algorithm.The experimental results show that the algorithm can improve the accuracy of the machine learning algorithm.
其他文献
当前,学术期刊在学术评价中起着越来越大的作用,受到的非议也相当多。探讨了基于学术评价的学术期刊分级的深层原因和形成机制,展望了期刊分级对学术期刊发展的影响。 At pr
邹韬奋在讲到办刊要有创造精神时,说“尾巴主义是成功的仇敌”[1].
图书质量是出版社永恒的话题。《图书质量管理规定》明确规定:“图书质量包括内容、编校、设计、印制四项”。十分明显,图书内容质量是基础,是关键。一、教材内容质量的现状
营销策划越来越受到出版发行界的青睐。出版社要在激烈的市场竞争中有所作为,就必须重视和加强图书的营销策划。图书的营销策划是一个综合而又复杂的系统工程,是由多种不同的
期刊
灾难事件报道已成为全社会的关注焦点与舆论热点。在大众的殷切期待中,媒体总能屡出重拳以解公众之需,其社会公器作用日益凸显。然而,少数媒体暴露尸体、灾难娱乐化等“争夺
面对期刊市场的激烈竞争和即将来临的期刊出版体制改革的挑战,要提升教育期刊的核心竞争力,就必须确立品牌意识,加大策划力度;强化质量意识,抓好流程管理;增强服务意识,更新
近两年来,“伪书”泛滥成灾。2005年2月,新闻出版总署下达了对“伪书”进行专项检查的紧急通知,深圳书城收到23家出版社的下架通知,涉及图书115种[1]。“伪书”打假成了2005
目的:分析阑尾炎死亡原因,探讨减少阑尾炎死亡的治疗方法。方法:对我院普外科1986年6月~2007年6月收治13例成人阑尾炎死亡病例进行回顾性分析。结果:成人阑尾炎病例死亡率1.89‰。
近年,随着高职高专教育改革的发展,高职高专教材建设乍现出巨大的市场空间。高职高专教材如何出版始终是个值得业界关注和讨论的热门话题。本文从高职高专教材出版的实践出发