WILD:基于加权信息损耗的离散化算法

来源 :南京大学学报(自然科学版) | 被引量 : 0次 | 上传用户：zeng007008

【摘要】

：

现实应用中常常涉及许多连续的数值属性 ,而目前许多机器学习算法则要求所处理的属性具有离散值 .基于信息论的基本原理 ,提出一种新的有监督离散化算法WILD ,该算它可以看成

【作者】

：

李刚李霁伦童兆页

【机构】

：

上海大学计算机科学系!上海,200072 中国科学院软件研究所,北京,100080,上海交通大学计算机系!上海,200030,上海大学计算机科学系!上海,200072 中国科学院软件研究所,北京,10

【出处】

：

南京大学学报(自然科学版)

【发表日期】

：

2001年02期

【关键词】

：

WILD 机器学习属性值样本集区间数无监督贝叶斯分类器观测值样本数目终止条件

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现实应用中常常涉及许多连续的数值属性 ,而目前许多机器学习算法则要求所处理的属性具有离散值 .基于信息论的基本原理 ,提出一种新的有监督离散化算法WILD ,该算它可以看成是决策树离散化算法的一种扩充 ,其主要改进在于考虑区间内观测值出现的频度 ,采用加权信息损耗作为区间离散化的测度 ,以克服决策树算法离散不均衡的问题 .该算法非常自然地采用了自底向上的区间归并方案 ,可以同时归并多个相邻区间 ,有利于提高离散化算法的速度 .实验结果表明该算法能够提高机器学习算法的精度 . Many real-time applications often involve many continuous numerical attributes, but many current machine learning algorithms require that the attributes to be processed have discrete values. Based on the basic theory of information theory, a new supervised discretization algorithm, WILD, is proposed As an extension of decision tree discretization algorithm, the main improvement is to consider the occurrence frequency of interval observations and to use weighted information loss as a measure of interval discretization to overcome the problem of discrete unbalanced decision tree algorithm. It is very natural to adopt a bottom-up interval merging scheme, which can merge multiple adjacent intervals at the same time, which is helpful to improve the speed of the discretization algorithm.The experimental results show that the algorithm can improve the accuracy of the machine learning algorithm.

其他文献

学术评价与学术期刊分级

当前,学术期刊在学术评价中起着越来越大的作用,受到的非议也相当多。探讨了基于学术评价的学术期刊分级的深层原因和形成机制,展望了期刊分级对学术期刊发展的影响。 At pr

期刊

学术评价学术期刊分级原因机制

特色栏目建设谨防陷入『尾巴主义』

邹韬奋在讲到办刊要有创造精神时,说“尾巴主义是成功的仇敌”[1].

期刊

特色栏目建设创造精神邹韬奋办刊

教材内容质量问题值得关注

图书质量是出版社永恒的话题。《图书质量管理规定》明确规定:“图书质量包括内容、编校、设计、印制四项”。十分明显,图书内容质量是基础,是关键。一、教材内容质量的现状

期刊

教材内容图书质量内容质量管理规定质量包出版社印制设计基础

图书营销的关键是服务读者

营销策划越来越受到出版发行界的青睐。出版社要在激烈的市场竞争中有所作为,就必须重视和加强图书的营销策划。图书的营销策划是一个综合而又复杂的系统工程,是由多种不同的

期刊

图书营销营销策划出版社核心竞争力综合能力营销计划营销策略销售渠道系统工程图书宣传市场竞争出版发行构成方法

上海书城近期畅销书

期刊

上海书城

灾难事件新闻报道的误区与矫正

灾难事件报道已成为全社会的关注焦点与舆论热点。在大众的殷切期待中,媒体总能屡出重拳以解公众之需,其社会公器作用日益凸显。然而,少数媒体暴露尸体、灾难娱乐化等“争夺

期刊

灾难事件社会公器新闻报道少数媒体舆论热点道集《新闻记者》尸体电视直播谣言

提升教育期刊核心竞争力探讨

面对期刊市场的激烈竞争和即将来临的期刊出版体制改革的挑战,要提升教育期刊的核心竞争力,就必须确立品牌意识,加大策划力度;强化质量意识,抓好流程管理;增强服务意识,更新

期刊

提升教育期刊强化质量意识期刊市场出版体制改革核心竞争力营销观念品牌意识流程管理服务意识增强划力

现行法律框架下“伪书”的治理途径

近两年来,“伪书”泛滥成灾。2005年2月,新闻出版总署下达了对“伪书”进行专项检查的紧急通知,深圳书城收到23家出版社的下架通知,涉及图书115种[1]。“伪书”打假成了2005

期刊

法律框架伪书新闻出版中央电视台专项检查虚假信息图书通知出版社晚会书城深圳名单打假

成人阑尾炎死亡13例分析

目的：分析阑尾炎死亡原因，探讨减少阑尾炎死亡的治疗方法。方法：对我院普外科1986年6月～2007年6月收治13例成人阑尾炎死亡病例进行回顾性分析。结果：成人阑尾炎病例死亡率1.89‰。

学位

阑尾炎治疗方法死亡率

以选题特色赢得市场凭市场营销突显特色--高职高专教材开发思路探析

近年,随着高职高专教育改革的发展,高职高专教材建设乍现出巨大的市场空间。高职高专教材如何出版始终是个值得业界关注和讨论的热门话题。本文从高职高专教材出版的实践出发

期刊

选题特色市场营销高职高专教材教材建设相关探讨市场空间教育改革教材出版建设思路实践

WILD:基于加权信息损耗的离散化算法

其他学术论文