【摘 要】
:
本文提出的算法EBNC一次处理整个数据集合的样本,因而速度比较快。这个算法基于Shannon信息理论,对于处理离散取值的属性有较高的准确性,同时保留了在引言中所述的Bayes网络的两
【机 构】
:
复旦大学计算机与信息技术系,上海,200433
论文部分内容阅读
本文提出的算法EBNC一次处理整个数据集合的样本,因而速度比较快。这个算法基于Shannon信息理论,对于处理离散取值的属性有较高的准确性,同时保留了在引言中所述的Bayes网络的两大优点。此外,算法利用gini系数,对连续属性取值范围进行最优二分,使得本文中的Bayes网络可以处理连续的属性。
但是,本文中的算法只适用于静态存在的数据集合。要使之适合于处理大量的动态的数据,例如数据流,还需要对算法进行进一步的改进,这将是我们今后的研究方向。
其他文献
关联规则挖掘是数据挖掘的重要研究课题,近年来得到了广泛的重视和研究.一个关于关联规则的典型的例子是它在购物篮分析中的应用.本文采取“分而治之”的策略,提出了一种挖掘
文章介绍了会展业的定义及其发展历程,阐述会展业在促进经济发展、带动社会就业、提高城市知名度等方面的积极作用。
This article introduces the definition of MICE indu
文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点.文本分类旨在将大量文本划分为若干子类,使得各文本子类代表不同的概念主题.文本分类技
分类是一种重要的数据分析形式。目前,已经有许多种分类方法,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量和维数越来越大,建立高效的、适用于大型数据
随着Internet的飞速发展,基于Web平台的各种应用受到了广泛的欢迎,基于Web平台的电子商务得到了空前的发展.对于一个电子商务网站来说,其拓扑结构蕴含了各个页面之间的关联关
网络上信息量的剧增,给网站的管理和用户的浏览带来一系列的难题.Web个性化技术,即Web站点根据用户的需求为其提供一对一的服务的技术,正是针对这些难题的解决应运而生的.目
神经网络和遗传算法的结合是当前智能技术研究的重要内容,也是计算智能CI技术的重要组成部分。本文在分析BP算法和遗传算法机理之后,提出了一种遗传BP神经网络数据挖掘技术。由
关联规则是由Agrawal等人首先提出的一个重要的KDD研究课题,它反映了大量数据中项目集之间有趣的关联或相关联系.发现频繁项目集是关联规则挖掘应用中的关键技术和步骤.近年
Internet的迅速发展,使其成为全球信息传递和共享的最重要资源,如何利用Internet上的大量信息成为亟待解决的问题.由于Internet上的数据多以半结构或无结构的形式出现,因此传
目前,在数据仓库的数据清洗过程中,数据的不完全问题,并不受重视。现有的处理方法之一是直接去掉带缺失项的记录,这一方法虽然筒单,也使我们失去了许多有用的信息,甚至会使基于该数