【摘 要】
:
本文对数据挖掘关联规则的改进算法-SDA算法进行了研究。理论研究和实验结果表明,新算法SDA算法的效率比经典算法Apriori算法有较大的改进,比DHP算法也更优越.这个主要是在三个
【机 构】
:
厦门大学自动化系,厦门,361005
论文部分内容阅读
本文对数据挖掘关联规则的改进算法-SDA算法进行了研究。理论研究和实验结果表明,新算法SDA算法的效率比经典算法Apriori算法有较大的改进,比DHP算法也更优越.这个主要是在三个方面做出了改进:(1)减少Aprior算法在第二次的事务数据库扫描时的开销;避免了DHP算法在第一次循环中使用hash树的缺陷。(2)在产生频繁集过程中,改进了apriori_gen算法,加快了剪枝速度。(3)不断删除不符合要求的事务数据库记录的数童,减少了扫描事务数据库的时间。
其他文献
目前国内外学者对网络告警进行了很多的研究,有多种方法被应用于网络故障管理系统中。在故障管理中,已有的挖掘告警序列研究基本上沿着两个方向进行:(1)基于单个长事件序列系移
Rough集理论自提出以来,已经在机器学习、数据挖掘等领域中得到了广泛应用.决策表信息系统是Rough集理论的主要研究对象,决策表的约简是所有R0ugh集理论和应用研究的焦点问题
本文提出了一种基于UVM的构件版本管理模型,主要用于解决构件集成与维护过程中经常碰到的构件标识与检索、依赖性等问题,文中引入属性值分类偏序集的方法,用户可以定义属性的分
信息系统常采用知识导航模块,该模块的核心是框架本体库,因为框架表示能够通过对象的联系属性在不同概念之间建立联系,其数据结构适合知识导航.当前,本体主要有逻辑表示和框
本文中,作者将基于分类方法的个性化推荐算法和基于页面的兴趣度相结合,提出了一种新的个性化推荐算法,该算法能够有效地提高被推荐页面的有效性. 如果应用新算法的时间足够
电子邮件(简称E-MAIL)是因特网上使用得最为广泛的应用之一,随着Internet的发展,电子邮件已经成为一种重要通信方式.大量"垃圾"邮件的存在既浪费人们大量的时间,又占用宝贵的
提取特征的方法与文本的语言有关。文本数据向量的维数一般非常大,如何减小维数是获得有效的知识模型的重要问题之一。在将文本训练数据集合转换为一组二值分类数据集时,应该考
随着Internet的发展,电子邮件作为快捷、廉价的现代通信方式,已经成为越来越多人的重要通信选择方式.大量"垃圾"邮件的存在是不争的事实,它们既浪费人们的时间,又占用宝贵的
在分析了原有的支持度--可信度框架不足的基础上,本文介绍了一种新的兴趣度度量:完全可信度、联结度,同时证明了完全可信度和联结度具有的一些性质,然后在划分算法的基础上,提出
日本电电公司横须贺电气通信研究所把非击打式打印机与DIPS 联机使用进行汉字信息输出,具有世界上最高的印刷速度15,000行/分。本印刷机除能印刷汉字外,还具有文字的扩大、