基于数据仓库的关联规则抽样算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:sym409198933
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。 关联规则概念最早是由在IBMI作的Rakesh Agrawal博士于1993年提出的,用于刻画事务数据库中交易项目之间的关系,即频繁关系。本文对关联规则挖掘的经典算法:Apriori,AprioriTid,AprioriHybrid以及FUP2算法进行了研究。 抽样对于数据挖掘技术来说实用性很强,因为类似技术在大多数事件中已经极大的满足了使用者的要求,作者想通过使用改进抽样技术来维护关联规则,目前,已经针对数据库改变时维护关联规则做了一些研究。所有这些方法不仅要对原始数据库中改变的部分扫描,同时也要扫描对未改变的部分,工作量很大,要花费很多时间。而且,如果在数据库上更新的规则执行的很频繁但原有规则调整改变不大时,就会浪费大量的精力。在本文中,作者将改进一种抽样技术的算法来估算数据库更新前后关联规则的差别,这种差别可以用来决定是否更新挖掘关联规则,如果估算的差别很小,那么在原始数据库中的规则对于更新过的数据库就是一个很好的近似。因而,作者就不必花费精力去更新规则,在真正更新规则之前作者可以累计部分更新,从而避免了过度频繁的更新规则,实验结果证明此算法是有效的和高度精确的。
其他文献
根据IBM日前发布的全球商务安全指数报告指出,2005年上半年,病毒和犯罪性安全攻击增长了50%,网络安全的形势日趋严峻,入侵检测是P~2DR安全模型的核心部分,也是整个计算机信息安全体
数据挖掘是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。聚类分析是数据挖掘领域中的一个重要研究课题。所谓聚类是将物理或抽象的集合分组成为
当前网络安全的研究有两个侧重点,分别是如何提高安全防护设施的安全性和处理速度。提高安全性的研究致力于利用多种安全防护设施(包括防火墙,入侵检测系统和安全评估系统等)
3D打印技术通常又被叫做增材制造技术。它一般采用逐层叠加的方法将耗材结合在一起。Charles Hull在1983年发明了以液态树脂为材料的3D打印技术。30多年过去了,3D打印技术取
随着计算机技术的飞速发展,信息网络已经成为社会发展的重要保证。信息网络涉及到国家的政府、军事、文教等诸多领域。其中存贮、传输和处理的信息有许多是重要的敏感信息,甚至
近年来,随着IP技术的不断发展和VOIP技术的提出,数据网络通信已经开始融入了传统的话音业务。由于传统语音业务和数据业务的融合具有着巨大的的市场潜力和广阔的发展前景,因此,VO
随着信息产业和集成电路技术的进步,嵌入式应用领域得到了蓬勃和快速的发展.嵌入式应用开发的重要特点是满足应用环境多样化的需求,多样化的需求导致嵌入式开发面临多样化的
随着航空电子系统在军事领域的广泛应用,飞机座舱显示系统的重要性与日俱增,其开发难度和成本也在成倍增加。直到ARINC661规范的诞生,航电领域座舱显示系统的开发现状才得到改善
随着机器学习、数据挖掘等人工智能技术的发展,在线学习系统在个性化、智能化方面有着越来越大的提升空间。现有的个性化学习系统,大都致力于获取学生用户学习兴趣这一个性,
在LTE移动网络系统中,由于移动终端存在进行数据业务时数据传输速率相对较低,且传输时不稳定,不能满足广大用户对于终端上数据应用的需要,针对这个问题,需要采取一定的策略来优化