论文部分内容阅读
数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。 关联规则概念最早是由在IBMI作的Rakesh Agrawal博士于1993年提出的,用于刻画事务数据库中交易项目之间的关系,即频繁关系。本文对关联规则挖掘的经典算法:Apriori,AprioriTid,AprioriHybrid以及FUP2算法进行了研究。 抽样对于数据挖掘技术来说实用性很强,因为类似技术在大多数事件中已经极大的满足了使用者的要求,作者想通过使用改进抽样技术来维护关联规则,目前,已经针对数据库改变时维护关联规则做了一些研究。所有这些方法不仅要对原始数据库中改变的部分扫描,同时也要扫描对未改变的部分,工作量很大,要花费很多时间。而且,如果在数据库上更新的规则执行的很频繁但原有规则调整改变不大时,就会浪费大量的精力。在本文中,作者将改进一种抽样技术的算法来估算数据库更新前后关联规则的差别,这种差别可以用来决定是否更新挖掘关联规则,如果估算的差别很小,那么在原始数据库中的规则对于更新过的数据库就是一个很好的近似。因而,作者就不必花费精力去更新规则,在真正更新规则之前作者可以累计部分更新,从而避免了过度频繁的更新规则,实验结果证明此算法是有效的和高度精确的。