论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域.本文描述了数据挖掘的概念、功能,数据挖掘系统的结构与分类,以及数据挖掘与传统数据分析工具和机器学习的区别.在众多的数据挖掘算法中,基于关联规则的挖掘是一个重要的研究内容.自Agrawal R等人在1993年提出关联规则的概念,并在1994年提出挖掘关联规则的经典Apriori算法之后,有好多学者对其进行了研究并提出了一些新的算法.本文在对关联规则挖掘问题研究和总结的基础上,对现有的关联规则挖掘算法进行了分类,深入地分析和探讨了一些典型的关联规则挖掘算法,如AIS算法、Apriori算法及基于划分、基于采样、基于哈希等对该算法的一些改进算法、FP-Growth算法、DLG算法等,指出了这些算法的优缺点.同时提出了基于矩阵的挖掘关联规则的ABM算法,并将该算法与经典的发现频繁项集的算法进行了比较,该算法只需要扫描数据库一遍,不需要产生候选集,并且存放辅助信息所需要的空间也要少.作者在Windows 2000环境下用Delphi6实现了经典的Apriori算法和ABM算法,根据实验结果对这两个算法进行了分析和比较.现有的许多挖掘关联规则的算法多是针对历史静态数据库的,而对于关联规则的更新维护问题的研究却比较少.由于应用中的数据库极其巨大,不仅需要设计高效的算法来挖掘关联规则,而且也需要设计高效的算法来更新维护己开采出来的规则.本文讨论了事物数据库D或支持度s发生变化时关联规则的更新问题,针对这一问题,提出了两种算法DUA和UBM算法,这两种算法的核心问题在于如何更好的维护旧的关联规则以及利用己有的结果发现新的关联规则.