论文部分内容阅读
关联规则是数据中所蕴含的一类重要规律,对关联规则进行挖掘是数据挖掘中的一项根本性任务。关联规则挖掘通过分析事务数据集,从中挖掘潜在有价值的知识。最为人所熟悉的关联规则挖掘例子有“啤酒与尿布”。
本文首先介绍了数据挖掘技术的相关理论,并结合关联规则的基本概念重点分析了经典Apriori算法。Apriori算法通过设定最小支持度对事务集中的项进行筛选,从而得出所有频繁项集,但是该过程中多次扫描数据库以及生成大量的候选项集极大的制约了该算法的执行效率。接着,本文对粗糙集理论的基本概念作了比较详尽的介绍,并通过一示例介绍了粗糙集理论中的知识约简方法。粗糙集理论是一种能有效的处理不确定、不精确和不完整数据的数学工具,它引入数学中的等价关系,在保持数据的分类能力不变的情况下对数据进行划分。
鉴于粗糙集理论处理模糊不确定知识的特性,本文随后针对Apriori算法实现了一种改进算法--RSApriori算法。RSApriori算法首先通过项集预处理操作对事务集中的项进行筛选,排除无意义的项,这就避免了生成大量的候选项集,然后利用粗糙集理论中的知识约简方法对项集进行约简,这就避免了多次扫描数据库。最后,通过三个实验,将改进的算法与经典的Apriori算法进行比较。
通过实验表明,改进的算法在不改变原始事务集的分类能力的情况下,无论在挖掘效率还是运行时间上都明显比Apriori算法要好。