论文部分内容阅读
随着信息时代的飞速发展,数据库技术的广泛应用,数据会不可避免地出现“膨胀”。人们渴望从这些“膨胀”的数据中挖掘出它们之间的联系,从而获取有用的知识。这是一项非常艰巨的任务。关联规则挖掘应运而生,其目标正是找出数据之间的关系,并形成规则。Apriori算法是关联规则挖掘领域最为经典的算法,但是该算法存在着很多不足。虽然有很多对其改进的相关算法,但是这些改进算法中,有些仍旧会产生候选项集,而有些只能适用于中小规模的数据集。近年来,数据“膨胀”更为严重,人们更是无从下手。现有的关联规则挖掘技术难以有效地从海量数据中挖掘出全部有用信息,粗糙集理论应运而生,并逐渐地向关联规则挖掘领域迈进,主要体现在三个方面:一是在数据预处理阶段,它可以对决策表中的不完整数据进行填充、离散化等等;二是在数据集约简阶段,粗糙集理论可以通过属性约简算法对初始项集进行约简;三是在规则生成阶段,可以利用粗糙集理论中的属性值约简算法来实现。这三个方面充分显示出Rough集理论在关联规则挖掘领域的重要性。将Rough集理论应用于关联规则挖掘领域,一方面解决了从海量数据中挖掘有用信息这一关键问题,另一方面促进了数据挖掘领域的发展,加快了粗糙集理论的发展步伐。鉴于这些优势,本文从理论、算法、实验、模型、实例5个方面将关联规则挖掘提高到了一个新的层次,更加肯定了粗糙集理论的优势。本文重点做了以下具体工作:1、深入地研究了关联规则及关联规则挖掘等相关理论知识,重点探讨了Apriori算法的优点、存在的问题及下一步的改进方向。2、在总结和分析Apriori算法的性能和特点的基础上,针对Apriori算法及其相关改进算法存在的不足,本文引入一种新的数据结构对Apriori算法进行了改进。通过该数据结构,直接生成频繁项集,大大提高了海量数据中挖掘项集的效率。整个过程只需扫描一次数据库,不会产生候选项集。并通过实验对比了新算法与Apriori算法在时间上的运行效率,切实证明了新算法的可行性、高效性。3、在掌握好关联规则挖掘与粗糙集之间的联系的基础之上,深入研究了粗糙集理论的基本知识:知识与知识库、决策表信息系统、知识的绝对约简与相对约简、知识的依赖性表示等等;总结并分析出三种不同属性约简算法的核心思想及其它们之间的异同,并围绕其中的一种算法进行了研究,即通过赋予属性重要度新的定义对属性约简算法进行了优化;并将其应用在关联规则挖掘实例中,经验证,新算法产生了良好的效果。4、构建了一种模型,并将粗糙集理论及其以上两个改进内容加入到了该模型中。