论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,人们希望能够对数据进行分析,以便挖掘出其中的关系和规则。数据挖掘技术应运而生,它是目前数据库和信息决策领域最前沿的研究方向之一。关联规则挖掘作为数据挖掘的一个重要分支,其主要目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律。关联规则挖掘问题最初仅涉及事务数据集。事务数据集中不存在属性值丢失的问题,但空缺值广泛存在于日常数据库中。粗糙集正是处理不精确、不确定以及不完全数据的数学理论。它对问题的不确定性的描述或处理比较客观,与其它数据挖掘技术有很强的互补性。另外,对含有离散属性和连续属性的混合数据进行关联规则提取是一个重要的课题,通常的做法是先对连续属性进行离散化预处理,然后进行关联规则提取。本文的主要研究工作包括以下几个方面:(1)分析了现有的对不完备信息系统中空缺值的处理方法及其优缺点,根据粗糙集的上下近似及边界域的概念,提出了不完备系统中关联规则支持度和置信度的新计算方法。使用新的支持度和置信度可以不处理空缺值而直接提取带结论域的关联规则。实例分析验证了算法的正确性和有效性。(2)提出了一种计算候选断点集合的算法,该算法不但能够保证信息系统的分辨关系,而且求得的候选断点集合的基数远小于全部断点总数。算法分析表明该算法减小了后续算法的时间和空间开销。(3)构造了一种双层免疫遗传算法,该算法不进行离散化预处理,而直接在混合数据中挖掘关联规则,克服了连续属性的离散化预处理会使原始信息系统失真的缺点。实验表明,该算法具有良好的计算性能,并且得到有效的关联规则。(4)设计了一个针对不完备系统的混合数据关联规则挖掘模型,应用本文算法在该系统中无需处理空缺值、无需进行离散化预处理而直接提取规则,最后部分实现该模型的功能。