论文部分内容阅读
目前,大数据技术在社会各个领域和层面都发挥着巨大作用,且地位不断跃升。能否整合并利用好大数据已经成为政府和各经济体事业成败的关键。作为一种新型的战略资源,大数据具有明显的自身特征:体量大、种类多、产生速度快、实时性要求高、价值密度低,这意味着传统的单机串行算法已不能满足大数据的处理需求,面向多机、并行、分布式的大数据处理方式变得越来越重要。数据挖掘是挖掘数据潜在价值的关键技术,关联规则技术作为一种经典的数据挖掘方法备受关注。传统的关联规则技术认为规则是静态的、一成不变的,只要被挖掘出来便可永久用于指导生产实践。然而,现实中的规则是随着时间变化的,为更好地描述这种规则随时间变化的特性,本文采用了支持度向量SV和置信度向量CV,重点研究动态关联规则的并行分层挖掘方法。首先,本文通过对现有并行技术、并行关联规则挖掘算法和动态关联规则挖掘算法进行研究,提出了一种能够实时高效地处理大量数据的并行关联规则挖掘算法——基于划分的并行分层关联规则挖掘(PHARM)算法。该算法基本思想是将整个数据集D随机分割成若干个非重叠子数据集,并且每个子数据集还可继续划分成更小的子集,进而并行分层地挖掘出局部频繁项集;根据频繁项集先验性质,连接局部频繁项集得到全局候选项集;扫描D统计出每个候选项集的实际支持度,以确定全局频繁项集。并通过建模分析和实验,证明了该算法的高效性和在数据量较大时具有的明显优势。其次,本文在两阶段ITS算法的基础上,将并行分层挖掘思想应用到动态关联规则挖掘的第一阶段,提出了两种适用于动态关联规则挖掘的高效算法:基于划分的并行分层动态关联规则挖掘(PDMD)算法和基于构建候选矩阵的并行分层动态关联规则挖掘(PDMC)算法。前者为找出全局频繁项集L及其频数向量FV需要对整个数据集进行一次扫描;后者利用局部频繁项集构建候选矩阵,不用再次扫描数据库即可获得全局频繁项集L及其频数向量FV。