基于FP-Growth算法改进的多层次关联规则挖掘算法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:singdj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对FP算法的缺陷,将OLAP技术和Apriori关联规则相结合,提出了一种针对FP算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上,给出了该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义。
  关键词:算法改进;多层次;关联规则;数据挖掘
  中图分类号:TP312文献标识码:A文章编号:1009-3044(34)-1994-03
  Multi-level Association Rules with Data Mining Based on FP Arithmetic Improvement
  WANG Juan
  (Cizhou College, Computer Center, Cizhou 247000, China)
  Abstract: Aiming at the problems of FP arithmetic, the OLAP technology was combined with Apriori association rules, and the new arithmetic that aimed the problems of FP arithmetic was given out, which was the FP arithmetic improvement, and on the basis of analyzing the structure of data rules with data mining, the new arithmetic’s theory and its implementation steps were also developed. All of these work was significative for researching data rules with data mining.
  Key words: arithmetic improvement; multi-level; association rules; data mining
  
  1 引言
  众所周知,在实际进行空间数据库和属性数据库设计时,为优化设计,将空间数据库按照地物的类型分成不同的数据层,如道路层,建筑物层等;对属性数据库常常依据范式理论,将其分解为若干通过关键字、外关键字或其他属性相互关联的若干张表的有机组合,这导致了许多空间数据被分别存放在不同层中,而其属性被分别放在不同的表中。挖掘这些表中蕴藏的知识和信息,显然有重要的理论和实践意义。在许多应用场合,空间关联规则的挖掘要求在多个数据层和表中进行。
  对于关联规则算法,传统经典的关联规则Apriori算法有许多不同的改进方法。可能产生大量的候选集以及可能需要重复扫描数据库,是Apriori算法的两大缺点。针对Apriori 算法的固有缺陷,国外有学者提出了不产生候选挖掘频繁项集的方法—FP 算法。FP对不同长度的规则都有很好的适应性,同时在效率上较Apriori算法有巨大的提高。许多应用,特别是电子商务的应用中,在最低层或原始层的数据项之间,可能很难找出强关联规则和有趣的购买模式。在多个概念层的项之间找有趣的关联比仅在原始层数据之间更容易,在较高的概念层发现的强关联规则可能提供普遍意义的知识。因此,我们需要挖掘多层次的关联规则。
  2 基本理论
  笔者研究了一种有效的多层次关联规则挖掘方法,这种方法把FP算法、OLAP技术和Apriori关联规则挖掘算法结合起来。由于在方法中要涉及到数据仓库、OLAP、关联规则挖掘等概念,所以下面先对这些概念进行简要的介绍。
  数据仓库是面向主题的、稳定的、完整的、时变性的数据集合,数据仓库为决策支持提供支持。为了进行有效的数据处理,数据仓库中的一部分必须预先计算,笔者把数据仓库中预先计算的那部分称为数据立方体。
  OLAP是由数据仓库提供的,用于以多层次,多维的形式来操作数据。OLAP的基本操作包括:向上综合,向下考察,局部分析,旋转等。因此,联机分析处理的过程就是根据数据分析的要求,从原始数据中构造各种数据立方体,并对立方体执行有关的操作,把结果返回给用户的过程。
  关联规则是数据间依赖关系的描述,是知识发现研究的重要内容。信息系统S 定义为四元组:(U,A,V,f),U是对象集合,A={a1,a2,…,ap}是属性集合,V=V1∪V2…∪Vp是属性的值域集合,f:U×A→V 定义对象的属性值。通常,属性是可分类的,数据的分类层次(hierarchies) 表示了自底向上的概括(generalization) 和自顶向下的特殊化(specification)。基于分类层次的关联规则挖掘算法主要包括:算法Cumulate 和Stratify,算法ML-T2L1,以及Srikant提出的利用布尔表达限定规则中项目的出现(指定关联规则的形式)提高挖掘针对性的算法。基于分类的方法仅适用于单个属性有清晰分类层次的应用。
  3 关联规则挖掘的结构
  此关联规则挖掘方法是以数据立方体的数据结构为基础,它是把关联规则挖掘和FP算法、OLAP技术合成起来的方法。下面重点讨论OLAP关联规则挖掘的结构。OLAP关联规则挖掘的结构由三部分组成:数据仓库,OLAP引擎和关联规则挖掘引擎。下面分别讨论这三部分。
  1) 数据仓库:
  数据仓库在语义上是用来存储数据,为决策支持提供服务,但也存储一些企业决策时需要的信息。它包括的数据主要有三部分:第一部分是完整的历史数据,这就允许挖掘器能够轻易而快捷地获取整个历史数据;第二部分是已物化的数据立方体,由于物化的数据立方体已存储在数据仓库中,这就为挖掘器节省了好多工作;第三部分是元数据,对挖掘器起来说,元数据可以被看作是路标。元数据不仅用来描述数据的内容而且用来描述信息的上下文环境。一种非常重要的元数据就是概念层次结构。概念层次结构是数据仓库和OLAP的基本要素,它嵌入在维的规范说明中。
  2) OLAP引擎:
  一旦把工作数据立方体建好,在挖掘过程中所需要的完整信息就保存在数据立方体中。这样,数据立方体就可以作为挖掘的数据源,也可作为原始数据和挖掘任务之间的接口。因为数据立方体含有的数据量非常大,所以有必要对数据立方体建立丰富的运算函数。这样OLAP引擎的主要任务就是计算用户的OLAP指令,最后把结果返回给用户界面层。可以看出OLAP引擎在OLAP关联规则挖掘的结构中具有非常重要的作用。
  3) 关联规则挖掘引擎:
  关联规则挖掘引擎是关联规则挖掘系统的一个非常重要组成部分,下面先介绍关联规则的类型,其次讨论关联规则挖掘引擎的框架。
  该论文将提到三种类型的关联规则:维之间的关联规则,维之内的关联规则,合成关联规则。
  维之间的关联规则,规则的主体和头都在不同的维中,如,Location(X,South),Profit(X,Bad)→Product(X,tent)。可以看出,在这个关联规则中所有的项目都在不同的维中,且没有重复。
  维之内的关联规则,所有的项目都在同一维内,因此也称为单维关联规则。如,Product(X,clothes)→Product(X,tent)。
  合成关联规则是上两种关联规则的合成,因此也称为多维相关规则。如,Location(X,South),Product(X,clothes)→Product(X,tent)。
  一般情况下,在产生工作数据立方体后,发现关联规则的任务可以分为两步。第一步是找出所有符合支持度的经常项目集。在此阶段,输入的是与任务相关的工作数据立方体,支持度的最小值和用户的限制条件,输出的是满足条件的经常项目集。根据关联规则的类型,输出的经常项目集可以是单维经常项目集,多维经常项目集或合成项目集。第二步是利用经常项目集产生期望的关联规则。在此阶段,输入的是上一阶段输出的经常项目集,置信度的最小值和用户的限制条件。输出的是满足置信度和用户限制条件的关联规则。
  4 关联规则数据挖掘算法描述
  从上面的讨论得知,在对FP算法进行改进、进行OLAP关联规则挖掘时,可以分为三个步骤:
  1) 预处理:从log 表过滤出相关的信息,然后根据概念层次树,自顶向下,对数据库中的项进行编码,得到编码后的数据库D。
  2) 执行改进的FP算法,分别找出各个层次的频繁项集。
  3) 找出交叉层次的关联规则。
  下面逐一进行说明设计。
  4.1 预处理
  1) 从log表过滤出相关的信息,得出经过数据清洗后的log表d。
  2) 根据概念层次树,自顶向下,对数据库中的项进行编码,得到编码后的数据库D。
  概念层次树可以由专家给出,也可以从数据库和Web 日志生成。
  4.2 执行改进的FP算法
  基本思想:自顶向下,逐层寻找每层的频繁项集。删去不满足阈值的项集。如果其祖先不满足最小支持度阈值,则不需要再计算它的支持度,直接删去即可。
  对于每层(设层号为i)寻找频繁项集,均执行下面步骤:
  1) 找出频繁1项集
  扫描编码后的数据库D,收集每项的支持度。按支持度降序排列,删去不满足对应第i 层的最小支持度的项,结果为频繁1项集,存入频繁项表L[i];同时,删去冗余的多层(后代)频繁1项集。
  2) 构建FP树
  ① 根节点标记为null,它的子节点为一个项前缀子树的集合,还有一个频繁项组成的头表。
  ② 每个项前缀子树的节点有3个域:item-name,count,node_link。item-name 记录该节点所代表的项的名字,count记录所在路径代表的交易中达到此节点的交易个数,node_link 指向下一个具有同样的item-name 域的节点,如果没有这样一个节点,就为null。
  ③ 频繁项头表的每个表项由两个域组成: item-name 和node_link。node_link 指向FP-tree 中具有与该表项相同item-name域的第1个节点。
  创建FP-tree 根节点,记为T,并标记为null。对于D 中每个会话session,执行:选择session 中的频繁项,并按L[i]中的次序排序。设排序后的频繁项表为[p|P],其中p 是第1个元素,P是剩余元素的表。调用insert_tree([p|P],T)。
  函数insert_tree([p|P],T)的运行如下:如果T有一个子结点N,其中N.item-name=p.item-name,则将N 的count域值增加1;否则,创建一个新节点N,使它的count 为1,使它的父节点为T, 并且使它的node_link 和那些具有相同item_name 域串起来。如果P 非空, 则递归调用insert_tree(P,N)。
  3) 递归挖掘FP树:FP-树的挖掘通过调用FP-growth(FP_tree,null)实现
  4.3 找出交叉层次的关联规则
  基本思想:自底向上,从最低层的频繁项集开始,计算交叉层次的频繁项集。对交叉层次的频繁项集,根据满足最小支持度阈值的概率来筛选出合适的频繁项集,删去不满足概率的项集。
  在OLAP关联规则挖掘时,把要挖掘的维称为项目维,而把与这个维相关的另外的维称为事务处理维,产生经常项目集的算法和Apriori算法类似,只是在判断是否满足支持度时,Apriori算法扫描的是交易数据表,而该方法扫描的是部分数据立方体。由于维之内关联规则挖掘的经常项目集产生方法和Apriori算法的一样,而合成关联规则挖掘的经常项目集产生方法是维之内关联规则挖掘和维之间关联规则挖掘经常项目集产生方法的综合,由于篇幅的关系这里只对维之间关联规则挖掘的经常项目集产生方法做一具体介绍。
  维之间关联规则就是存在于一组维之内的相关规则。算法的整个过程也是以Apriori算法为基础。因为项目存在于不同的维中,这里通过利用数据立方体的概念分层结构来直接获取每个项目集的置信度。这个算法的输入条件是n 维的数据立方体CB[d1,d2,……dn]和所要求的最低支持度。
  4.4 算法实验结果对比分析
  为了比较上述多层空间关联规则挖掘算法的效率,用Visual C 在内存为512MB的C4 1.7G计算机上实现了FP算法与本改进算法的性能比较。测试数据集共包括2个数据层各含有5个属性,每个属性泛化后有2~10个属性值,采用的元模式形如 P(t,x)∧Q(t,y)→R(t,z),而各层的最低支持度均为6%,最低信任均为75%。
  测试了算法的随记录的增加时间的变化(时间复杂性),将测试数据库的元组数从1000开始,逐渐递增到5000。两算法的时间复杂性数据曲线如图1所示,从图中矿业发现,两个算法的时间复杂性均较好,不过随数据库规模的增大,针对FP算法的改进OLAP结构算法在执行时间更为迅速,而且在时间的增长上更为平缓一些,所以本论文提出的改进算法是可行的。
  5 结语
  该文中首先对数据仓库、OLAP、相关规则的挖掘进行了总体的介绍,其次全面讨论了OLAP相关规则挖掘的结构,最后讨论了基于FP算法改进,利用OLAP 关联规则挖掘结构实现的多层次关联挖掘算法。
  根据用户及网站的访问使用,为用户提供动态个性化推荐,是电子商务中极为重要的功能。本文提出的挖掘多层关联规则算法,通过数据库和Web 日志构建概念层次树,在继承FP 算法思想的基础上,利用OLAP关联规则的结构,由概念层次树挖掘多层包括交叉层次的关联规则算法。本算法是对数据挖掘算法的必要补充,具有一定的理论意义,不仅能有效地应用于电子商务的个性化推荐,而且能方便地推广到其他有关的应用中。
  参考文献:
  [1] 高峰,谢剑英.多值属性关联规则的理论基础[J].计算机工程,2000,26(11):47-49.
  [2] 王文清,乔雪峰.带有时态约束的多层次关联规则的挖掘[J].北京理工大学学报,2003,23(1):87-90.
  [3] Chen J P, Bian F L, Fu Z L, et al. An Improved Algorithm of Apriori[J].Geomatics and Inform ation Science of Wuhan University,2003(1):94-99.
  [4] 许兆新,周双娥,郝燕玲.最优关联规则的形式和挖掘思想的研究[J].计算机工程与应用,2000(20):118-119.
  [5] 张玉林,仲伟俊,梅姝娥.一类表内多概念间多层次关联规则挖掘算法及应用[J].计算机工程与应用,2001(14):91-92,102.
其他文献
搞要:VFP是Microsoft公司推出的可视化数据库信息管理系统的开发工具。以数据库中表的基本操作为基础,创建视图、查询、报单、报表等,其功能强大,操作快捷方便。该文通过四个方面探讨了VFP数据库是理论与实际中的应用。  关键词:VFP;数据库;表;理论  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)22-615-02  数据库因为具有强大的功能和灵活性,是计算
透视Pointpower教学公开课  李雪  (江苏徐州高等师范学校 现代教育系,江苏 徐州 221116)  摘要:该文是针对一堂Pointpower公开课的设计和教学体会所写,信息技术课是实践性强,信息量大的特点,结合计算机课堂教学方法的研究和实践,对一堂教学课进行剖析,从设计项目任务、创设教学情境、总结评价及反思等方面,透视“任务驱动教学法”教学的基本要点。  关键词:课件;情境;任务;学生
摘要:ERP系统是一项先进的管理工具,实质上是以业务流程为主线,对企业资源进行全面整合的高度集成和标准化的企业管理系统。其目的是在企业资源最优化配置的前提下,用来固化和优化企业的业务流程,整合企业的实时信息,加强企业管理,提升企业竞争力,以达到效率化经营的目标。本文就ERP系统应用的风险意识进行了分析和论述,并对企业应用ERP系统过程中容易产生的风险提出了相应防范和规避策略。  关键词:ERP;风
摘要:对汉诺塔游戏问题进行了研究,发现了对汉诺塔游戏用递归算法实现符合问题逻辑结构。设计了基于JSSE的递归算法实现了手动移盘和自动移盘的游戏功能。  关键词:汉诺塔;盘子问题;游戏设计  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)08-10ppp-0c    1 引言    相传在古印度的布拉玛婆罗门圣庙的僧侣在进行一种被称为汉诺塔的游戏,其装置是一块铜板,上面
摘要:结构化方法与面向对象方法是软件开发程序设计中的2个核心思想。这两种程序设计方法不仅表现为在程序语言、分析与设计上的差异,更表现在开发思想和开发视角上的差异。  关键词:软件工程;结构化;面向对象;程序设计  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)21-30451-02    In Programming Structurized Method and O
摘要:介绍了在Flash8中使用ActionScript2.0制作交互型课件时,如何实现进度控制、临时板书、绘图的几点技巧。  关键词:Flash; ActionScript2.0; 课件; 绘图  中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)08-11ppp-0c    1 引言    Flash是最广泛使用的多媒体课件制作软件之一。利用Flash课件能将抽象的知
摘要:《一句顶一万句》在文坛上引起强烈的震撼。本文以人文关怀为切入视角,试从生存世相演绎、人物形象刻画和精神孤独描摹等三个方面来剖析刘震云对故乡乡民真实生存状态的极大关注,从而探究作家对人物的深情悲悯与期待,解读隐藏在低调叙事表象下的浓郁乡土情怀。  关键词:刘震云 《一句顶一万句》乡土情怀人文关怀   引言  在《一句顶一万句》中,刘震云用冲淡平和的语言叙述在华北平原辐散开去,回避了历史元叙事的
摘要:应用程序安全是一个综合性的课题,它需要在权衡各方面的因素之后,再作出安全策略。因此,本文研究了 Java 应用程序安全,分析了 Java 平台自身的安全体系结构,并且还说明了安全策略的具体实施办法。通过本文的分析,使我们不但从总体上对 Java 应用程序的安全体系有比较清晰的认识,而且对安全思想也有比较深入的分析和理解。  关键词:JAVA;安全体系;安全策略  中图分类号:TP311文献标
摘要:借助GSM的手机短信远程监控技术实现油田输油管道输油状况的远程监控。通过手机短信完成油井端远端采样量传输,同时进行油库端近端采样,并通过串口发送近端采样量到PC机进行远近端采样量的比较,将结果准确及时地进行反馈。其最大特点是远近端的采样、传输和处理是全自动的,给用户提供了一个轻松的环境。  关键词:GSM;手机短信;输油状况;采样;远程监控  中图法分类号:TP278 文献标识码:A 文章编
吴睿峰  1971年生于四川成都。自幼習画,笔耕30余年,致力于写意花鸟。现为国家一级美术师,四川乡情国画院院长,知行堂主人。  在见到他之前,就听闻了他的许多成就:四川乡情国画院院长、知行堂主人、国家一~级美术师,曾经还是国家级羽毛球运动员等等。想象中他的形象应该是身材魁梧,长发披肩,不拘言笑的“画像”,及至见到他时,欣长匀称高大的身段,温文儒雅的坐在一张精致的茶桌边上,谈吐不疾不徐,条理分明又