关联规则挖掘Apriori算法的一种改进

来源 :中国市场 | 被引量 : 0次 | 上传用户:xushuai880620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]Apriori算法是关联规则挖掘中的经典算法,但在算法执行中,会多次扫描数据库并产生大量的候选集,导致算法效率降低。在分析Apriori算法的基础上,利用任何一个频繁k+1项集一定可以表示成一个频繁k项集与一个频繁1项集的交集这一性质,产生频繁项集,并减少扫描数据库的次数,提高算法的效率,实验结果也表明,改进算法比Apriori算法有更好的性能。
  [关键词]Apriori算法;关联规则;数据挖掘
  [DOI]10.13939/j.cnki.zgsc.2016.36.086
  1 引 言
  随着计算机技术与数据库技术的迅猛发展,如何从海量的数据中寻找出有效的信息成为了数据挖掘问题中的一项重要研究内容。数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。[1]挖掘关联规则问题可以分解为以下两个子问题:[2]①找出所有频繁项集。这些项集出现的频繁性至少和预定义的最小支持计数一样。②根据定义,由频繁项集产生强关联规则必须满足最小支持度和最小置信度。
  R.Agrawal于1994年首先提出了挖掘关联规则的Apriori算法[3],其基本思想是重复扫描数据库,根据频繁项集的超集才可能是频繁项集这一原理,由长度为k的频繁项集进行迭代计算产生长度为k+1的候选集,再对数据库进行扫描判断其是否为频繁项集。
  很多文献基于Apriori算法提出改进算法,杨志刚[4]等人提出了基于压缩事务矩阵相乘的改进算法,焦学磊[5]等人提出了基于矩阵的频繁项集发现算法,将数据库信息全部以矩阵表示,该方法仅需要对数据库进行一次扫描,有效地减少了算法执行的时间,Najadat[6]等人对Apriori算法的不足之处进行了讨论,并优化了Apriori算法在剪枝过程中计算量大的问题,崔贯勋[7]等人提出对数据库进行一定的处理,使其成为水平结构再进行计算,但该方法需要占用大量的空间,也使得该方法的提高程度受到了限制。
  2 改进的Apriori算法
  2.1 算法的相关概念
  频繁项集具有如下几个性质:[8]
  性质1 频繁项集的所有非空子集都是频繁项集,非频繁项集的超集都是非频繁项集。
  性质2 如果频繁k项集还能产生频繁k+1项集,则频繁k项集中的项数必须大于k。
  2.2 算法思想
  Apriori算法将关联规则的发现过程分成了两个步骤:
  (1)找出所有支持度高于用户设定的最小支持度的项集,即发现所有的频繁项集。
  (2)通过发现的频繁项集构造出满足用户最小置信度的规则。[9]
  但是在执行过程中Apriori算法需要频繁地扫描数据库,这一行为会造成过重的I/O负担[10],改进算法将通过减少数据库扫描次数的方式来减轻I/O负担。
  2.3 实例分析
  依据上述改进的算法,以一个实例对该算法进行分析。表1为事务数据库,设最小支持度为20%,则最小支持度计数等于2。
  2.4 算法实验与分析
  为了验证本文改进算法的有效性,将其与Apriori经典算法进行实验对比,测试的数据库选用本校对高校教师的一次调查问卷,数据库中共有1681条记录,数据库中部分记录如表3所示。因为在本次调查中,教师只需要在24个选项中,选出最符合自己意愿的某几个选项,因此数据的存储采用简单二维表进行记录,用以节省存储空间。
  采用的实验环境:CPU为Intel Core I7 2.60GHz,内存8GB,操作系统为WIN10 专业版,数据库采用SQL2014,算法采用C#语言编写并在VS2012环境下编译,下图是改进算法与Apriori经典算法在不同支持度下执行时间对比。
  不同支持度下两种算法的执行时间对比
  改进算法在效率上优于Apriori算法,并且在最小支持度较小时,改进算法的执行时间相对于Apriori算法具有明显优势,但是随着最小支持度的增加,两种算法的执行时间均大幅减少,Apriori算法与改进算法的执行时间开销非常接近,这是因为随着最小支持度的增加,迭代次数减少,运算过程中产生的频繁项集的数量均大幅度减少,使得算法的执行时间减少。
  3 结论与思考
  本文提出的算法与Apriori算法相比减少了I/O次数,在改进算法中,是以项集中包含元素的数量与最小支持度计数对比判断其是否为频繁项集,不需要对数据库进行多次扫描,而Apriori算法在每次进行剪枝时,需要对数据库进行扫描才能判断生成的项集是否为频繁项集,改进算法是从这一点出发,进行改进从而提高算法的执行效率,减少算法的执行时间。虽然改进算法虽然减少了I/O次数,提高了算法的执行效率,但是算法在执行过程中,需要保存大量的数据,因而需要占用较多的内存空间,因此如何对数据量较大的数据库执行本算法,还有待进一步的研究与改进。
  参考文献:
  [1]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146-149.
  [2]Han J. W.,Kamber M.Data Mining:Concepts and Techniques,数据挖掘:概念与技术[M].范明,孟小峰,等,译.北京:机械工业出版社,2001.
  [3]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论[M].北京:人民邮电出版社,2006.
  [4]杨志刚,何顺月.基于压缩事务矩阵相乘的Apriori改进算法[J].中国新技术新产品,2010,30(6):57-58.
  [5]焦学磊,王新庄.基于矩阵的频繁项集发现算法[J].江汉大学学报:自然科学版,2007,35(1):43-46.
  [6]Najadat H.M.,Al-Maolegi M.,Arkok B..An Improved Apriori Algorithm for Association Rules[J].International Research Journal of Computer Science and Application,2013,(1):1-8.
  [7]崔贯勋,李梁,王柯柯,等.关联规则挖掘中Apriori算法的研究与改进[J].计算机应用.2010,30(11):2952-2955.
  [8]刘兴涛,石冰,解英文.挖掘关联规则中Apriori算法的一种改进[J].山东大学学报:理学版,2008,43(11):67-71.
  [9]熊平.数据挖掘算法与Clementine实践[M].北京:清华大学出版社,2011.
  [10]周超发,王志坚,叶枫,等.关联规则挖掘算法Apriori的研究改进[J].计算机科学与探索,2015,9(9):105-108.
其他文献
现代临床医学的迅速发展,使诸多疑难杂症得到早期发现、早期治疗,病患生存率大大提高。临床诊断举足轻重,各种临床检查手段起到至关重要的作用,而放射线诊断曼是重中之重。本文就
【摘 要】  有人曾经说过:儿童诗是最接近儿童内心世界的一种文学形式。成人对童诗的解读与儿童存在着较大的分歧,这种分歧更是影响课堂教学走向的重要元素。阅读教学只有站在儿童的视角关照文本,才能真正开掘、揣摩出诗歌内在所表达的真实意蕴,契合儿童自身的认知需求。本文提出要关注“意思”,避免生拉硬扯的“意义”探寻;基于“现实”,提供契合需要的“幻想”意境;基于“形象”,强化理性思维的“抽象”过渡;紧扣“链
我指导小学生进行习作训练,完全从小学生的实际情况出发,让小学生积累词句,涵养语言,让小学生借助范文,学习习作训练方法,让小学生在规定的时间内完成习作,逐步提高他们的习
【事件】2004年1月,全国建设工作会议在北京召开,会议着重向与会代表推广常1州t市对老住宅小区整治并转入物业管理工作的经验。
郭德纲在最近的一次“打人纠纷”中犯下了一切可能犯的错误,不过整件事情的起因、他的所有言论则都是值得玩味的:“实话实说我们也是普通人,当初买房子的时候,开发商说,这个给您都
明确引起上呼吸道感染的病原体,为临床诊治提供帮助。方法:1对痰标本分别进行痰涂片抗酸染色、接种血平板进行细菌培养、接种肺炎支原体培养管进行肺炎支原体快速检测。2本次试
“得作文者得语文”这是很多语文教师和同仁的深切感受。细细想来,确实如此。作文作为语文教学的重头戏,利于获得应有的重视,特别是在当前,作文作为展现学生语言文化知識积累和敏锐语言感知的重要内容,更需要予以关注。不过,在教学中忽略了作文的指导,缺少系统性、长期性训练,使得学生在学写作文中仍然是一头雾水,不知所措。对此,迈好作文教学的起步,很有必要。  一、借图写话,熠熠生辉  借图写话,能使得学生在深入
本研究对成都地区2型糖尿病患者及血脂正常者的载脂蛋白E基因多态性及其与血脂和载脂蛋白水平的关系进行了分析,旨在探讨ApoE基因多态性是否与2型糖尿病发病有关,为进一步研
【摘 要】  小学生正处于成长时期,思想认知有限,对任何事物都具有一定的好奇心和求知欲,受外界不良信息的影响极易造成思想上的误区与偏差。所以小学生的德育教育工作非常重要,教师应在实际工作中应针对于学生的问题采取有效的措施,从而提高小学生的思想道德水平。  【关键词】  小学生 德育教育 策略  当今社会对人才素质要求越来越高,德育教育工作已然成为学校教育的重要组成部分。但在实际教育过程中,德育管理
首先介绍了信息素养的内在含义,并在此基础上提出了加强参考咨询员信息素养的意义,随着信息化的不断发展,人们对图书馆参考咨询员的信息素养有了更高的要求。针对信息素养的