论文部分内容阅读
关联规则挖掘作为数据挖掘的一个重要研究分支,由于形式简单、易于理解,且是从大型数据库中提取知识的主要手段,能够有效解决“数据丰富、知识贫乏”的现状,因而具有较大的理论研究与应用价值。本文针对如何提高关联规则挖掘算法效率这一核心问题进行了相关研究,并将研究成果应用到某电子商务个性化推荐系统中。本文的主要研究内容包括:1.首先对数据挖掘相关概念及其基本技术和任务作了介绍,接着阐述了关联规则挖掘领域的相关知识,重点介绍了关联规则的经典算法——Apriori算法,描述了Apriori算法的原理和频繁项集的生成过程,分析了算法存在的性能瓶颈,并且对提高Apriori算法效率的几种现有的方法做了介绍。2.提出基于数据立方体的关联规则挖掘算法(Algorithm Based on DataCube,简称ABDC算法)。关联规则挖掘过程中,频繁的I/O操作,成为影响关联规则挖掘效率的瓶颈之一。虽然现在有一些改进算法对其进行了优化,但是当事务数量急剧增加时,会对算法的执行效率造成较严重的影响。而本文提出的ABDC算法结合了属性分组的思想,利用数据库中事务的包含关系,得到数据库中存在的频繁项集,不仅对事务数量的递增具有不敏感性,而且提高了算法的执行效率。实验结果表明该算法对挖掘大量事务集中存在的关联规则是快速有效的。3.提出基于树结构的关联规则挖掘算法(Algorithm Based on Tree,简称ABT算法)。关联规则挖掘过程中,大量的侯选项集的产生也是影响挖掘效率提高的性能瓶颈之一。ABT算法运用关联矩阵将频繁项集映射到树结构中存储,并利用树中包含部分频繁项集的子树,逐步拓展成包含所有频繁项集的树结构;不仅提高了候选项集的生成效率,而且极大地减少了侯选项集的产生数量。实验结果表明,该算法相比同类算法是快速有效的。4.对提出的ABDC算法和ABT算法作了可扩展性分析比较。定量分析了在处理不同特性的挖掘对象时,这两个关联规则算法所表现出的不同优越性。说明了在实际应用时,需要针对不同的挖掘情况采用恰当的挖掘算法,这样能够更加有效地提高挖掘效率。5.将文中提出的ABDC算法和ABT算法应用到某电子商务个性化推荐系统中,根据业务逻辑的不同充分发挥了算法各自的挖掘特性,提高了推荐系统离线关联规则的挖掘效率。该推荐系统能够在用户的购买过程中,根据当前用户信息,从不同层面给予商品的推荐提示,提高了用户操作过程的友好性;同时,根据推荐系统的挖掘结果,能够对商家的经营决策起到积极的指导作用。