基于数据立方体和树结构的关联规则算法研究及其应用

来源 :江苏大学 | 被引量 : 8次 | 上传用户:sicong907171
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘作为数据挖掘的一个重要研究分支,由于形式简单、易于理解,且是从大型数据库中提取知识的主要手段,能够有效解决“数据丰富、知识贫乏”的现状,因而具有较大的理论研究与应用价值。本文针对如何提高关联规则挖掘算法效率这一核心问题进行了相关研究,并将研究成果应用到某电子商务个性化推荐系统中。本文的主要研究内容包括:1.首先对数据挖掘相关概念及其基本技术和任务作了介绍,接着阐述了关联规则挖掘领域的相关知识,重点介绍了关联规则的经典算法——Apriori算法,描述了Apriori算法的原理和频繁项集的生成过程,分析了算法存在的性能瓶颈,并且对提高Apriori算法效率的几种现有的方法做了介绍。2.提出基于数据立方体的关联规则挖掘算法(Algorithm Based on DataCube,简称ABDC算法)。关联规则挖掘过程中,频繁的I/O操作,成为影响关联规则挖掘效率的瓶颈之一。虽然现在有一些改进算法对其进行了优化,但是当事务数量急剧增加时,会对算法的执行效率造成较严重的影响。而本文提出的ABDC算法结合了属性分组的思想,利用数据库中事务的包含关系,得到数据库中存在的频繁项集,不仅对事务数量的递增具有不敏感性,而且提高了算法的执行效率。实验结果表明该算法对挖掘大量事务集中存在的关联规则是快速有效的。3.提出基于树结构的关联规则挖掘算法(Algorithm Based on Tree,简称ABT算法)。关联规则挖掘过程中,大量的侯选项集的产生也是影响挖掘效率提高的性能瓶颈之一。ABT算法运用关联矩阵将频繁项集映射到树结构中存储,并利用树中包含部分频繁项集的子树,逐步拓展成包含所有频繁项集的树结构;不仅提高了候选项集的生成效率,而且极大地减少了侯选项集的产生数量。实验结果表明,该算法相比同类算法是快速有效的。4.对提出的ABDC算法和ABT算法作了可扩展性分析比较。定量分析了在处理不同特性的挖掘对象时,这两个关联规则算法所表现出的不同优越性。说明了在实际应用时,需要针对不同的挖掘情况采用恰当的挖掘算法,这样能够更加有效地提高挖掘效率。5.将文中提出的ABDC算法和ABT算法应用到某电子商务个性化推荐系统中,根据业务逻辑的不同充分发挥了算法各自的挖掘特性,提高了推荐系统离线关联规则的挖掘效率。该推荐系统能够在用户的购买过程中,根据当前用户信息,从不同层面给予商品的推荐提示,提高了用户操作过程的友好性;同时,根据推荐系统的挖掘结果,能够对商家的经营决策起到积极的指导作用。
其他文献
人脸表情模拟动画是计算机图形学中最富有挑战性的课题之一,可以广泛应用于计算机动画行业、游戏行业、远程会议、代理和化身等许多领域,是近几年来国际上的研究热点。本文在
随着计算机的普及和互联网的飞速发展,互联网上的信息资源数量正呈爆炸性的增长,用户从互联网上获取信息资源也日渐成为主要的信息交流渠道。但互联网上的信息资源良莠不齐,
随着移动互联网的飞速发展,智能手机、平板电脑、智能眼镜、智能手表等各种智能终端越来越普及,用户不仅使用智能终端进行通信和娱乐,还使用智能终端进行办公,甚至处理一些敏
本体作为描述语义Web信息的一种模型,通过良好的概念层次结构、类、描述构造子、概念之间的属性关系和对逻辑推理的支持等来表达信息的语义。由于本体提供带有语义信息的一种
网络的高速发展使得组建网格成为可能。网格是通过Internet将分散的计算机虚拟成一个超级计算机,将网络中闲置的资源(包括计算资源、存储资源以及科学仪器等)有效地管理利用,
信息安全的核心是数据库的安全,对数据库中重要数据或敏感数据进行加密处理是一个有重要理论价值和现实意义的研究课题,但是目前大多数的大型数据库都还没有使用数据库加密这
随着互联网的普及和信息技术的不断发展,网络已经成为大众生活不可或缺的一部分,人们通过网站可以浏览到感兴趣的信息,还可以学习、交流、购物等等。对于企业来说,主要通过网站开
计算机网络的产生使得人们进入了一个信息化的时代,网络为大众传输和获取信息提供了极大的便利,但因系统漏洞、非法手段等方式使得各种重要信息的安全性和完整性等受到极大的威
随着近20年来网络技术的发展,使得数字化信息席卷全球。数字化信息的爆炸式增长,导致数据的存储方式发生变革,发生了服务为中心的存储方式到数据为中心的存储方式的转变。SAN
病毒检测与防御是计算机安全问题中的一个重要的研究课题。目前,病毒的花样不断的翻新,并大量的使用了多重加密壳、驱动关联壳、变形壳等代码保护机制以及多态和变形等新的技