面向超市数据的关联规则挖掘算法研究及其应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:notfeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了数据挖掘的概念、任务及应用;其次给出关联规则的概念、属性、形式和种类;再次对关联规则挖掘技术的几种算法进行了研究分析,给出Apriori算法和FPgrowth算法的优缺点比较,同时论述了散列、事务压缩、杂凑、划分、选样、动态项集计算、基于形式概念分析的关联规则挖掘的改进算法,讨论了关联规则的扩展问题。 对大型超市数据仓库的设计与OLAP的应用进行了描述,引出负关联规则,给出了负关联规则的定义和挖掘算法,也把基于正负关联规则挖掘方法用于超市问题上,分析商品的相关属性,找出正负关联规则,对于正负关联规则带来的一些诸如非频繁项集和自向矛盾等新问题,提出了两个算法:一个是基于两级支持度的同时挖掘频繁项集与非频繁项集的算法;二是结合相关性的研究设计了一个能够同时挖掘频繁项集与非频繁项集中的正、负关联规则算法,从而找到优化的解决方案。 讨论了关联规则的具体应用问题,在挖掘关联规则的同时加入商品利润的概念,针对“关联规则发现需要优先考虑利润,然后才是统计学上的显著性”这一实际问题,提出了具有利润约束的关联规则问题。为了解决该问题,在关联规则问题中引入了利润约束与利润集参数,提出了解决该问题高效的算法。最后研究大型数据库分层次提取关联规则的技术,把一个大型超市的交易数据库中有关食品的交易记录提取出来,对以上基于概念层次树的多层次关联规则算法进行仿真,挖掘出食品间的多层次关联规则。 此外,本文在可信度、支持度的基础上,利用一种新的评估手段反映规则的意义,用来发现那些虽然可信度、支持度较低,但仍然有一定意义的规则,并通过试验进行了证明。
其他文献
约束可满足问题,广泛存在于科学研究和工程实践中。如人力资源配置问题、农作物布局优化问题、工程设计方案优化问题和资源分配优化问题等,都属于约束可满足问题。这类问题的特
随着计算机和网络技术的不断发展,云计算逐步作为一种全新的计算模型,被提出并不断加以改进,经过学术界和产业界的共同推进,正在从理论基础走向实践,我国政府也投入了大量的财力和
随着科技的不断进步,LEO卫星网络成为一种必不可少的通信网络。就目前而言,多媒体业务成为LEO卫星通信系统的主要业务。单一业务的信道预留策略已经不能满足当前需要,于是针
云计算是一种在因特网上涉及数据和计算外包的计算模式,该模式是基于虚拟化和分布式计算技术之上。快速发展的云市场正在提供商和开发资源的服务生态系统中涌现出许多新的服务
移动Ad hoc网络具有组网速度快、抗毁、自愈能力强等优点,在军事和民用领域得到越来越广泛的应用。Ad hoc网络研究的创新性、前沿性、多学科交叉性以及实用性,使得这一研究领
图像序列中动态目标的检测与跟踪已成为计算机视觉的一个重要的研究方向。随着计算机硬件技术和计算机视觉技术的发展,基于计算机视觉的ITS、无人侦察技术等称为可能,其中视频
Internet具有的海量、异构、动态变化等特性使Web信息抽取不同于传统信息抽取,同时带来了新的挑战。首先,面对呈几何级速度增长的巨大的Web信息空间,如何自动高效地处理海量W
现在社会人们生活水平不断提高,对自身健康越来越关注,医疗图像诊断广泛应用。数字医疗兴起,医用显示器取代胶片成为影像诊断的主要工具。医用显示器具有高稳定性、整体一致等特
广义上,程序设计过程就是定理证明过程,因而程序综合与机器定理证明关系密切。通过一般情况下,构造性的证明过程才能抽取程序。归结原理是一种反证法,人们早已知道可以从归结
当前城市交通系统的发展重点是如何在Internet环境下建立交通应用系统,实现广域范围内的资源共享与协同操作。传统的软件技术体系无法有效地适应城市交通系统发展过程中所呈