论文部分内容阅读
本文首先介绍了数据挖掘的概念、任务及应用;其次给出关联规则的概念、属性、形式和种类;再次对关联规则挖掘技术的几种算法进行了研究分析,给出Apriori算法和FPgrowth算法的优缺点比较,同时论述了散列、事务压缩、杂凑、划分、选样、动态项集计算、基于形式概念分析的关联规则挖掘的改进算法,讨论了关联规则的扩展问题。
对大型超市数据仓库的设计与OLAP的应用进行了描述,引出负关联规则,给出了负关联规则的定义和挖掘算法,也把基于正负关联规则挖掘方法用于超市问题上,分析商品的相关属性,找出正负关联规则,对于正负关联规则带来的一些诸如非频繁项集和自向矛盾等新问题,提出了两个算法:一个是基于两级支持度的同时挖掘频繁项集与非频繁项集的算法;二是结合相关性的研究设计了一个能够同时挖掘频繁项集与非频繁项集中的正、负关联规则算法,从而找到优化的解决方案。
讨论了关联规则的具体应用问题,在挖掘关联规则的同时加入商品利润的概念,针对“关联规则发现需要优先考虑利润,然后才是统计学上的显著性”这一实际问题,提出了具有利润约束的关联规则问题。为了解决该问题,在关联规则问题中引入了利润约束与利润集参数,提出了解决该问题高效的算法。最后研究大型数据库分层次提取关联规则的技术,把一个大型超市的交易数据库中有关食品的交易记录提取出来,对以上基于概念层次树的多层次关联规则算法进行仿真,挖掘出食品间的多层次关联规则。
此外,本文在可信度、支持度的基础上,利用一种新的评估手段反映规则的意义,用来发现那些虽然可信度、支持度较低,但仍然有一定意义的规则,并通过试验进行了证明。