论文部分内容阅读
从数据集中提取出有价值的信息是数据挖掘领域的一项重要任务,其中关于频繁项集挖掘和高效用项集挖掘的研究已成为热门问题。但无论是在频繁项集挖掘还是高效用项集挖掘,单一的度量都难以体现出项集的更多价值,而且在这两个挖掘任务中所挖掘出的项集结果的数量过于庞大,使得用户对结果的处理十分耗时。针对以上问题,本文的主要工作和创新点如下:
1.为挖掘出更具有价值的项集,本文将支持度度量和效用度量相结合,并引入了封闭项集的概念来减少结果项集的数量,提出了频繁封闭高效用项集挖掘问题。频繁封闭高效用项集作为紧凑表达式,不仅数量较少,还可以提供无损信息。
2.针对频繁封闭高效用项集挖掘问题,本文提出了FrequentClosedHigh-UtilityItemsetMiner(FCHUIM)算法,并提出了多个高效的数据结构和剪枝策略以提升算法性能。其中包括采用了总计列表结构,该结构用于存储项集信息并使算法能够快速访问这些信息;提出了拓展效用剪枝上界,该上界比以往算法所采用的剪枝上界更加紧凑,可以过滤更多的非高效用项集;采用了预检查方法,该方法是一种结合算法的结构与项集的生成顺序所提出的项集包含关系检测策略;提出了嵌套列表结构,该结构可以将筛选后的频繁封闭高效用项集的候选项集按其支持度值存入不同数据块中,使得算法能进一步淘汰非频繁项集的同时能高效挖掘在每一个数据块中的频繁封闭高效用项集。最后,通过在真实数据集和合成数据集上进行的仿真实验验证了FCHUIM算法的有效性,且相对于最新的封闭高效用项集挖掘算法CLS-Miner和CHUI-Miner,本算法拥有更高的性能。
3.随着大数据技术的发展日趋成熟,许多数据挖掘算法都使用分布式平台来提升算法自身的性能和效率。为了满足快速挖掘大数据集的需求,本文采用了Spark平台来实现FCHUIM算法的分布式并行化,并提出了ParallelFrequentClosedHigh-UtilityItemsetMiner(PFCHUIM)算法。仿真实验表明该算法能够满足大数据环境下对频繁封闭高效用项集挖掘的需求,同时大幅提升了算法的性能,具有有效性和可行性。
1.为挖掘出更具有价值的项集,本文将支持度度量和效用度量相结合,并引入了封闭项集的概念来减少结果项集的数量,提出了频繁封闭高效用项集挖掘问题。频繁封闭高效用项集作为紧凑表达式,不仅数量较少,还可以提供无损信息。
2.针对频繁封闭高效用项集挖掘问题,本文提出了FrequentClosedHigh-UtilityItemsetMiner(FCHUIM)算法,并提出了多个高效的数据结构和剪枝策略以提升算法性能。其中包括采用了总计列表结构,该结构用于存储项集信息并使算法能够快速访问这些信息;提出了拓展效用剪枝上界,该上界比以往算法所采用的剪枝上界更加紧凑,可以过滤更多的非高效用项集;采用了预检查方法,该方法是一种结合算法的结构与项集的生成顺序所提出的项集包含关系检测策略;提出了嵌套列表结构,该结构可以将筛选后的频繁封闭高效用项集的候选项集按其支持度值存入不同数据块中,使得算法能进一步淘汰非频繁项集的同时能高效挖掘在每一个数据块中的频繁封闭高效用项集。最后,通过在真实数据集和合成数据集上进行的仿真实验验证了FCHUIM算法的有效性,且相对于最新的封闭高效用项集挖掘算法CLS-Miner和CHUI-Miner,本算法拥有更高的性能。
3.随着大数据技术的发展日趋成熟,许多数据挖掘算法都使用分布式平台来提升算法自身的性能和效率。为了满足快速挖掘大数据集的需求,本文采用了Spark平台来实现FCHUIM算法的分布式并行化,并提出了ParallelFrequentClosedHigh-UtilityItemsetMiner(PFCHUIM)算法。仿真实验表明该算法能够满足大数据环境下对频繁封闭高效用项集挖掘的需求,同时大幅提升了算法的性能,具有有效性和可行性。