基于投影数组和加权FP-tree的频繁项集挖掘算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:aumqspthccx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘是数据挖掘领域中一个比较关键的问题。然而,从大型稠密数据集中挖掘频繁项集存在三个主要的瓶颈问题:第一,算法的挖掘效率不是很高;第二,产生的频繁项集的数量太多;第三,没有采用合理的约束思想,不能有效的挖掘用户兴趣模式。本文针对这些问题,将研究重点放在频繁项集挖掘算法上,其研究成果可广泛应用于客户购买行为模式预测、序列分析和软件安全分析等领域。首先,本文提出了基于投影数组的频繁项集挖掘算法MFIPA。基于垂直和水平混合数据格式,通过交集操作找到与单个频繁项共同发生的项集,产生投影数组PArray;然后,通过单个频繁项与其投影的非空子集合并及深度优先搜索策略的使用,挖掘所有的频繁项集。其次,为了减少频繁项集的数量,设计了一个新颖的频繁闭项集挖掘算法FCIL-Mine。基于投影数组,首先提出了频繁闭项集框架数据结构FCIL,该框架主要是用来存储频繁闭项集的一些信息。然后,通过哈希检测和包含检测剪枝策略的使用,进而挖掘所有的频繁闭项集。最后,提出了一个基于加权FP-tree及长度递减支持度约束的加权频繁项集挖掘算法LWFI-Mine。该算法可以有效的挖掘满足用户兴趣的项集。首先通过扫描数据库,构造数据结构加权FP-tree。然后提出加权最小有效扩展性质WSVE及基于此性质的三种剪枝策略:事务剪枝、结点剪枝和路径剪枝,缩小了FP-tree的搜索空间,进而挖掘所有满足约束的频繁项集。本文使用C++语言对上述算法进行实现,采用稀疏的人工数据集T40I10D100K和稠密的真实数据集Connect进行频繁项集挖掘实验研究。
其他文献
传统农业生产中,由于农民盲目施肥现象严重,这样不仅造成肥料利用率下降,也增加了农业生产的成本,使得耕地地力下降,而且也带来严重的环境污染,威胁农产品质量安全。研究表明,测土配
随着计算机技术和互联网的发展,电子文档得到越来越广泛的应用,其安全性也得到日益重视,而电子公文、电子图书以及各种商业领域等应用环境的多样化,对文档用户权限管理提出了更新
面向组件编程是一种组织代码的思路,其核心概念是服务和组件。将系统看作一个个的组件,通过服务来定义组件之间的协作关系,完成系统的构建,从而能够隔离变化,并合理的划分系
随着计算机网络的普及应用,基于网络的空间信息资源正日益丰富,其应用领域也在快速地拓展,以满足全社会对空间信息的需求。开放的Internet虽然为Web GIS提供了广阔的社会应用前
网络技术的快速发展和多媒体产业的迅速发展已经越来越在我们的日常生活中产生重要的影响。我们也很容易就接触到很多数字音频资源。随着人们知识产权意识的不断增强,这些巨大
随着计算机技术的日益发展和防护林体系建设的变革,以及森林可持续经营对森林资源信息利用的要求,促使了防护林体系空间配置调整思想在林业研究领域中的日渐深入。使用防护林体
随着集成电路工艺的不断提高,系统芯片的设计和验证工作日益复杂,基于FPGA原型实现的动态验证技术,可以提供接近ASIC实现的仿真速度。基于FPGA硬件原型的软硬件协同设计环境,能够
随着计算机技术的发展与数字图书馆资源建设的深入,数字图书馆中电子论文等数字资源的总量日益增多。目前,常见的基于关键词的电子论文检索服务,主要是通过用户输入需要查询的关
词义消歧是计算语言学领域的基础研究课题之一,长期以来在机器翻译中扮演重要角色。在Internet迅速扩张的今天,词义消歧也是提高信息检索性能的重要途径。本文针对有指导词义消
超声电机是一种全新原理的直接驱动电机,它是利用压电陶瓷的逆压电效应使定子产生超声振动,通过定子和转子间的摩擦力来驱动转子运动。超声电机具有体积小、重量轻、结构紧凑、