Top-rank-k频繁模式挖掘算法优化及其并行化研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:yq_ma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是当前数据库和信息决策领域的前沿研究方向之一,top-rank-k频繁模式挖掘是数据挖掘中挖掘rank不大于k的频繁模式的方法,可以解决传统频繁模式挖掘支持度阈值设置困难的问题。但主流的top-rank-k频繁模式挖掘算法效率有待提高,且这类算法普遍基于串行设计,难于突破单机硬件资源限制,无力应对“大数据”时代的海量数据挖掘任务,因此关于top-rank-k频繁模式挖掘算法优化及其并行化研究具有重要意义。本文的主要工作如下:(1)针对当前top-rank-k频繁模式挖掘时空耗费大的问题,提出了一种基于混合搜索的top-rank-k频繁模式挖掘算法HTK(Hybrid-search-based Algorithm of Top-rank-k Frequent Patterns),其主要思想是:定义名为RSL(Static Doubly-linked List of Top-rank-k)的静态双链表存储top-rank-k频繁模式,采用1-模式的支持度及其在事务中后缀项的基数设计了模式区分方法,把模式区分为短模式和长模式。挖掘过程中,首先利用基于贪心策略的rank-first-search方法挖掘频繁短模式,始终连接RSL中尚未连接的rank最高的模式,使具有高rank的频繁模式优先产生;然后,利用长度最长的短模式,通过逐级搜索挖掘频繁长模式。此外,算法还设计了合理的剪枝策略,优化了包含索引的生成方式,使挖掘工作面对稀疏或稠密数据集同样有效。(2)为了应对海量数据的挖掘任务,提出了一种基于Spark的top-rank-k频繁模式并行挖掘算法STK(Spark-based Mining Algorithm of Top-rank-k Frequent Patterns),其基本思想是:首先,引入分治思想,对项进行编组分发至各节点,并将事务根据各节点所属的项切割划分;然后各节点执行HTK算法,挖掘前缀项为该节点所属项的top-rank-k频繁模式;最后聚合各节点挖掘结果,输出目标模式。为实现负载均衡,STK还依据数据特性设计了负载均衡策略和数据划分方法。利用真实数据集与合成数据集,分别对提出的HTK和STK算法进行了实验验证,结果表明:HTK算法比现有单机算法具有更好的时空效率;STK算法能够有效挖掘大数据环境下的top-rank-k频繁模式。
其他文献
在自然界中,不论是人类、各种生物,还是我们所处的生态环境,都是一个有机的整体。即使从微观角度来看,一个细胞内的各种生命活动也是一个完整的反应网络,并不是孤立存在的。
无线传感器网络(WSNs)作为物联网的底层基础设施,扩展了人们收集外界信息的能力,实现了信息世界与物理世界的融合。然而,传感器节点的计算能力、存储能力、通信能力以及能量
随着对二维(2D)过渡金属二硫化物材料(TMDs)的深入研究,零维(0D)TMDs材料因其独特的性质受到了研究者的广泛关注。0D TMDs材料主要包括量子点、纳米点、纳米颗粒等。与2D TMDs材料
无线传感网络技术自从新世纪以来,从理论已经走入生活,对于无线传感网络中的微小节点,用户希望的是让它们持续的、稳定地工作,但是现实因素是许多无线传感网络节点(Wireless
在过去的几十年中,基于金属氧化物半导体材料的薄膜晶体管(TFTs)由于其独特的特性(如高场效应迁移率,大面积均匀性和可见光范围内的高透明度)而受到了广泛的关注。TTFs现在已经广
在一个单处理器的实时调度系统中,任务加速或者新任务插入所导致的超负荷可以通过任务压缩来应对,这就是弹性调度中的带宽转让。但是为了避免实际的新任务插入过程中可能会发
双基地相干MIMO雷达是将双基地雷达和MIMO技术有机结合而成的一种新体制雷达,具有高精度、宽覆盖等诸多优良特性,已成为现代雷达的重要发展方向之一。本文仅针对双基地相干MI
随着网格计算、并行计算以及分布式计算发展的不断发展,新兴的IT模式—云计算技术应运而生。云计算是指用户可以按照自己的业务需求,通过网络以一种廉价的方式来获取云计算所
据统计,大量药物分子或生物活性物种中普遍存在吡啶单元结构。例如:丝氨酸蛋白酶抑制剂、埃索美拉唑、醋酸阿比特龙、浅蓝霉素、JAK-3激酶等在治疗癌症及免疫防御等一系列生
近些年来,通信技术的高速发展催生了移动终端市场的繁荣景象,各种移动设备层出不穷。5G网络的提出更是揭开了“万物互联”的时代序幕,移动终端的数量将呈现爆炸式增长,特别地