基于流的频繁项集挖掘机制的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sgzhou22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年通信技术和互联网技术的不断发展,数据流的价值越来越受到重视,其中隐含着很多有价值且有时效性的信息,而获取这种信息的手段就是数据挖掘技术。关联规则挖掘技术作为数据挖掘技术的重要分支,能够从大量数据中获取本有价值但不明显的关联模式,受到了越来越多的关注。频繁项集挖掘作为关联规则挖掘的核心问题,是关联规则研究的重点。虽然已经提出很多经典的频繁项集挖掘算法,基本能够完成处理大规模数据集的任务,但能够适用于数据流环境的较少,并且大多数采用较复杂的数据结构,难以进行并行扩展,不利于适应各种应用场景。针对以上问题,本文针对数据流中关联规则挖掘进行了深入研究,设计了基于矩阵的并行数据流频繁项集挖掘算法MFIPS。该算法以滑动窗口模型为基础,引入数据分块的策略,将窗口内的原始数据压缩成一个0-1矩阵表示,能够大大提高空间效率。在挖掘过程中通过矩阵行向量间的运算计算项集的支持度,从而获得了很好的并行性和扩展性;应用挖掘中的剪枝策略,提高了算法效率。经实验证明,较同类算法具有更好的时空效率,且结构上更适合分布式并行化实现。同时,本文以MFIPS算法为核心设计并实现了面向数据流的频繁项集挖掘系统。系统利用分布式实时计算框架Storm作为基础,在其上为MFIPS算法设计并实现了事务获取、数据预处理、数据块生成、频繁项集挖掘等几个模块;并且使用Intel AVX指令集优化挖掘核心过程,较传统方法得到了效率上巨大的提升。本文的工作证明了 MFIPS算法在数据流上进行频繁项集挖掘能够有良好的性能和效果,具有实用价值。
其他文献
随着Android平台各项功能的不断完善和发展,越来越多的用户选择使用搭载有Android系统的移动终端。与之相应的,Android应用的数量和种类也快速增长。随之而来的恶意应用及其
改革开放以来,中国经济可谓突飞猛进,伴随着经济的发展,企业间的并购也呈现不断膨胀的趋势。企业并购的规模越来越大,涉及的行业也越来越多,企业并购作为一种重要的资源优化
随着社会的进步、人类生活节奏的加快,人们面临生活和工作的双重压力,导致人的腰酸背痛症状更加年轻化、日常化,部分严重者甚至被迫久卧在床。截至2015年3月,中国慢性病患者
随着无线通信技术的发展,业务类型和传输数据量急剧增加,使得有限的频谱资源变得更加紧张。在无线IP网络中,对数据包报头进行压缩可以提高频谱资源的利用率,其报头压缩效率可
给水加热器的作用是通过冷热介质的换热来提升凝结水的温度,减少了凝汽式汽轮机直接排往凝汽器而实际仍有潜能的蒸汽量,提高了热力系统的换热效率。给水加热器是根据等焓分配
随着未来网络的快速发展,将会产生一个全新并具创新性的服务市场,将会给用户提供一种全新的服务体验,更好的支撑上层的应用和服务是未来网络的主要目标。而目前,科研人员缺乏
近年来,Android智能手机发展十分迅速,但是Android系统的开源性以及应用商城对新发布软件检查力度的薄弱,导致Android平台上的恶意软件日渐增长,单纯依靠病毒分析人员手工处
当今社会,产品质量安全问题日益受到重视,多方面保证产品质量安全刻不容缓。为了更好提高产品质量安全,保证消费者合法权益,本课题在对产品生产过程进行追溯的基础上,联合国
随着移动通信技术和智能终端的快速发展,移动互联网已经深入人们生活的方方面面,智能手机作为接入互联网的工具,不仅为我们提供了通信服务,而且改变了我们的生活方式,如娱乐
外观设计以产品外形或包装的最终形态出现在市场经济中,对各种市场主体产生了直接的影响,因而对市场经济的重要性不言而喻。伴随着经济的飞速发展,传统大陆和英美法系在专利