基于Spark平台的关联规则算法应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:osinfobyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网/移动互联网、数码设备、物联网/传感器等技术的发展,社会信息化不断推进,全球数据生产速度在飞快增长。这种数据的巨大规模、广泛存在和爆炸式增长使我们真正存在于一个大数据时代。关联规则挖掘技术是数据挖掘中的一个重要分支,它主要致力于发现和分析大量事务数据集中频繁存在的关联项,这些项与项之间隐藏着先前未知的,有潜在价值的知识和规则。在大数据环境下,经典的关联规则挖掘技术无法满足数据量庞大、数据结构多样、数据分布存储等特点。因此,需要结合已有的挖掘理论和模型,结合海量数据本身的业务特点,对传统关联规则算法进行改进,使其适用于当今流行的大数据计算引擎。本文结合大数据发展的特点以及关联规则挖掘研究现状,基于当下流行的大数据计算引擎Spark展开了关联规则算法的应用与研究工作。主要工作如下:首先,对大数据平台架构进行解析。研究和分析了Hadoop生态系统中用于存储海量数据的HDFS分布式文件存储组件,此外重点研究了大数据分析引擎Spark,包括其体系结构、程序的执行过程、以及Spark计算单元RDD的运行逻辑和缓存机制。其次,对关联规则算法原理以及其优化方向进行研究。本文首先对经典的关联规则算法Apriori做了分析和深入理解。另外,深刻分析了基于Spark平台已有的并行化算法R-Apriori算法。针对经典关联规则Apriori算法存在的两大缺陷:(1)算法迭代过程需要频繁扫描事务数据集,产生大量的I/O开销。(2)算法计算频繁项集会产生大量候选集。本文采取了改变数据存储结构和优化候选集连接过程两大方法对算法进行改进。实验结果表明改进后的Apriori算法扫描数据库时间减少,并且候选集生成时间随着项数的增加成指数下降。然后,本文结合Spark的并行机制,对Spark计算引擎进行了深度解析,理解了Spark计算单元分布式弹性数据集的数据转换过程,并举例说明了并行化改进算法在Spark平台上的运用,验证了算法的可行性。最后,本文基于以上的方法与理论,突破传统串行算法Apriori固有的局限性,搭建Spark实验集群,实现了Spark计算框架下改进Apriori算法的并行化。实验从四个不同角度对本文提出的算法进行性能评价,结果表明该算法在数据伸缩性、不同支持度执行性能以及可扩展性方面都优于基于Spark平台的R-Apriori算法。
其他文献
在信息环境下,高职计算机应用基础教材存在一系列的问题。要重视教材建设,创新教材体例,建立网络立体化的教材服务体系,采用模块化的内容结构组织教学,培养学生自学应用型软
目的 寻找治疗痤疮经济、安全、实用的方案。方法 将患者按治疗需要随机分A、B、C三组,进行疗效、安全性、实用性比较。A仅用外治;B、C只须内服小剂量琥乙红霉素再用不同方
<正>人物小云女哥哥小云的哥哥王老师小云的新班主任,女杨丽小云的同学,女开场独白(画外音)小云是一名职业学校的学生。开学了,原本应升入高二的她选择了放弃,可学校、老师、
期刊
随着对医保、新农保等绩效审计的深入开展,笔者发现生医改过程中存在一些问题,直得引起审计人员的关注和巴考。$$ 基层医院基本药物零差率销售措施实行后,患者药费比过去便宜
报纸
生活美学研究约从上世纪80年代开始,以2000年为界分为前、后两个时期。前一时期是中国传统生活美学研究,是认识论的生活美学研究,它把生活作为审美对象,研究人类的生活审美活
分析了创建韩城大红袍花椒品牌的必要性、优越条件以及韩城大红袍花椒品牌建设中存在的主要问题。提出统一品牌思想认识,抓好品牌产业基础建设;推行花椒无公害生产技术,树立
<正>本刊讯由世界中医药学会联合会睡眠医学专业委员会主办,青海省红十字医院承办,青海省睡眠研究会、甘肃中医药大学附属医院、甘肃省睡眠研究会、《世界睡眠医学杂志》编辑
随着经济社会的快速发展,部队新情况、新问题也随之出现。部队思想政治教育过程作为一个整体的生态系统正经受着各种外在和内在因素的考验,出现相应的生态危机。通过对其生态
本文全面总结了我国野生动物调查的主要方法及应用,分析了已有方法在应用中的问题和缺陷,介绍了国际狩猎场的盘羊资源调查方法——地图样带法,并比较了该方法与样线法得出的
本文设计了一个基于单片机的温室大棚数据采集系统。采用分布式数据采集结构,由AT89S51作为上位机,定时查询分布于大棚中的下位机状态。基于性能与价格的考虑,本系统采用DS18