数据倾斜情况下基于MapReduce的连接算法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:luyang123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联、云计算、人工智能、社交网络等技术的普及,数据量正以前所未有的速度增长,传统数据库的数据分析能力无法适应大数据时代。与此同时MapReduce计算框架因为其具有良好的扩展性、高容错性以及PB级以上海量数据离线处理的特点,越来越多地被应用在大规模数据的分析处理中。但是MapReduce计算框架自身设计的特点不能有效地支持连接操作,尤其在数据倾斜情况下的连接操作。而连接操作又是数据分析中最常用且最耗时间的操作之一。因此在MapReduce计算框架下实现数据倾斜情况下的连接操作十分迫切且有意义。  本文主要工作如下:  (1)归纳和总结了大数据的特征和国内外现有的基于MapReduce计算框架的连接算法,介绍了Hadoop平台中三个核心组成部分:分布式文件系统、资源管理器和MapReduce计算框架。  (2)研究了MapReduce计算框架中的两种倾斜:Map端倾斜和Reduce端倾斜。比较Reduce端输入数据和输出数据的影响,以Reduce端输出数据的负载均衡为主要出发点。  (3)提出了数据倾斜连接算法和基于贪心策略的连接优化算法。数据倾斜连接算法通过对关系表中连接键的统计,分别计算倾斜数据连接结果的数量和非倾斜数据连接结果的数量,并分配对应比例的Reducer个数,使得倾斜数据均衡的发送到多个Reducer节点执行连接操作。在数据倾斜连接算法基础上,提出基于贪心策略的连接优化算法进一步优化倾斜数据的分片和发送规则,使得每一个Reducer的负载接近最优负载量或者不明显超过最优负载量。实验结果验证了算法能够有效的解决MapReduce计算框架中连接算法因数据倾斜导致的Reduce端的负载失衡问题。
其他文献
随着通信技术的不断发展以及3G网络和移动互联网的大规模迅速建设,目前发展成有多种异构的无线通信网络同时在市场中出现,网络融合、终端融合及业务融合的需求变得更加迫切。
随着新能源汽车技术的发展,电动汽车已经具备市场化的条件。为了推动电动汽车市场运营份额,实现加电业务的高度集中管理,确保加电站运营商的事业管理职能,进而规范业务运营流
影响IPTV服务质量的主要因素在于分布式文件系统的一些关键策略,这些策略算法的性能直接影响着用户的体验效果和服务器的负载均衡,因此,对这些策略进行改进,是改善IPTV服务质
随着图形处理器(graphics processing unit,GPU)性能的不断提升和可编程灵活性的不断提高,越来越多的计算机图形学建模和模拟工作可以在GPU上有效的实现。图形学建模和模拟工作
近年来,随着现代电子技术、通信技术、计算机技术、自动化技术、人工智能技术在航天领域的应用逐渐广泛,微小卫星综合电子系统朝着高模块化程度、高集成度、高智能化程度、高处
随着芯片制造工艺的提高,处理器的性能有了飞速的提高,然而存储器的性能提成相对较慢,处理器和存储器之间的性能差距越来越大,这种差距很大程度上制约了整个系统的性能。目前比较
在面向LTE的仿真平台中,系统仿真用于验证资源分配、功率分配、小区协作等机制的验证,如果在系统仿真的时候使用链路仿真,会使得系统仿真的时间变得无法接受。链路抽取技术,将系
智能视觉在无人机侦察、导航、精确打击中有重要应用。本文针对航拍图像序列下地面运动目标的跟踪问题展开研究,主要的创新点如下:   1、针对航拍图像序列中车辆的姿态变
移动AdHoc网络(MANET)是无线通讯网络的一个新分支,该网络无需中心管理,不依赖于任何预设的基础设施,即可自行组织成分布式无线通讯网络,能够广泛的应用于各种复杂的环境。因此,越
20世纪七十年代,Markowitz的证券组合选择理论Black-Scholes期权定价理论这两次“华尔街革命”后,计算金融这个融合了物理、数学、计算机科学与金融学的新兴交叉学科因此应运而