面向作业组的MapReduce系统设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wdelaopologo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在以搜索引擎与社交网络为代表的互联网应用为我们带来大规模数据资源的今天,MapReduce系统作为一个同时具有高效性、便捷性、容错性等特点的分布式计算系统,越来越广泛地被应用在日志分析、数据仓库、数据挖掘、科学计算等各个领域。基于作业组的MapReduce应用是一类非常重要并且广泛出现的MapReduce系统应用,它包含多个或者多轮作业,这些作业串行或者并行执行,彼此之间具有一定的依赖关系,构成了一个有向图结构。典型的基于作业组的MapReduce应用主要包括迭代作业和有向无环图关联作业两类。常见的PageRank算法就是前者的典型代表;而在Pig、 Hive等基于MapReduce系统的数据库元语言及数据仓库中,绝大多数数据库处理脚本都可以解析成有向无环图关联的作业组形式进行调度与执行。  作业组执行时间的长短取决于系统的利用率以及最长执行路径(即关键路径)的执行效率,因此单个作业的执行效率和整个作业组的调度策略都会影响一个作业组总的执行时间。现有的MapReduce系统处理基于作业组的应用时存在诸多问题:在存在数据倾斜或者异构环境的情况下,现有系统对于实现Reduce负载均衡存在较大问题,使得单个作业影响整个系统的执行时间与并行度,同时使得调度程序无法准确预测作业的执行时间;在全局作业调度的时候,现有系统无法利用作业组中作业之间的依赖关系图进行调度,因此有可能导致系统利用率相对较低。  本文从作业内负载均衡和作业间并行调度两个方面,提出了LIBRA和PISCES两套优化系统,并且将其在Hadoop1.0.0开源系统中进行了实现。  LIBRA系统旨在解决MapReduce中单个作业的动态采样及均匀划分问题。它在部分Map任务执行过程中动态采样,并且将样本传输至Master节点,再由Master节点根据收集的信息对Map任务输出的中间数据分布进行估测,计算区间划分,以此决定每一个Reduce任务所计算的键值区间,使其负载尽可能均匀。  PISCES是一个基于作业间依赖关系的调度系统。它实现了动态添加维护作业组依赖关系的编程接口,并根据当前依赖关系下发合适的作业进行执行,旨在从全局的角度提高整个作业组的执行效率。另外PISCES系统还通过将上游任务的Reduce阶段与下游任务的Map阶段并行化,使得合理调度的基础上进一步提高系统并行度,缩减整个作业组的执行时间。  我们通过一系列常见的MapReduce应用,包括排序应用、倒排索引、PageRank、包含Join和Group等操作的Pig脚本等,对LIBRA系统和PISCES系统相关指标进行了实验测试。实验证明,LIBRA系统对于存在数据倾斜的环境下,可以将单个MapReduce作业的执行时间缩短最高4倍;在不存在数据倾斜的异构环境中,也可以将单个作业总的执行时间缩短最高2倍。PISCES系统通过多级作业的并行化和作业调度,在处理作业组形式的应用时提高最高38%的系统并行度,并提高了最高42%的作业组执行总效率。
其他文献
在对传统的运动控制系统的工作过程进行了详细的分析后,结合FPGA可编程器件的特点,运用了SOPC技术,提出了一种新的系统体系架构。根据任务要求不同的特点,合理地划分逻辑功能,给出
随着CAD技术的发展,现在许多设计工作都由计算机软件完成,这样既方便了文档的存储和检索,也方便了编辑与修改。然而,许多企业早年留下的设计图纸多以蓝图形式存在,原始设计稿丢失
随着人们对公共安全问题日益重视,生物特征识别技术也越来越受到关注。虹膜是人眼中圆环状的纹理区域,由于其唯一性、稳定性、非侵犯性和高防伪性,成为最适合用于身份识别的生物
微博是一种通过关注机制分享简短实时信息的社交网络平台。用户可以通过手持移动设备、电脑等工具进行信息的实时发布,发布的文本信息长度被限制在140个字,内容可以是文字、图
虚假账号问题已经成为在线社会网络(OSN)面临的一个巨大的挑战,其创造的垃圾信息(同志、分享、留言、相册等)极大的影响了社会网络的服务质量。同时假账号的存在也对用户的隐私
多年来,尽管在减少虚拟化虚耗的问题上,业界有着不懈的努力,但是内存虚拟化的额外开销过大的问题对于某些应用程序仍然过于显著,而且至今还无法找到解决该问题的高效且低廉的方案
人脸表情识别在军用和民用领域有着广阔的应用前景,是目前的一个非常活跃的研究领域,其目的是让计算机等机器能够自动辨认出人脸表情。由于人脸表情的复杂和微妙等特性,因此会使
随着信息技术突飞猛进的发展和电脑的广泛普及,使得信息安全越来越受到人们重视。目前,针对信息的保护主要依赖于系统的安全和网络的安全。本文主要是针对系统中文件的安全进行
近年来,教育游戏己经开始应用于基础教育的各个学科之中,并取得了一定的成绩而在国内对教育游戏研究还处于起步阶段,教育游戏在学科教学中的应用也只限于数学英语历史等几门学科
随着信息技术的飞速发展,Internet已成为人们工作生活中不可缺少的重要部分。同时,Internet面临的安全形势严峻,尤其是以木马攻击为主的网络攻击行为危害日益严重,由此造成的经济