面向作业组的MapReduce系统设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：wdelaopologo

【摘要】

：

在以搜索引擎与社交网络为代表的互联网应用为我们带来大规模数据资源的今天，MapReduce系统作为一个同时具有高效性、便捷性、容错性等特点的分布式计算系统，越来越广泛地被应

【作者】

：

姚金宇

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2013年期

【关键词】

：

作业组应用 MapReduce系统数据倾斜区间划分作业调度并行化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在以搜索引擎与社交网络为代表的互联网应用为我们带来大规模数据资源的今天，MapReduce系统作为一个同时具有高效性、便捷性、容错性等特点的分布式计算系统，越来越广泛地被应用在日志分析、数据仓库、数据挖掘、科学计算等各个领域。基于作业组的MapReduce应用是一类非常重要并且广泛出现的MapReduce系统应用，它包含多个或者多轮作业，这些作业串行或者并行执行，彼此之间具有一定的依赖关系，构成了一个有向图结构。典型的基于作业组的MapReduce应用主要包括迭代作业和有向无环图关联作业两类。常见的PageRank算法就是前者的典型代表;而在Pig、 Hive等基于MapReduce系统的数据库元语言及数据仓库中，绝大多数数据库处理脚本都可以解析成有向无环图关联的作业组形式进行调度与执行。　　作业组执行时间的长短取决于系统的利用率以及最长执行路径（即关键路径）的执行效率，因此单个作业的执行效率和整个作业组的调度策略都会影响一个作业组总的执行时间。现有的MapReduce系统处理基于作业组的应用时存在诸多问题:在存在数据倾斜或者异构环境的情况下，现有系统对于实现Reduce负载均衡存在较大问题，使得单个作业影响整个系统的执行时间与并行度，同时使得调度程序无法准确预测作业的执行时间;在全局作业调度的时候，现有系统无法利用作业组中作业之间的依赖关系图进行调度，因此有可能导致系统利用率相对较低。　　本文从作业内负载均衡和作业间并行调度两个方面，提出了LIBRA和PISCES两套优化系统，并且将其在Hadoop1.0.0开源系统中进行了实现。　　LIBRA系统旨在解决MapReduce中单个作业的动态采样及均匀划分问题。它在部分Map任务执行过程中动态采样，并且将样本传输至Master节点，再由Master节点根据收集的信息对Map任务输出的中间数据分布进行估测，计算区间划分，以此决定每一个Reduce任务所计算的键值区间，使其负载尽可能均匀。　　PISCES是一个基于作业间依赖关系的调度系统。它实现了动态添加维护作业组依赖关系的编程接口，并根据当前依赖关系下发合适的作业进行执行，旨在从全局的角度提高整个作业组的执行效率。另外PISCES系统还通过将上游任务的Reduce阶段与下游任务的Map阶段并行化，使得合理调度的基础上进一步提高系统并行度，缩减整个作业组的执行时间。　　我们通过一系列常见的MapReduce应用，包括排序应用、倒排索引、PageRank、包含Join和Group等操作的Pig脚本等，对LIBRA系统和PISCES系统相关指标进行了实验测试。实验证明，LIBRA系统对于存在数据倾斜的环境下，可以将单个MapReduce作业的执行时间缩短最高4倍;在不存在数据倾斜的异构环境中，也可以将单个作业总的执行时间缩短最高2倍。PISCES系统通过多级作业的并行化和作业调度，在处理作业组形式的应用时提高最高38％的系统并行度，并提高了最高42％的作业组执行总效率。

其他文献

基于SOPC的运动控制系统中数据传输的设计与实现

在对传统的运动控制系统的工作过程进行了详细的分析后，结合FPGA可编程器件的特点，运用了SOPC技术，提出了一种新的系统体系架构。根据任务要求不同的特点，合理地划分逻辑功能，给出

学位

运动控制系统数据传输网络编程多线程技术

面向印刷设计的图像理解和分割技术研究

随着CAD技术的发展，现在许多设计工作都由计算机软件完成，这样既方便了文档的存储和检索，也方便了编辑与修改。然而，许多企业早年留下的设计图纸多以蓝图形式存在，原始设计稿丢失

学位

印刷设计稿图像理解印前处理图像分割区域生长颜色模型

形变虹膜图像的鲁棒特征表达与匹配

随着人们对公共安全问题日益重视，生物特征识别技术也越来越受到关注。虹膜是人眼中圆环状的纹理区域，由于其唯一性、稳定性、非侵犯性和高防伪性，成为最适合用于身份识别的生物

学位

生物特征识别形变虹膜鲁棒特征表达图像匹配多通道特征融合

微博用户兴趣标签提取研究

微博是一种通过关注机制分享简短实时信息的社交网络平台。用户可以通过手持移动设备、电脑等工具进行信息的实时发布，发布的文本信息长度被限制在140个字，内容可以是文字、图

学位

微博用户关键词提取兴趣标签提取个性化推荐TextRank算法

VoteTrust:基于好友申请图的社会网络虚假用户检测系统

虚假账号问题已经成为在线社会网络(OSN)面临的一个巨大的挑战，其创造的垃圾信息（同志、分享、留言、相册等）极大的影响了社会网络的服务质量。同时假账号的存在也对用户的隐私

学位

VoteTrust在线社会网络假账号攻击链接分析虚假用户检测垃圾账号

一种内存虚拟化优化方案

多年来，尽管在减少虚拟化虚耗的问题上，业界有着不懈的努力，但是内存虚拟化的额外开销过大的问题对于某些应用程序仍然过于显著，而且至今还无法找到解决该问题的高效且低廉的方案

学位

内存虚拟化内存管理优化方案应用程序影子页表硬件辅助页表

基于典型相关分析的人脸表情识别方法研究

人脸表情识别在军用和民用领域有着广阔的应用前景，是目前的一个非常活跃的研究领域，其目的是让计算机等机器能够自动辨认出人脸表情。由于人脸表情的复杂和微妙等特性，因此会使

学位

人脸表情识别典型相关分析协方差矩阵稀疏权值自适应权值

可信加密磁盘的设计与应用

随着信息技术突飞猛进的发展和电脑的广泛普及，使得信息安全越来越受到人们重视。目前，针对信息的保护主要依赖于系统的安全和网络的安全。本文主要是针对系统中文件的安全进行

学位

虚拟磁盘透明加解密USBKey可信计算

应急虚拟训练游戏引擎关键技术的研究与实现

近年来，教育游戏己经开始应用于基础教育的各个学科之中，并取得了一定的成绩而在国内对教育游戏研究还处于起步阶段，教育游戏在学科教学中的应用也只限于数学英语历史等几门学科

学位

游戏引擎场景建模编辑

基于行为分析的木马攻击检测系统研究与实现

随着信息技术的飞速发展，Internet已成为人们工作生活中不可缺少的重要部分。同时，Internet面临的安全形势严峻，尤其是以木马攻击为主的网络攻击行为危害日益严重，由此造成的经济

学位

木马行为分析告警聚类序列识别木马攻击检测可信度分析数据挖掘

面向作业组的MapReduce系统设计与实现

其他学术论文