基于Mapeduce的海量数据并行处理关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:jrelt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据访问延时是影响系统性能的关键因素之一。在MapReduce环境中,由于输入数据远大于处理代码,不在数据节点执行的Map任务将会引起大量的远程数据访问延时;由于Map任务分布在成百上千甚至更多的节点上执行,且把输出结果存储在节点本地,Reduce任务要访问这些结果必须执行大量的远程I/O操作,而这些操作将引起大量的远程数据访问延时。   本文从分析Hadoop MapReduce环境中任务的调度和执行过程入手,发现MapReduce环境中的资源竞争、调度策略以及数据依赖关系是导致Map任务和Reduce任务引起远程数据访问延时的直接原因。针对任务中存在的数据访问问题,本文研究了改善Map任务和Reduce任务数据访问的预取技术和调度方法,并将研究成果应用于Hadoop MapReduce。   本文的主要工作和贡献如下:   1.Map任务输入数据预取技术研究:提出了最短距离优先的预取技术,这项技术可以在调度前预取任务的输入数据。为了提高利用预取技术隐藏远程数据访问延时的效率,还提出了基于截止时间的任务调度方法。实验结果表明,这项预取技术不仅能隐藏Map任务的远程数据访问延时,还能提高系统的性能。   2.Map任务调度方法研究:提出了结合将来请求信息,优先把任务保留给数据节点执行的调度策略。基于此策略,提出了适用于同构环境的基于将来请求节点的任务调度方法和适用于异构环境的开销敏感的任务调度方法。实验结果表明,这种调度策略不仅可以减少引起远程数据访问延时的任务数,还能降低网络负载。因此,此策略非常适合在网络负载较重的环境中使用。   3.Reduce任务数据预取技术和调度方法研究:提出了基于预调度的预取技术。这项技术将Reduce任务的调度过程分为预调度和正式调度。在预调度阶段,只为任务预取数据;只有进入正式调度阶段,才给任务分配执行所需的CPU和内存资源。因此,这项技术可以在隐藏Reduce任务远程数据访问延时的同时减少它和Map任务之间的资源竞争。实验结果表明,这项技术可以提高MapReduce的性能,缩短系统响应时间。
其他文献
无线mesh网作为因特网“最后一公里”接入方案,能提供一种灵活低成本的高速多跳通信。目前,无线mesh网成为各种无线网络融合的主要技术,被广泛应用于各种无线通信领域。但是,
随着开放式数控系统(Open Numerical Control system,以下简称:ONC系统)的发展,要求数控系统能够兼容多种总线协议、支持不同协议下的总线设备,如伺服驱动器、I/O单元等。而现有
近年来,工作流管理系统已经得到广泛的应用。工作流管理系统的应用,需要有一个设计良好的工作流模型。通过模型可以分析流程的性质和效率,找到可能改进的途径。然而,工作流模型的
随着技术的发展和人们需求的不断提高,实时系统的复杂度在不断地增长,为实时系统的开发带来了巨大挑战。本文在异步扩展层次自动机(Asynchronous Extended Hierarchical Auto
相较于传统的基于口令或令牌的身份认证方式,以指纹为代表的生物特征以其唯一性、便捷性和可靠性,正在逐渐成为未来身份认证的主流手段。但是,近年来随着研究与应用的深入,人们发
随着移动通信技术的迅猛发展,在不同的网络接口在同一台设备上接入一个以上的通信网络成为现实,多条路径上同时传输数据(CMT)的服务能够充分利用网络资源,提高大带宽、时延抖动
稳态强磁场实验装置作为“十一五”国家重大科技基础设施项目,旨在为我国多学科前沿发展提供理想的稳态强磁场极端实验条件。中央控制系统是稳态强磁场实验装置的关键系统,是
硅后时延通路,即时速路径,是制约实际电路最高工作频率的关键路径。而针对时速路径特点及其故障分析、测试等方面的研究,对高性能集成电路的设计和制造均具有重要意义。目前工程
语义Web是当前Web的本质变革,旨在通过本体精确定义Web信息共享词汇的语义,建立数据层面的链接(a Web of data),更好地支持信息共享与Web应用。描述逻辑在其中扮演着重要角色:它
随着VoIP(Voice over IP)逐渐普及,VoIP的安全性已经成为一个重要问题,其中垃圾语音(SPIT,Spam over Internet Telephony)很可能成为进行商品推销、市场调研、骚扰甚至诈骗的工