一种周期性MapReduce作业的负载均衡策略

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:action005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  MapReduce任务负载均衡主要是通过分区函数来实现的,Hadoop默认的分区函数并不能很好保证reducer的负载均衡。本文针对周期性的业务处理提出了一种基于权重计算的负载均衡策略,周期性任务的数据分布与历史数据相比具有相似性,本策略根据历史数据运行的信息运算出数据权重信息——文中用权重表示每条记录的处理复杂度,再通过Map阶段抽样分析当前这批数据的分布特征来预测待处理数据带权重的整体近似分布情况,从而指导Reduce分区以保证其负载均衡。文章通过简单的例子仿真了整个策略的运作过程,并且对比了与TeraSort思路的不同点。最后通过分析用户访问视频的日志证明了文中提到的策略比默认的策略性能要提高了接近1倍。
其他文献
随着零售行业在国民经济中作用的日益增强,对国民经济增长贡献率的扩大,零售行业已开始成为引导生产和消费的先导型行业。此外,由于国家经济危机往往都通过零售行业销售危机
  为高效、充分的利用GPU,针对GPU的特点,结合虚拟化环境的安全、隔离等特性,借鉴已有的虚拟化技术,提出了一种可动态调度、支持多用户并发的GPU虚拟化技术.CUDA管理端采用
  水泥图像特征提取是水泥建模的重要基础。传统的水泥特征提取在处理大量水泥图像时耗时巨大,且需要大量内存资源。考虑到基于像素的图像特征提取有着可并行化程度高的特点
  文件访问流是一个连续的页面集合,其访问子序列在时间上连续,在空间上有顺序/逆序/跳步/固定点等IO特征的。基于此,遵循page cache 为中心的设计思想,在内核VFS 层构建软件框
  硅酸盐水泥水化反应的极端复杂性使得人工推导水化动力学方程的研究存在很高的难度。通过进化计算方法可以从观测到的硅酸盐水泥水化程度时间序列数据中自动萃取出水化动
  云环境中,借助瘦客户端技术提供软件远程执行服务成为解决移动终端资源局限性问题的有效途径.但移动网及广域网的固有延迟会严重影响交互应用程序远程执行的用户体验.本
会议
  SimK 是由中科院计算所体系结构国家重点实验室开发的一个并行离散时间模拟引擎.基于已经发布的SimK 1.0 版本,对任务划分及同步推进阻塞控制进行了功能扩展,开发了SimK
会议
  在列数据库中,连接操作依然是最核心和最耗时的操作,GPU 强大的计算能力可为此提供新的优化手段.基于Fermi 架构,文中提出了新的Hash Join 算法和Sort-merge Join 算法,
会议
  高性能计算是支撑国家实力持续发展的关键技术之一。论文首先分析高性能计算面临的问题,指出传统高性能计算程序性能优化技术的不足。接着介绍了面向高性能计算程序性能优
  Web服务非功能属性评估是服务选择的重要前提,而目前的服务评估方法没有根据各非功能属性内在特征进行其属性值的评估,也没有考虑用户对多个属性的复杂需求,无法有效的选
会议