【摘 要】
:
随着社会的发展,互联网中的数据信息处于爆炸式的增长状态,每天互联网中都会产生海量的数据。可以想象,以后人们所面临的数据规模会越来越巨大。从这些巨大的数据中如何能够
论文部分内容阅读
随着社会的发展,互联网中的数据信息处于爆炸式的增长状态,每天互联网中都会产生海量的数据。可以想象,以后人们所面临的数据规模会越来越巨大。从这些巨大的数据中如何能够快速高效地寻找到有价值的数据资源变得越来越重要。正是在这样的背景下,云计算这个新型的数据处理技术正在快速的发展。MapReduce是云计算技术中的一种并行处理大规模数据的处理模型,它具有简单易用、高可扩展性和高容错性的特点,因此被广泛应用于云计算领域。Hadoop平台是MapReduce编程模型一个具体的应用,目前许多公司和高校都采用它开发和研究云计算技术。然而,它的一些处理机制影响着它性能的发挥。当面对倾斜数据时,原有的分区算法无法均衡的分配数据到各处理节点,这样就导致了处理节点间负载不平衡,并且造成网路负载加重,从而导致集群性能的降低。本文所提出的方法针对MapReduce作业过程中的Partition部分的分区算法进行调整和优化,设计实现了一个基于数据本地性的负载均衡策略(DALP)。通过合理的抽样,对作业数据进行预处理,分析出数据中各key的频数分布情况,然后利用分析的数据制定一个数据聚合策略(DA),该策略考虑了key的数据大小,可以更加合理地为各Reduce节点分配数据,能有效地缓解集群节点的负载不平衡问题,提高了集群整体性能。此外,针对集群中网络带宽制约集群性能的问题,结合对平台数据本地性的深入研究,又提出了一个基于数据本地性的数据分配策略(LP),在数据聚合的基础上利用本地性数据分配方法,能够有效减少集群间数据流动情况,减少网络负载。本文所提出的方法通过实验得到了充分验证,数据倾斜时的负载问题得到了有效地改善。
其他文献
自20世纪90年代中期开始,非真实感绘制(NPR)逐渐成为计算机视觉和计算机图形学的研究热点之一。非真实感绘制和传统真实感绘制的研究内容不同,其目标不在于绘制结果的真实性,
面对日益复杂的社会和政治环境,国家安全、社会安全、个人人生安全和财产安全等都面临着不同程度的威胁,都需要各种安全保护措施。在众多的安保措施中,视频监控系统无疑是最直接
随着计算机网络和多媒体信息处理技术的发展,档案资料的数字化和网络化是信息时代档案工作的发展方向。但因为数字化资料可方便地进行复制和广泛传播,由此引起的滥用、篡改或伪
许多无线传感器网络的协议和应用都需要知道网络中节点的地理位置。节点随机部署的传感器网络具有与ad-hoc网络类似的特点,其分布式和高自由度的网络环境对定位算法提出了很高
互联网络的发展使得VoIP技术得到了更为广泛的应用,并逐步取代传统的PSTN网络.现有的基于C/S模式IP电话系统,用户必须向中心服务器注册才能与其他用户通信,因此中心服务器将
数据分析类系统存在着因用户需求多变导致的核心功能单元变化频繁的特点,使这类系统的开发、应用和维护比较复杂,重复开发现象普遍。因此,迫切需要研究具有一定柔性的系统框架来
QoS(服务质量)多播路由问题已经成为网络领域中研究的重要课题。它是寻找带有约束条件的可行多播树解的NP-Complete问题。QoS约束可以分为连接约束(如带宽),路径约束(如点到
人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系。蛋白质的三维结构与功能有着密切的关系,对蛋白质结构的研究是蛋
图像配准是将两张或多张在不同时间,从不同角度,来自不同传感器以及在不同条件下拍摄到的图像进行匹配的过程。图像配准的目的就是寻找两幅图像之间的变换关系,它在计算机视觉,图
随着各行业对计算能力及计算速度要求的增加,并行计算成为当今计算机科学中一个重要的研究领域。但是并行程序设计是一个复杂且耗费精力的过程,在编码阶段、测试和调试阶段都