云计算环境下排序算法性能的研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:damoxian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算环境中数据量的激增,人们急需研究在云环境下如何对大量数据进行快速有效的分析与处理。在云环境下对大量数据进行高效地排序是其中一个重要问题。一些被广泛使用的排序算法是否能在云计算系统中高性能运行,运行时所需要消耗的云计算资源量都是令人非常关注的问题。本文主要进行Hadoop平台上快速,高效,集群负载均衡度高,资源消耗少的排序算法的研究,主要工作为:1)分析研究串行系统中效率较高的排序算法。在熟练掌握MapReduce编程框架和Hadoop体系结构的基础上,对Radixsort,Quicksort以及Sample sort在Hadoop平台上进行实现。分别对Radix sort,Quicksort和Sample sort的算法思想及在串行和并行系统中的复杂度问题进行比较分析。2)对基于 Hadoop 平台的 Radix sort,Quicksort 和 Sample sort 的执行效率、CPU资源的消耗,内存的消耗,以及处理机间的通信量进行研究和比较分析。通过大量运行在Hadoop上的实验,发现Hadoop平台上的Sample sort相较于Radix sort和Quicksort具有排序速度快,负载均衡度高,CPU消耗低等优势。这一结果为云计算环境下设计更高效、节能的算法提供了有效的依据和基础。3)针对不均匀数据集的高效排序问题,研究并提出了一种排序效率高,负载均衡度高的随机化分区Sample sort算法。Sample sort是一种在云计算环境中大量使用的排序算法。在数据可以均匀分割的情况下,sample sort算法把数据分割成为多个数据块,高速并行地对数据块进行排序。Sample sort在处理一些密度均匀的数据集时具有较高效率,而现实生活中的数据集往往分布极不均匀。为了解决密度分布不均匀数据集的排序问题,提出了一种随机化分区的样本排序算法,Randomized Partition Sample Sort(RPSS)。它引入了一个随机化分区函数,能够使得密度不均匀数据相对均匀的分布。通过大量运行在Hadoop集群上的实验,发现RPSS对分布不均的数据集排序效率比传统的样本排序有显著的提高,并且提高了 Hadoop集群的负载均衡度,降低集群故障率。
其他文献
冷成型钢结构是天然的绿色建筑和工业化建筑,具有自重轻、抗震性能好、预制装配化程度高等优点。在冷成型钢结构的钢龙骨-钢龙骨和钢龙骨-覆面板材连接中,自攻螺钉连接方式已
随着我国城镇化进程的推进,城市住房用地变得越来越紧张,建筑物被迫向高层(超高层)方向发展,原有的地基和建筑物微振动特性研究已经无法满足现在的需要,且两者的共振效应对于
目的:检测犬体外循环(CPB)心肌缺血再灌注损伤过程中腺苷酸活化蛋白激酶(AMPK)表达及活性的动态变化,探讨AMPK在CPB缺血再灌注心肌胰岛素抵抗(IR)形成机制中的作用。方法:24
随着我国建筑工业技术的发展,高强钢筋的优势越来越受到人们的重视,国家现在大力推广高强钢筋的应用。相比较500MPa级钢筋混凝土结构而言,600MPa级钢筋混凝土结构的研究较少,
本论文从区域地质分析入手,通过岩心铸体薄片、物性分析、压汞分析等资料,对研究区块地区主产油层长6至长8油层组的储层特征及影响因素进行研究。研究发现,渭北油田长6、长7
随着网络的发展和人们获取知识的需求越来越强烈,网络教学逐渐成为人们进行学习的一种有效方式。智能答疑系统是网络教学系统的重要组成部分,目前国内的答疑系统仍然存在一定
银杏又名白果树、公孙树以及鸭脚树等,属裸子植物银杏科,是全球最古老的树种之一,被列为国家二级保护植物,又有“活化石”之称。研究表明,其叶和果有重要药用价值。《本草纲
我国东南地区夏季炎热多雨,地表温度变化频繁且幅度大,有些地方酸雨的危害越来越严重,这些环境因素的长期作用对饱和花岗岩残积土强度及其演化特性具有重要影响。本文选用饱
近几年深度学习在目标检测领域的不断发展,使得SAR图像目标检测技术在海洋监测、渔业管理以及科学研究等领域均得以广泛应用。同时,我们注意到,现有检测模型大多基于光学图像
本文研制了一种环境友好的铝合金表面无铬红色Zr-Se化学转化膜,并研究了膜层的制备工艺及结构性能。此转化膜主要是以氟锆酸钾和二氧化硒作为主盐,NaF作为加速剂,MgSO4作为成