Hadoop副本管理策略和可视化管理平台研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:zhuangjun_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在数据时代,这些数据是一座巨大的金矿,人们通过对海量数据的分析处理来挖掘出“金子”。开源云计算系统Hadoop是很好的离线数据分析处理平台,它主要被用来做海量数据的存储和分布式处理,存储的目的是处理。HDFS用来存储海量数据,MapReduce实现对海量数据的分布式处理。  副本管理模型是分布式文件系统的重要组成部分,它决定了为文件创建副本的时机、创建数量、存放位置。人们不断优化该模型以解决访问效率、存储成本和负载均衡问题。本文在副本的创建时机和数量两方面对Hadoop副本管理模型进行了优化。  本文首先对Hadoop系统、HDFS架构和副本管理模型进行了简要介绍,然后分析了Hadoop副本管理模型的不足,即副本数量不能随着客户端的访问量自动调整,这使得Hadoop仅适用于离线数据的分析处理,不适用于交互性较强的应用场景。为弥补这个不足,本文设计了基于文件访问频率的动态副本管理策略。该策略是原Hadoop副本管理模型的补充,它通过记录某一时间周期内客户端对各个文件的访问次数,根据访问次数计算出访问频率,根据当前副本数量和最小副本数量分别计算出增加副本和减少副本的频率阈值,比较该文件的访问频率和频率阈值,根据比较结果,按照副本调整策略增加热点数据副本数量,减少访问频率低的数据的副本数量,达到自动调整文件副本数量的目的。实验结果表明,使用改进后的副本管理策略后,Hadoop可以自动在适当的时机调整副本数量,使得Hadoop可以用于交互性较强的场合,拓宽了Hadoop的应用领域。  Hadoop集群的搭建需要修改许多参数,Hadoop的管理和使用主要靠在终端输入Hadoop命令,众多的参数和命令使Hadoop的使用比较麻烦。即便对于想要学习Hadoop的研究者,重复输入一些简单命令也是很低效和无意义的。因此,有必要简化Hadoop的使用,让Hadoop的用户从重复劳动中解放出来,将精力投入到应用开发和对Hadoop的深入研究中。为了达到以上目的,本文研究了Hadoop的可视化管理技术,在对Hadoop集群参数、shell脚本和终端命令研究的基础上,设计了一个Hadoop集群的可视化管理平台-Hadoop控制台。通过该Hadoop控制台可以用图形化界面代替linux终端,用鼠标代替命令,以可视化的方式管理Hadoop集群,简化了Hadoop的使用。
其他文献
随着无线传感器网络的不断发展,与其相关的各项技术日益受到关注,其中自定位技术是各项技术的前提和基础,具有重要的研究意义和实用价值。但是,由于无线传感器网络自身的一些特点
近年来,随着我国航天军事事业的蓬勃发展,对于空间探索、航天器间交互及复杂战场中的通信任务提出了新的要求。与传统的基于TCP/IP的英特网应用环境不同,航天军事领域的网络面临
口令认证密钥交换(PAKE)协议使得参与通信的用户用一个低熵的口令就可以实现实体认证,并能通过不安全的信道安全地生成共享的高熵会话密钥。它们避免了一般认证协议要求存在公
三维集成电路通过硅通孔将多个相同或不同工艺的晶片上下堆叠并进行垂直集成。该技术可显著缩小芯片的外形尺寸,提高晶体管集成密度,提供更高的互连性能。然而,同时也带来了
随着IC工艺改进所带来的集成度提高,IC设计复杂度飞速提升,IC参数分析的复杂度也越来越大,由于供电电压直接影响电路的性能,所以电源线/地线网络分析(简称P/G分析)与热分析具
目前将GPS卫星定位导航系统与常规无线对讲机结合起来的系统,广泛的应用于防火监控、防汛指挥、车辆调度、紧急突发事件等。该向技术主要是利用GSM公众网的短信息或GPRS技术来
本文的主要目的是基于新兴的桌面CPU+GPU异构计算平台,进行SAR并行成像处理,以解决SAR成像中海量数据处理的速度和效率问题,此项研究的建立源自XX-SAR雷达地面快速成像处理的实
近年来,伴随着电子商务的进一步推广与应用,物流的滞后对其发展的制约日益明显。物流配送是物流活动中直接与消费者相连的环节,而车辆调度问题(VRP)是物流配送的核心问题,它直接
随着Internet技术的不断发展和人们对地理信息系统(GIS)的需求,利用Internet在Web上发布和出版空间数据,为用户提供空间数据浏览、查询和分析的功能,已经成为GIS发展的必然趋势
现代信息技术应用于对外汉语教材编写是编写手段的创新之路。现有的编写系统实现的功能很好地将教材编写者和教学工作者从繁琐的编写工作中解脱了出来,方便了教材的编写和课