论文部分内容阅读
我们生活在数据时代,这些数据是一座巨大的金矿,人们通过对海量数据的分析处理来挖掘出“金子”。开源云计算系统Hadoop是很好的离线数据分析处理平台,它主要被用来做海量数据的存储和分布式处理,存储的目的是处理。HDFS用来存储海量数据,MapReduce实现对海量数据的分布式处理。 副本管理模型是分布式文件系统的重要组成部分,它决定了为文件创建副本的时机、创建数量、存放位置。人们不断优化该模型以解决访问效率、存储成本和负载均衡问题。本文在副本的创建时机和数量两方面对Hadoop副本管理模型进行了优化。 本文首先对Hadoop系统、HDFS架构和副本管理模型进行了简要介绍,然后分析了Hadoop副本管理模型的不足,即副本数量不能随着客户端的访问量自动调整,这使得Hadoop仅适用于离线数据的分析处理,不适用于交互性较强的应用场景。为弥补这个不足,本文设计了基于文件访问频率的动态副本管理策略。该策略是原Hadoop副本管理模型的补充,它通过记录某一时间周期内客户端对各个文件的访问次数,根据访问次数计算出访问频率,根据当前副本数量和最小副本数量分别计算出增加副本和减少副本的频率阈值,比较该文件的访问频率和频率阈值,根据比较结果,按照副本调整策略增加热点数据副本数量,减少访问频率低的数据的副本数量,达到自动调整文件副本数量的目的。实验结果表明,使用改进后的副本管理策略后,Hadoop可以自动在适当的时机调整副本数量,使得Hadoop可以用于交互性较强的场合,拓宽了Hadoop的应用领域。 Hadoop集群的搭建需要修改许多参数,Hadoop的管理和使用主要靠在终端输入Hadoop命令,众多的参数和命令使Hadoop的使用比较麻烦。即便对于想要学习Hadoop的研究者,重复输入一些简单命令也是很低效和无意义的。因此,有必要简化Hadoop的使用,让Hadoop的用户从重复劳动中解放出来,将精力投入到应用开发和对Hadoop的深入研究中。为了达到以上目的,本文研究了Hadoop的可视化管理技术,在对Hadoop集群参数、shell脚本和终端命令研究的基础上,设计了一个Hadoop集群的可视化管理平台-Hadoop控制台。通过该Hadoop控制台可以用图形化界面代替linux终端,用鼠标代替命令,以可视化的方式管理Hadoop集群,简化了Hadoop的使用。