Hadoop元数据管理的高可用性问题研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：maozi100

【摘要】

：

基于Hadoop的云计算系统是一个新兴的分布式系统解决方案，在学术界及工业界都有很大的影响。作为Hadoop分布式系统的核心软件，HDFS负责部署在物理环境下文件的保存、获取、组织

【作者】

：

程广飞

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

容错技术一致性协议元数据管理副本技术可用性云计算系统访问性能分布式文件系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于Hadoop的云计算系统是一个新兴的分布式系统解决方案，在学术界及工业界都有很大的影响。作为Hadoop分布式系统的核心软件，HDFS负责部署在物理环境下文件的保存、获取、组织以及共享等工作。随着集群规模的急剧增长，以及在新型互联网产业的广泛应用，分布式文件系统的高可用需求日益迫切。而其中元数据服务对于HDFS的整体服务有着十分关键的作用，其效率和容错性直接关系到文件的访问性能和可用性，因此研究元数据的高可用技术具有重要意义。　　在分布式文件系统中，过去对元数据服务的可用性保证大都采用日志技术，而日志技术仅提供系统的离线备份功能，并不能很好地为元数据服务提供有力保障。本文重点研究了元数据管理的高可用性问题，提出了一种基于复制的主从服务器的系统体系结构，该结构应用在Hadoop系统中可缩短失效恢复时间3个数量级，保证快速的故障恢复和异常处理能力，同时最大限度地利用冗余数据提供元数据的读服务。　　本文的主要研究内容和贡献有：　　 1．为实现元数据高可用性，提出一种数据一致性可适的主从式高可用体系结构。该结构主要保证元数据副本一致性，针对不同的数据一致性同步需求，将元数据分类采用一致性模型来实现数据同步，以减少数据同步的系统开销；同时将基于预检查的2PC算法应用在元数据处理流程中，保障在有故障发生情况下的元数据一致性。　　 2．针对系统性能优化问题，提出了基于元数据操作间影响关系的操作共享锁技术，来改进传统目录树级别的粗粒度同步锁机制，以提高元数据的并行操作粒度到目录级别；改进并优化2PC算法应用流程，将元数据操作的网络操作次数从至少4次减少到1次，由此进一步减少复制技术带来的网络传输开销。　　 3．将高可用结构应用在Hadoop的元数据管理节点中，实现了Hadoop的文件系统元数据的主从服务架构GeminiNameNode。系统除提供元数据读写服务外，还提供主从负载均衡管理、元数据副本同步等对客户端操作透明的功能；针对实际物理环境中可能出现的系统故障，构建主从故障恢复技术、网络脑裂第三方认证技术以及客户端异常处理流程，来保证上层应用的可靠性和健壮性。　　测试表明，在集群规模为40台机器的环境下，通过我们的元数据高可用机制，可以使元数据服务在节点失效的情况下系统恢复时间从150秒减小到1秒左右，从而实现可用性级别达到5个9的连续服务能力。同时，相比相关工作，元数据写操作的性能吞吐率从30％提升到60%；并且在读写混合比例为20:1的基准测试集下面，元数据吞吐率提升为原系统的170%。

其他文献

基于Excalibur系统的Xen动态迁移优化与研究

随着计算机技术的发展和云计算的兴起,虚拟化技术因其良好独立性、易管理性和服务器整合而备受人们关注。虚拟机在众多领域具备各种用途：如用于系统安全领域、系统开发测试领

学位

云计算Excalibur虚拟机Xen预拷贝迁移分层矩阵算法

基于Web的噪声试验数据管理及聚类技术研究

在船舶制造与研究领域,船舶故障诊断技术对舰船海上安全运行具有至关重要的意义。船舶故障诊断的研究不仅具有理论价值而且能够产生极大的经济效益。在科学技术日新月异的今

学位

船舶故障诊断模糊聚类J2EE框架动态权值核技巧

蚁群优化算法及在语音识别中的应用研究

语音是人们之间进行交流时最常用、最重要的一种信息。语音识别技术就是让机器通过识别和理解,把人类的语音信号转变为相应的命令的技术。目前,语音识别正逐步成为信息技术中

学位

语音识别特征提取蚁群算法动态时间规划调度策略

WSN中基于连通性信息的虫洞攻击检测算法的研究

随着无线传感器网络应用在军事等数据敏感领域的深入,其安全问题研究成为热点,而虫洞攻击防御是无线传感器网络安全研究的一个重要领域。当前,设计出一种适合传感器网络特点

学位

虫洞攻击传感器网络连通性信息禁止结构路径存在

基于COM+的临床信息系统的研究

医疗服务信息化的国际发展趋势加快了我国医院信息化建设的进程。以提高医疗质量为目的的临床信息系统是医院信息化的重要组成部分。目前,我国临床信息系统处于发展阶段,业务

学位

COM+C/S/S临床信息系统自动更新

基于IPSec密钥交换协议分析与改进

随着英特网的发展,网络安全问题己经成为因特网进一步普及的一个关键问题。信息在网络传输过程中存在安全隐患的原因是制定TCP/IP协议的时候没有考虑其安全问题。后来为了解

学位

IPSec协议密钥交换网络安全服务攻击数字签名

基于Petri网的工作流模型在并行审批系统的研究

信息系统随着社会经济的发展在企业发展和竞争中的重要性不断提高,激烈的竞争导致信息系统结构不断调整,采用工作流技术的工作流管理系统对业务流程进行了统一的管理,已经成

学位

时间层次有色Petri网工作流会签

多媒体发布/订阅系统的设计与实现

目前,国内外众多机构从不同角度对发布/订阅系统进行了深入的研究,一些基于发布/订阅交互模型的解决方法和系统已经投入使用。早期,在各行各业的众多信息化领域中,已经有很多

学位

发布/订阅多媒体技术可插拔传输层RTP/RTCP协议

中文新闻事件语义要素抽取关键技术研究

近年来，网络新闻服务迅猛发展。分类、聚类、摘要、检索、推荐等文本挖掘技术得到了广泛应用，以帮助用户筛选新闻文档，为用户提供友好的阅读体验。然而，现有技术关注在文档层次，但

学位

中文新闻事件语义要素语义信息服务文本挖掘

自适应运动目标检测和跟踪技术研究

近年来,视频监控系统越来越受到国内外学术界、国防军事部门的高度重视,并且产生了巨大的社会与经济效应。运动目标检测和跟踪技术是视频监控系统的关键技术,成了现代监控系

学位

目标检测目标跟踪Surendra算法对称差分Camshift算法

Hadoop元数据管理的高可用性问题研究

其他学术论文