基于HDFS的分布式数据存储研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:airbter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为Apache Hadoop项目的重要组成部分,Hadoop Distributed File System(HDFS)是一种高效、并具有良好扩展性和可靠性的分布式文件系统。但是,HDFS的应用仍然存在一些阻碍:1.没有一种完整、成熟、易于部署的架构;2.HDFS为处理大文件而优化,小文件I/O的效率不高。  论文首先对HDFS进行了详细地介绍,内容包括HDFS的历史、软硬件架构、数据块存储和文件I/O的过程等。  然后,针对HDFS缺少成熟架构的问题,论文在HDFS经典架构的基础上,提出了一种更为优化的架构,并对其优缺点进行了详细分析。  针对HDFS中小文件I/O的效率问题,论文提出通过为HDFS添加磁盘缓存来减少文件读取时的寻址次数,从而提高小文件读取效率。同时,论文详细分析了磁盘缓存设计中涉及的问题,包括缓存的架构、置换策略、空间比例等。  最后,在使用不同比例磁盘缓存的情况下测试了大量读取小文件的时间开销。实验结果表明磁盘缓存对提高小文件处理效率起到了较好的效果。
其他文献
随着信息化进程的发展,各大医院纷纷建立了信息化系统用于辅助医院的日常工作。其中电子病历是医学信息系统的主体,是医疗分析管理决策系统、医师临床诊断、远程会诊的数据中心
随着大数据时代的来临和发展,对这些海量的、复杂的数据进行数据的降维是一个必然趋势,深度学习在这块取得不错的成果。本文构建一个深度稀疏自编码神经网络,用以学习和研究深度
本研究分别针对实时视频编码和视频转码两种应用对实时性的不同需求提出并实现了不同层次的并行化编码算法。针对实时视频编码应用提出的并行化编码算法可以有效降低每帧图像
深空探测技术在科学、经济、军事和政治上都有着很大的意义,世界主要航天大国都在进行深空探测技术的研究,我国在“十五”、“十一五”、“十二五”计划中制定并已开展了包括月
气象图像目标分割不同于一般的图像分割,这是由于气象图像目标繁多、整体上离散不连续、但是单个目标内部是连续的特性导致的,因此,要想准确分割出感兴趣的特定目标是存在一定困
性能不对称的单指令集异构多核处理器能够很好的适应程序行为的多样性,实现资源的按需分配,避免资源的过剩与不足,从而比同构多核处理器具有更好的性能功耗比,在低功耗绿色计
本论文的研究背景是空间中心知识创新工程创新项目:空间无线自组网网络协议关键技术研究。适用于空间应用的无线自组网网络协议研究仍处于起步阶段,需要克服空间环境特有的诸多
本文针对多类别分类问题,提出了一种基于核主成分分析的投影残差分类器,首先通过与高斯核函数对应的非线性特征映射,将多个类别映射为特征空间中的特征子空间,非线性特征映射能够
本论文是中国科学院知识创新工程重要方向项目中“空间科学预先研究项目”(第一批)课题。   在微重力燃烧实验中,精确控制气体流量是燃烧实验中的一项关键技术。市场上已有
设施选址是实现科学种烟的重要环节之一,科学的设施选址可以减小烟草生产过程中资源的消耗,是精准化农业体系中的一部分。因此,如何科学地进行设施选址,如何设计更为有效、合理的