基于Hadoop的小文件存储方法的研究与实现

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:very_god
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中,互联网逐渐走进了千家万户,随着移动端和PC工具的普及,网络产生的数据量也在随之不断地增加。图片、音频、音乐、文档等诸多数据资源在不断地影响着人们的生活,同时也包含着用户的大量信息。Hadoop计算平台近年来被广泛的用来处理海量的大数据,但是Hadoop分布式文件系统是为处理流式访问大文件提出的,在处理海量小文件上,效率很低,会导致Namenode的内存空间不足和Block内存空间的大量浪费,并且随着小文件数量的增加,小文件的检索速度会受到影响。所以基于HDFS的小文件存储处理是HDFS分布式系统需要解决的难题之一。  为了解决海量小文件在Hadoop平台上的存储问题,本文提出了一种新的小文件存储方法TLB-MapFile和缓存文件置换算法BTCR,优化策略包括以下3部分:  1)在小文件合并模块的优化改进,通过对Hadoop平台的用户访问日志记录进行分析,通过贝叶斯公式获取高频率访问的小文件列表。依据高频率访问的小文件列表对小文件进行合并,解决海量小文件占用大量Namenode内存的问题。  2)在小文件检索模块的优化,在数据节点Datanode上增加TLB块表机制,用来加速定位小文件的存储位置,解决了小文件检索速度过慢的缺陷。  3)在小文件的预取模块上,用户等待时间阈值和小文件读取时间的比率值作为预取小文件的数量限定条件,通过TLB中高频率访问的小文件关系预取小文件,采用BTCR置换算法对TLB和缓存中文件信息进行置换,解决了预取小文件的速度较慢的问题。在TLB表生成的阶段,高频率访问小文件和相关小文件的存储位置索引信息会存储在TLB表中,便于提高检索效率和小文件预取速度。  论文给出了Hadoop下的小文件存储检索优化方法的具体实现,具体包括小文件合并、MapReduce自定义分片的实现、TLB表的构建、预取算法、BTCR置换算法的实现。实验结果表明:在Hadoop平台下通过引用新的小文件内存检索策略TLB-MapFile,可以有效的提高小文件的检索效率、降低Namenode节点的内存消耗和读取小文件的速度。
其他文献
工作流管理一直是企业界和学术界关注的领域。但是目前许多工作流模型在正确性和可靠性方面都有很大不足,并不能适应实际应用的需要。本文将事务性质引入工作流中,提出了一种嵌
授权机制是访问控制的核心,即控制不同用户对信息资源的访问权限.RBDM是单域环境下一个基于角色的进行授权控制的授权模型,对RBDM进行改进使得型更好地支持部分授权等特征,提
对多媒体信息的知识产权保护,已经成为学术界与产业界共同关注的问题。数字水印技术作为保护多媒体信息的版权的一种新方法正受到人们的极大重视。作为一种新兴的媒体数据,三维
分类器学习方法是人工智能研究的核心问题之一。好的分类器学习算法,能使应用系统更加智能化。最近几年,神经信息学得到了飞速的发展。人类或者生物体的智能是机器智能的源头,人
该论文针对分布式系统软件测试的特点,设计开发了一个分布式系统软件接口测试平台.论文的工作主要包括以下几点:对软件测试技术的发展过程做了一个较全面的研究,对分布式系统
集装箱自动识别系统在海关物流监控系统、港务局集装箱管理系统、场站集装箱管理系统、加工区监管系统、运输行业集装箱管理系统等领域有着广泛的应用。基于光学字符识别技术
随着自动控制技术,计算机技术及信息网络技术的飞速发展,促使控制网络技术应运而生。控制网络Infranet(infrastruacture network)是一类特殊的局域网,现代计算机控制系统的广泛应用,极大地促进了控制网络技术不断发展和完善,它不仅使生产过程向更高层次的自动化水平发展,实现了优化控制、协调控制及远程监控等,也为其与信息网络的无缝集成,组建统一的企业网络提供了强有力的技术支持。本文
目前搜索引擎作为用户查询信息的主要工具,在网络中扮演的角色越来越重要。但是普通的搜索引擎覆盖的范围比较有限。如何能够更加全面和准确地满足用户的检索需求是一个亟待解
支持保护模式的32位嵌入式处理器AMEx86的研究与设计属于西北工业大学航空微电子中心所承担的一项国防“十·五”预研课题的一部分,其中该嵌入式处理器用来作为整个电子系统的
工作流的概念因能有效的提高生产组织水平和工作效率,从而被广泛地应用于企业建模。工作流模型是整个工作流技术中最为重要的环节,而模型畅通性是其它性质验证的前提。因Petri