Ceph中海量中文文本小文件存储性能优化方法研究

来源 :桂林电子科技大学 | 被引量 : 1次 | 上传用户:lyh682020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、移动互联网、物联网的快速发展,电子商务、社交网站、移动应用、网络教育、科研实验等各个领域产生的小文件呈几何级增长,其中最为典型的文本小文件具有数量大、数据量小、冗余性高等特点,海量文本小文件的存储为分布式存储系统带来了元数据管理难、磁盘I/O操作频繁、数据存取效率低等挑战。目前主流的分布式文件系统设计模式主要分为去中心化和中心化两类,以Ceph为代表的去中心化分布式文件系统多侧重于存储大文件而设计,虽然它的去中心化设计避免了中心节点的性能瓶颈问题,但是它的双倍写入设计和多副本备份策略为Ceph存储海量小文件带来了数据读取效率低和系统工作性能下降等问题。为此本文设计了一个小文件预处理框架和一个基于Redis数据库的动态缓存机制,在降低海量小文件存储开销的同时提高了小文件的读取速率。本文主要的创新性工作总结如下:1)针对海量小文件在Ceph中存储时带来的多I/O流问题,本文设计了一种针对海量文本小文件的预处理架构SFPS(Small File Preprocess System)。通过对文件进行两次聚类、自适应跳跃去重、相似文件合并等预处理操作,将杂乱的海量小文件整理为少量内容相关、少冗余数据的大文件进行存储以降低存储开销。2)针对海量小文件读取效率低的问题,本文引入了高效的内存数据库Redis作为缓存载体,通过将与目标文件高度关联的文件一起写入到缓存实现数据预读取功能,设计了一种基于多缓存影响因子的缓存替换优化算法BME(Based on Multiple Elements),算法综合考虑了缓存对象文件大小、访问时间间隔、访问次数等因素,用温度值对实际应用场景中缓存对象的缓存价值进行更合理的表示,给出一个三级缓存结构和动态缓存淘汰策略达到提高小文件读取速率的目的。3)给出了一个对合并后小文件进行原子性操作功能的模块,实现在不在合并后的大文件中生成空间碎片的前提下,对合并后的小文件进行增删改操作。本文综合考虑了Ceph分布式文件系统在实际应用场景中,海量小文件的存取时间、存储空间、带宽占用率和集群工作效能等因素,在实现降低海量小文件传输开销和存储开销的同时,提升了小文件的读取速率。实验结果表明本文设计的方案不仅可以有效减少数据写入时的磁盘I/O流,传输带宽及存储空间的占用,还提高了数据的读取速率。此外,本文设计的缓存替换优化算法和多级缓存动态淘汰策略有效提高了缓存命中率。
其他文献
从概率密度函数的角度出发,利用Parzen窗法估计总体样本的概率密度分布,将核方法和Parzen窗法引入最大后验概率方法中,提出一种基于Parzen核估计的最大后验概率的高性能多分
核电站低压开关柜抽屉式回路的功率损耗直接决定了核电站低压电气设备的能耗水平,是电站节能考核的关键指标。根据目前电力行业内低压开关柜功率损耗计算通常采用单台开关柜
建立科学的高管薪酬激励机制是完善公司内部治理结构,提高上市公司经营效益的一项重要内容.文章以上市公司2002年年报为研究基础,实证考察了我国上市公司的经营绩效与其高级
本文首次采用正态整体模型进行斜板沉淀池模型设计,正确考虑了混凝过程相似条件;提出了既能使进入斜板沉淀池的水流平稳,又能明显减少配水廊道淤积的配水廊道体型;指出高浊度
本文应用灰色系统理论和方法对滹沱河流域盐碱地开发利用进行了多目标,多层次,多因素的综合评估。根据评估结果对流域进行了类型划分,并针对各类型盐碱地不同特点制定了相应
在设计、安装一套音响系统时,总会遇到功放与音箱的配接问题。在音色方面,最终应使整套器材还原音色呈中性,这仅是从艺术方面考虑。从技术方面考虑,功放与音箱配接的要素有:
不同电信网接续后,一个电信网为另一个电信网的用户提供了服务并发生了相应的成本。网间结算是指,如果这个电信网的运营商没有从另一个运营商的用户得到相应的费用,则另一个
以Ceph为基础为企业构建数据私密程度较高的企业云分布式存储系统,同时支持对象存储,块存储和文件存储。研究一种在实际环境中可以使用的混合存储方案。通过尝试社区版本的Ce
目的:通过临床观察舒筋活血汤离子导入对前交叉韧带重建术后患者疼痛、肢体周径、关节活动度等指标的影响。探讨舒筋活血汤离子导入在前交叉韧带重建术后早期康复应用中的效果,为前交叉韧带重建术后早期康复提供一种有效的治疗方式。方法:根据纳入和排除标准,选入2017年3月至2018年9月江西中医药大学附属医院运动医学科住院的行关节镜下前交叉韧带取自体腘绳肌腱重建手术的患者60例,随机分为对照组和观察组,每组各
我们分析烹饪类专业人才不能仅仅依靠现代学徒制,还需要重视专业课程体系的开发。现有烹饪类专业课程体系的开发培养定位不准,专业人才的培养滞后,课程设置不够精细等问题,剖