备份环境下的重复数据删除关键技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:marquise
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重复数据删除技术可以大幅度削减重复数据,在传输之前就将数据量减少到较低水平,从而节省了网络带宽和存储空间。由于备份系统中存在大量冗余数据,在备份环境中使用重复数据删除技术具有很大的实际意义。尽管重复数据删除技术能够有效的删除数据,但是由于技术实现的缺陷,应用该技术的系统通常存在性能问题,因而限制了其广泛应用。   本文根据备份环境下数据的特点,分析重复数据删除技术应用在备份系统中存在的关键技术问题,提出了一种新型的备份技术,研究因引入重复数据删除技术而带来的性能瓶颈问题。本文首先建立了典型重复数据删除技术的模型,将系统分成三个影响系统性能的核心模块,分别为分块逻辑、索引逻辑和存储逻辑,并分别在分块模块和索引模块提出了有效解决性能瓶颈的方法。   在分块逻辑,本文提出了一种多路滑动分块算法(Multi-Way CDC)算法,与传统的CDC(Content-defined Chunk)分块算法相比,通过调整分路参数和分块长度参数,前者的计算量远低于后者。   在索引逻辑的设计中,本文提出了基于自动机的分块长度和工作模式决策方法,在基本不损失缩减能力的同时能够降低了索引逻辑查询次数,解决分块查询次数过多引起的性能问题。   为验证上述研究内容的有效性,本文实现了一个原型系统,并且针对实际的备份环境的数据集进行测试,测试结果显示:   1)采用多路分块算法能够数倍提升分块速度;   2)采用基于自动机的分块长度和工作模式决策方法能够在不降低压缩比的情况下大幅提升系统速度。   测试验证了本文提出的模型、关键技术和系统具有在保持高重复数据缩减能力的前提下提高性能的能力,这些关键技术使重复数据删除技术在备份领域的应用更具实用性和扩展性。
其他文献
入侵检测系统和防火墙技术是通用网络安全技术,国家主干网络的网络安全应用需要在高速环境下进行网络数据的深度检测,需要高性能的海量网络实时处理技术作为支撑。随着宽带技术
功能磁共振成像(functionalmagneticresonanceimaging,fMRI)能让人们非侵入性地探察大脑结构某一部分所具有的特定功能,目前的研究大部分都是基于任务状态的fMRI,然而静息态fMR
目前,互联网上诸多开放存取(Open Access,OA)期刊快速递增的“孤岛”现状已制约了OA期刊应有效能的发挥。解决该问题的一条途径就是将不同开放存取期刊的检索服务加以整合,建
医学图像三维可视化技术是图像处理和分析的重要研究内容。可视化技术能够显示器官的三维形体,可辅助医生对病灶进行分析,提高医疗诊断的准确性和科学性,有利于制定最优的治疗方
实时系统是指能及时响应外部发生的事件,并以足够快的速度完成对事件处理的计算机应用系统。实时系统应用的场合往往要求其正确性和可靠性能够得到保证,但是由于涉及并发、不确
Gossip算法是针对非结构化对等网络定位资源效率不高、采用泛洪查询占用较多带宽等问题的一种可行解决方案。每个收到要传播的信息的节点从它的邻居列表中随机选择一定数目的
软件测试是目前保障软件质量最主要和最有效的方法。它是为了发现程序中的错误而执行程序的过程。手工测试繁琐而复杂,不仅要耗费大量时间和成本,还易出错。因此,自动化测试
由于嵌入式系统的专用性和多样性,在嵌入式系统上部署Linux系统一般都需要进行繁琐的移植工作,探索在嵌入式平台上部署嵌入式Linux系统的一般原理和方法,可以减少移植工作的盲目
90年代初以来,大量的对网络流量的测试和分析发现,传统网络流量模型在描述实际网络业务时,忽略了网络流量的一个重要的特性-自相似性。实际上,采用自相似模型或分形模型能够更准
随着计算机的广泛应用和互联网技术的迅猛发展,社会的信息总量呈指数级增长。面对信息爆炸带来的挑战,亟需一些智能化的工具来帮助用户获取真正有用的信息,信息抽取正是在这种背