论文部分内容阅读
重复数据删除技术可以大幅度削减重复数据,在传输之前就将数据量减少到较低水平,从而节省了网络带宽和存储空间。由于备份系统中存在大量冗余数据,在备份环境中使用重复数据删除技术具有很大的实际意义。尽管重复数据删除技术能够有效的删除数据,但是由于技术实现的缺陷,应用该技术的系统通常存在性能问题,因而限制了其广泛应用。
本文根据备份环境下数据的特点,分析重复数据删除技术应用在备份系统中存在的关键技术问题,提出了一种新型的备份技术,研究因引入重复数据删除技术而带来的性能瓶颈问题。本文首先建立了典型重复数据删除技术的模型,将系统分成三个影响系统性能的核心模块,分别为分块逻辑、索引逻辑和存储逻辑,并分别在分块模块和索引模块提出了有效解决性能瓶颈的方法。
在分块逻辑,本文提出了一种多路滑动分块算法(Multi-Way CDC)算法,与传统的CDC(Content-defined Chunk)分块算法相比,通过调整分路参数和分块长度参数,前者的计算量远低于后者。
在索引逻辑的设计中,本文提出了基于自动机的分块长度和工作模式决策方法,在基本不损失缩减能力的同时能够降低了索引逻辑查询次数,解决分块查询次数过多引起的性能问题。
为验证上述研究内容的有效性,本文实现了一个原型系统,并且针对实际的备份环境的数据集进行测试,测试结果显示:
1)采用多路分块算法能够数倍提升分块速度;
2)采用基于自动机的分块长度和工作模式决策方法能够在不降低压缩比的情况下大幅提升系统速度。
测试验证了本文提出的模型、关键技术和系统具有在保持高重复数据缩减能力的前提下提高性能的能力,这些关键技术使重复数据删除技术在备份领域的应用更具实用性和扩展性。