论文部分内容阅读
随着物联网、移动智能设备及移动通讯、云计算等技术的飞速发展和广泛应用,个人和企业产生的数据量快速增加,数据中心的数据规模已达到PB级甚至EB级。面对如此规模的数据存储管理需求,云存储势在必行。作为新型存储系统,云存储利用虚拟化等多种数据管理技术,提供较低成本、高可扩展性的存储服务。据最新的研究结果显示,在各类云存储的应用中数据的重复率已经高达60%以上,同时重复数据量会随着时间和业务量的增加一直保持增长趋势。新兴的重复数据删除技术是存储领域内一种数据无损压缩的解决方案,可以有效地抑制重复数据快速增加,节省存储和带宽资源,缩减存储系统的构建时间并降低运营管理的成本,在学术界和产业界受到了广泛的关注。基于块的重复数据删除是最主流的重复数据删除方法,但应用于实际系统中的性能并不理想。影响性能的原因主要有两方面:首先,块索引检索引起较大的写入延迟。为查找重复的数据块,系统需要维护含有有效数据的所有数据块的索引,海量存储系统中数据块索引非常庞大,频繁的查找数据块索引会导致严重的写入延迟。其次,数据存储方式引起的数据碎片问题。重复数据删除中多文件共享数据块的存储方式使单个文件内容存储于多个不连续的扇区。随着数据量的增大,共享数据块数量也会增加,文件读取时需要根据引用访问不同位置的数据碎片,影响读取速度。论文以组-对等-中心存储构成的云存储系统模型为基础,以提高实现重复数据删除的性能为目标,重点研究块查找索引磁盘瓶颈问题和数据碎片问题。针对现有方法存在的不足,从提高相同数据块检测方法、提高重复数据删除系统的吞吐量、提高重复数据删除之后系统的读性能几个方面展开研究工作。本论文的研究内容和创新点主要体现在如下几个方面:(1)提出一种基于集群环境下并行重复数据删除算法,利用集群的计算能力,并行处理数据块重组和数据块指纹计算,有效地利用集群环境下闲置的计算能力消除系统重复数据删除所带来的写性能瓶颈,以提高删冗系统的整体性能。通过对原型系统的实验结果表明,采取这种并行化的数据块重组技术可以使系统的删冗性能提升明显。(2)根据大量的数据冗余的虚拟桌面存储功能,使用重复数据减少虚拟桌面基础架构的存储空间的需求;提出两层架构的删冗原型系统,充分利用整个平台和采用适当的重复数据删除技术的剩余资源来优化系统正常工作,在删除冗余数据条件的同时,并满足存储平台的基本性能要求。(3)针对数据碎片引起的读性能劣化问题,提出了一种基于混合存储的重复数据删除读性能改善策略。在混合存储环境下有效地利用SSD盘高随机读性能和低功耗的特点,对于随机读请求用SSD盘替代HDD盘,从而显著的提高系统的读性能。通过在原型系统的trace重放和对虚拟机磁盘镜像读性能评估实验结果表明,在基于混合存储的重复数据删除系统中应用该策略,在读性能和能耗方面均优于传统的重复数据删除系统。(4)提出了全分布的基于重复数据删除的云存储系统模型,该模型以用户为中心形成“组-对等-中心存储”的层次结构。采用Chord算法协调多个服务管理节点,并将用户请求分发到多个数据块服务器,以构建全新无中心管理节点的云存储原型系统,通过这样的方式使系统具备良好的负载均衡和去重率,从而提高云存储系统的性能和服务质量。实验结果表明,该模型具有较高的性能及可用性,为客户端提供相对较高的云存储服务质量。