论文部分内容阅读
云计算、大数据、物联网等信息技术在全球范围内的广泛普及和深入应用,使得全球信息数据呈现出超指数级增长的爆发态势。大规模分布式云存储服务系统,是支撑上层海量复杂应用服务的底层基础平台,系统的性能指数和空间效率是直接影响上层应用服务能否实现商业价值的关键要素之一,也从很大程度上决定了分布式存储系统所能达到的服务质量(QoS,Quality of Service)。然而这对指标影响要素众多,很多情况下呈现相互制约的非线性复杂关系,研究“性能/空间”之间的平衡机制和优化方法,具有重要的研究意义和应用价值。 传统多副本备份和可擦除编码的数据对象管理方案,当它们分别单一地应用于分布式存储系统的数据存储时,会令系统的“性能/空间”之间的平衡产生较大倾斜。针对这一问题,论文提出一种链式的混合多副本与可擦除编码的数据对象存储机制ASSER(ASSembling chain of Erasure coding and Replication),该机制采取将每一份数据以“1+k+m”的形式持久化存储的方法,通过读写分离、多版本校验块更新等一系列方法,能够以较低的空间消耗率提供更高效的数据访问和更高的系统数据可靠性,同时可以灵活支持不同强度的数据一致性等级。 传统的冗余数据去重方案具有粗粒度、静态等缺点,应用于大规模云存储服务系统时,需要以较大的系统读写性能为代价换取一定程度的存储空间效率上的提升。针对这一问题,论文提出一种动态的融合双阶段去重的冗余数据去重框架D3(Dynamic Dual-phase Deduplication Framework),在该框架中,论文首先提出一种面向去重特性的文件分类法,对不同去重类型的文件实施不同的处理流程;D3框架通过在线阶段去重的系统负载感知的阈值调整机制,以及离线阶段去重的基于数据优先级的惰性执行机制,能够显著优化云存储服务系统的“性能/空间”平衡,在冗余数据去重率指标上,接近传统的纯在线阶段去重方案,并且在读写请求的性能以及稳定性上明显优于传统的纯在线和纯离线的单阶段冗余数据去重方案。 当前云存储服务场景下,服务提供商与客户之间因缺乏关于“性能/空间”平衡的量化SLA模型,系统在运行过程中无法动态调整执行策略,以提升系统的整体QoS及降低服务提供商的空间开销成本。针对这一问题,论文提出了去重SLA驱动的多模式冗余数据去重体系MUSE(Multi-tiered SLA-driven Deduplication Framework)。MUSE中定义了一种面向冗余数据去重场景的SLA范式,通过实现多模式的去重策略以及动态去重流程调整的机制,显著地提高应用了去重技术的云存储服务系统的数据访问性能与平均去重效率,优化了系统“性能/空间”的平衡。 大规模云存储中的“性能/空间”平衡的优化是多维度、多层次的,在单一挑战点上的优化策略可以取得局部性的成效,而在实际应用当中,应当如何由点及面,有效地结合多种优化策略来搭建完整的云存储系统,则是一个更高层次的挑战。为此,论文设计并实现了JTangSOSP(JTang Storage with Optimized Space-Performance Balance)云存储服务系统,该系统融合了多维度的“性能/空间”平衡优化技术,能够为云数据中心中的应用层和计算层提供高性能、低开销、高可靠、灵活可配置的底层分布式存储支撑。JTangSOSP系统的关键设计与创新已经在若干国家重点项目与课题的成果系统中得到应用。