云存储系统中的数据存储和事务管理研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:caory
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算平台上大数据的存储管理是当前数据库领域的一个重要的研究方向。由于数据已成为一种关键的战略资源和不可或缺的生产要素,作为信息基础设施的云数据存储系统充当了不同领域中大量应用的基础平台。现有的云存储系统缺少一个拥有足够表达能力,又灵活简单的存储结构,以适应动态伸缩的云计算平台,用于对多样化的数据建模。同时,已有的大多数的NoSQL系统未能提供对辅助索引的支持,即便是少数提供的也没有更多地讨论它们的索引的可扩展性、弹性和一致性。另外,在云存储上提供事务访问,受制于一致性与可用性和低延迟之间的权衡取舍,难以在它们之间找到平衡,实现代价有效的访问。  本文着重研究如何在大规模无共享的集群上存储管理海量数据的方法。研究内容包括适用于表示具有不同特征的数据集合(包括稠密数据和稀疏数据)的存储结构、可扩展的可伸缩的且“看起来一致的”辅助索引和多一致性的事务访问方法。针对云数据存储中的各个问题给出了解决方法及相关的算法,并通过大量实验验证了方法的有效性。本文的主要工作和创新点如下:  1.提出了一个名为“动态表”的分层的、可配置的存储结构,并对稀疏数据中缺失值的语义进行了区分。  本文设计了一种新的存储结构“动态表”,用以刻画具有不同特征的混合的数据集,并有效支持不同类型的查询模式。它是一个三层的、可配置的存储结构,至上而下包括面向表的软模式、结构化的键/值对和可选的物理存储格式。它不仅继承了朴素的键/值对模型简单灵活、易于扩展的优点,且支持用户对表模式的灵活定制和下层物理存储方式的自由选择。由于分布式环境下数据的分布方式和表示方法都直接关系到系统的性能,它允许用户通过定义列组的方式控制不同的列数据在存储空间上的邻近,并为不同的列组选择按行或按列的存储方式。另外,本文对缺失值的语义进行了划分,将未定义的(undefined)或不适用的(inapplicable)缺失值与那些暂时不知道的(unknown)空值区分开。消除了稀疏数据中空缺值在含义上的模糊性,提供了对不完整数据的更精确的描述,提高了存储空间的利用率。在真实数据集和模拟数据集上开展的广泛的实验,验证了“动态表”可以有效表示多样化的数据集,满足差异化的存储需求,同时适用于动态的云存储环境。  2.提出并设计了一个可扩展的、可伸缩的且“看起来一致的”辅助索引。  本文设计了一个由布隆过滤器矩阵(Bloom Filter Matrix,BF-Matrix)和B+树构成的辅助索引。它由动态的计数型布隆过滤器构成,具有良好的可扩展性以应对大规模数据的连续增长,同时,借助于矩阵中行的增减和每一行中过滤器的合并,提供了自由伸缩的弹性,适应集群规模的动态变化。为了缩短查询的访问路径,减少索引维护的开销,本文采用松耦合的分层的架构来组织索引,基于主从架构的分布式系统,在每一个数据节点上创建一个B+树作为本地的索引;而在主节点上,设计了一个布隆过滤器矩阵充当全局索引,保存数据的分布信息。进一步,本文描述了数据检索和索引维护的相关算法,同时给出了算法执行需要遵守的两条行为规则。它们可以有效避免漏判的发生。在缺少事务支持的情况下,仍然保持索引“看起来是一致的”(即在索引表和主表不同步的情况下,也能保证查询操作的正确行为)。大量的实验结果表明本文提出的索引方法要比现有的方法(包括ITHBase、hindex和MR-FTS)更加灵活有效。  3.提出了一种多一致性的事务访问方法,并对传统的快照隔离级别进行了扩展。  本文将云存储系统中的事务提交问题建模为一棵两层的树模型。面对一致性、可用性和低延迟之间的权衡取舍,本文提出了一致性模型可选的事务访问方法,为数据操作提供按需的一致性保证。基于云存储中数据的多版本的冗余存储,通过在每个副本队列上维护多个指针,允许在同一个事务中包括不同一致性的访问,同时,也允许不同一致性的访问作用在相同的数据对象上。对于不同一致性模型的选择,本文给出了可串行的一致性、收敛的因果一致性和最终一致性的形式化描述,并证明了它们之间不会相互冲突,可以共存。另外,本文描述了放松的快照隔离,允许弱一致性级别下事务的异步提交。在本地的单一数据中心和跨区域的多数据中心的环境下的大量实验表明,提供一致性模型可选的操作可以最大限度地在不同的存储需求之间取得平衡,实现代价有效的事务访问。  结合核高基重大专项课题海量非结构化数据管理系统(Massive UnstructuredcLoud Data mAnagement System-MULDAS)的研制及其在国家某部委的上线运行。通过在大规模集群上的部署,及海量移动通信数据上的实际应用,进一步验证了本文提出的方法的有效性。
其他文献
汉语动词的语义知识表示是语言知识工程领域的重要问题。在涉及句子语义分析和生成的各种NLP应用需求中,动词与名词概念之间的语义选择限制往往构成其中最核心和关键的凭据,截
近年来随着计算机网络技术的迅猛发展,各式各样的网络都应用于在日常生活中.人们在享受网络技术给我们带来的便捷时,也对计算机网络的性能提出了更高的要求,这使得对计算机网
该文借用操作系统和数据库的实现思想,对倒排表的存储结构进行优化,提高了索引更新的灵活性.文中给出了该结构的详细设计并提出基于该结构的操作算法.另外,为了快速定位倒排
该文主要研究一种具有实际应用背景的特殊的非负矩阵,逆M矩阵的判定问题.矩阵完备是矩阵判定中一个重要方面,对它的研究在各类特殊矩阵中广泛展开.作者这里具体讨论逆M矩阵的
该文针对嵌入式实时软件系统的需求规约和验证问题,提出了系统建模语言RTRSM,并以该语言为基础,展开全文,包括模型性质描述语言RITL的提出和相关规约验证问题的研究.需求属于
本文全面论述了在智能控水管理系统的开发过程中所涵盖的技术内容,包括自动识别技术、IC卡、网络技术和数据库技术,并给出总体概述和详细的设计.在编程实现的过程中,充分利用
文本分类为未知类别的文本提供有序的组织,网络信息的增长使得对文本进行分类返回用户真正所需要的信息变得非常重要.该文设计了一个具有实用价值的文本分类系统,首先使用改
数字水印作为一种新的有效的数字产品版权保护的技术手段,是目前信息安全领域的前沿课题.图像隐形水印是多媒体通信和多媒体信号处理领域近年来新的研究方向,如何选用嵌入的
该文的主要研究内容和成果如下:1.提出了一种基于警报数据的异常检测方法.在大规模网络环境中,入侵检测系统得到的警报数据本身具有一定的规律.因此,采用基于警报攻击强度的
中国的盲人数量占世界首位,由于视觉障碍的限制,出行成为盲人的巨大难题。现在,城市中都修建了盲道以帮助盲人出行,另外盲人的行走也可以借助于各种导盲设备。在指导盲人出行