论文部分内容阅读
利用集群廉价的设备构建昂贵的企业级高端计算机系统一直以来都是分布式系统领域中的重要研究课题。在存储系统领域中也正发生着类似的转变。由磁盘阵列控制器、光纤通道和磁带库所构成的大规模存储系统都是非常复杂的,并且相当昂贵。随着磁盘容量的不断增大和价格的不断下降以及网络带宽的不断提高,通过廉价的设备和高速互连网络搭建大规模分散式的存储系统就成为网络存储系统的一个重要研究课题。容错性、自管理性、数据一致性、以及数据访问的低延时性是需要解决的几个关键问题。本文提出了一种分散式存储系统的结构,研究了以上极富挑战性的问题,并且实现了一个分散式可靠共享文件存储系统的实验原型。 研究的内容具体包括以下几个方面: 提出了一种分散式存储系统结构。各个存储节点通过高速局域网相互连接,存储、缓存、以及数据和元数据的管理功能分布在各个存储节点中,每个存储节点的本地存储资源构成一个全局的虚拟存储空间,各个存储节点相互协作实现一个统一的文件名字空间,向客户端提供文件接口。 在数据爆炸的信息时代,数据的价值越来越高。存储系统的首要任务就是提供数据保护功能,即使在设备发生故障以及发生一些意外事故时,仍然能够提供良好的数据可用性。数据冗余机制是最简单有效的提高数据可用性的技术。本文对分散式存储系统的数据可用性进行了探讨,对影响数据可用性的关键因素进行了定量分析,并且描述了维护动态存储系统的可用性所需的网络带宽开销,导出了计算公式。 随着计算机性能的不断提高和系统硬件成本的不断下降,系统管理在系统的总体拥有成本和用户的满意程度上已经日益成为决定性的因素。本文描述了一种针对分散式存储系统的自管理的数据存储机制,它通过分布式数据结构实现了数据的自管理,提供了良好的动态可扩展性、高可用性以及数据一致性控制。 由于复制机制不可避免地要依靠网络通信环境,所以在系统的整体性能、可用性和数据副本的一致性这三者之间进行综合考虑是非常有必要的。本文分析了系统的总消息速率、系统的总更新延时、以及发生故障时能够接收最多的更新请求的个数这三种不同优化目标下的最优配置和最优值。实现数据复制的一个主要问题是保持各个副本的一致性,本文深入探讨了复制数据一致性的真正含义,并且提出了一种适用于分散式存储系统的具有灵活的数据放置策略和表决分配策略的数据/元数据一致性管理机制,保证了安全的数据/元数据的交叉存取,使系统的自优化成为可能。 存储虚拟化提供从物理设备到基于策略的存储管理软件的一个抽象,极大地简化了存储管理。然而,目前的存储虚拟化仅仅只是停留在存储容量的虚拟化上,并没有考虑数据访问的性能。本文描述了一个针对高速网络构成的分散式存储系统的I/O请求分布协议,它能够动态选择最快响应用户读请求数据所在的存储节点;同时实现了一种全局协作缓存机制,它在存储系统中不同的存储节点中共享全局的聚合cache资源,构成一个由不同存储节点相互协作的缓存到磁盘(cache-to-disk)的访问策略。 在以上研究的基础之上,最后实现了一种分散式可靠共享文件存储系统的实验原型。它利用局域网中PC机的空闲磁盘空间构成了一个全局的可扩展的存储空间,实现了高度可靠的,分散式管理的共享文件系统。相对于传统的分布式文件系统而言,DRSFSS文件存储系统由于元数据的分散,一方面提供了高得多的可用性,另一方面消除了传统单一元数据节点的瓶颈,可以提高性能。实验结果证明分散式存储系统在结构上有很大的潜力。