论文部分内容阅读
随着信息化程度的提高,信息系统中数据量呈现出爆炸性的增长趋势。为此,如何高效率管理海量数据是当前急需解决的热点问题。
基于云存储环境中存储设备的同构、异构特性,面向策略的不同设计目标,对同构的数据布局策略、非冗余异构的数据布局策略、冗余异构的数据布局策略和高可用的数据布局策略等四类现有的数据布局策略进行了深入分析,总结了现有策略在数据分布的公平性和自适应性上存在的不足。
针对以上问题,提出了一种基于位置信息的数据布局策略。该策略通过对云存储环境的网络拓扑结构和基于地理位置信息的各服务器位置关系的分析,抽象出云存储环境下用户数据块与存储服务器的形式化模型,建立了二者之间的逻辑对应关系。将存储设备依次按照位置信息和权重信息进行聚类,分别实现聚类后各个不同类之间的数据分布策略和同一个类内部的数据分布策略,并验证其数据分布的公平性,同时,当云存储规模发生变化时,该策略可以支持数据迁移量最少。
利用普通、廉价的PC机和改进的Cassandra分布式存储机制搭建了一个基于云的存储测试平台,在该测试平台的基础上,对基于位置信息的数据布局策略进行数据分布的公平性和自适应性的评估,测试结果表明该策略不仅可以满足数据分布的公平性,还可以自适应存储系统的动态变化情况。