论文部分内容阅读
互联网时代的来临带来了数据的爆炸式增长,也使得传统的数据存储方式遭遇了新的挑战:虽然网络带宽和磁盘容量快速增加,但成几何级增长的用户数和应用需求,使得传统的数据分布式存储方式无法胜任互联网时代的海量数据处理任务。
分布式存储网络中,存储节点间的通信状况直接影响整个网络的性能。而传统的存储方案,或只关注了存储节点的数据冗余状况,或只关注了数据可靠性问题,对网络负载不均,中心或热点节点压力过大造成的网络瓶颈问题涉及较少。我们亟需一种新的数据存储方案来应对日益大数据时代的海量存储任务。
近年来兴起的网络编码理论在均衡负载,保证数据可靠性上的优秀表现,使我们有理由认为,如果能够将网络编码理论引入分布式存储中,改善存储节点间的通信方式,那么将极大改善整个分布式存储网络的性能。然而,现有的网络编码研究主要成果是在理论层面,缺乏在实际工程中切实可行的具体网络编码实现技术。
针对以上问题,本文提出了一种新的应用于分布式存储的线性随机网络编码实用方法—HE码,构建随机近似等重码作为编码矩阵,编码参数灵活,编码过程仅需异或运算,编码后信息向量使原始信息均匀分布。随后提出了基于HE码的分布式存储系统方案,实验结果表明,基于HE码的线性随机网络编码方案在负载均衡,编译码速度,保证网络可靠性,稳定性和安全性上,都有优秀的表现。然后对HE码的应用范围做出进一步扩展,与云计算当前优秀的商业应用HDFS相结合,提出了基于HE码的HDFS改进方案,并从实验角度验证了HE码编码方案在云计算中应用的可行性。