云存储中基于纠删码的数据容错技术研究

来源 :国防科技大学   | 被引量 : 1次 | 上传用户:christopherq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
构建于大量节点之上云存储方便易用、成本低廉且可弹性扩展,被广泛用来保存人们快速产生的海量数据。根据节点分布,云存储可分为单中心云存储、跨中心云存储和P2P云存储三类。前二者通过运营包含大量服务器的一个或多个数据中心来提供服务;P2P云存储则通过大量租用个人闲置的存储空间和网络带宽来提供服务。对于任何一类云存储,采用容错技术以保证数据不因节点失效而丢失都至关重要。基于纠删码的容错技术容错能力更强且存储效率更高,近年来广泛替代了传统基于副本的容错技术。然而,由于基于纠删码的容错技术更为复杂,其在云存储中面临着以下问题:(1)数据编码包括数据分块、数据运算和数据分发等操作,已有的编码方法或者消耗了过多的I/O资源或者具有低下的数据读写速度;(2)数据修复时每修复一个失效块都需要传输多个块并进行复杂的运算,已有的数据修复方法不能有效降低数据传输开销并提高数据修复效率。近年来,跨中心云存储和P2P云存储的兴起使这些问题变得更加突出。本文针对这些技术难题,综合考虑各类云存储的特点,对纠删码容错技术中的数据编码问题和数据修复问题展开深入研究,主要贡献如下:
  已有的数据编码方法或因需要进行容错技术转换而产生过多的网络传输和磁盘读写,或因使用离散分块方式而严重降低了数据读写速度,尤其不适用于跨中心云存储。针对此问题,本文面向单中心云存储和跨中心云存储研究提出了一种基于流水线的分布式渐进编码方法PDCE。PDCE采用连续分块,以流水线的方式将新写入的数据传输到多个节点,在数据流过编码节点的同时直接对数据进行渐进式编码并将中间数据缓存在内存中,随着数据的写入逐步地在多个编码节点上分别产生校验块,最终再存储到相应的节点上,既可获得最优的数据写入效率,也无需进行容错技术转换。通过调节编码节点的数量,PDCE可以灵活地权衡编码完成之前的容错能力与编码的网络传输开销。理论分析和单中心以及跨中心环境下的大量实验表明,PDCE能够在网络传输和磁盘读写量与数据读写效率之间取得更好的权衡。具体地,与已有的数据编码方法相比,PDCE在取得接近最优数据读写效率的同时,可将网络传输减少44.5%–48.4%,可将磁盘读写减少45.6%–66.7%。
  在已有的数据修复方法中,绝大部分数据传输都要经过网络拓扑中的瓶颈链路,如数据中心内部网络的核心层链路和数据中心之间的链路。这不仅严重限制了总体修复效率,也对系统中正常的数据读写造成了不利影响。针对此问题,本文面向单中心云存储和跨中心云存储研究提出了一种局部性感知的树型修复方法LATR。LATR先根据网络拓扑信息或节点之间延迟确定数据的局部性,然后根据局部性构建一棵以替代节点为根覆盖所有提供节点的最小生成树作为修复树。修复时,数据从修复树的叶节点开始向上传输,在内部节点合并后继续向上传输,依此类推,直至到达根节点完成修复。这使得距离较近的数据就近合并后再传输到较远的地方与其它数据合并,减少了经过上层链路的数据量。此外,LATR采用一种基于局部性的提供节点选择算法,可在有多种选择时迅速挑选出最优的提供节点组合。分析表明,LATR修复时的核心层流量比已有修复方法低20%–61%。大量实验表明,LATR可将主动修复吞吐率提高至少23%,可将降级读取速度提升高达68%。
  P2P云存储中节点的上传带宽常常远低于其下载带宽,使数据上传成为严重的性能瓶颈。已有数据修复方法均未考虑到这一特点,导致它们在P2P云存储中的数据修复效率较低。针对此问题,本文面向P2P云存储研究提出了一种基于分片的分布式星型修复方法FDSR。FDSR采用一种“分散-聚合”的双层修复框架,先将编码块分成多个大小相同的编码片,然后使用多个修复节点以星型修复方法并行地修复失效编码片,对于不同的失效编码片选用不同的提供节点组合,最后再将修复出的编码片聚合至替代节点完成修复。通过使尽可能多的可用节点作为提供节点,FDSR减少了单个提供节点需要上传的数据。采用星型方法作为底层修复方法使FDSR可以同时适用于单点失效和多点失效的修复,而多个修复节点分散修复的方式则避免了传统星型修复方法负载不均衡的问题。理论分析表明,FDSR中提供节点的上传数据量明显低于现有方法,并且FDSR的整体负载更加均衡。大量实验表明,与已有数据修复方法相比,FDSR可将单点失效时的数据修复速度提高33.2%–87.8%,将多点失效时的数据修复速度提高78.4%–110.0%。
其他文献
合成孔径雷达(Synthetic aperture radar, SAR)是一种主动微波成像系统,具有全天时、全气候和穿透力强的特点,是一种重要的对地观测手段,已广泛应用于军事和民用领域。于是SAR图像解译已成为遥感领域关注的热点,而SAR图像分割又是SAR图像解译的基础,对后续的图像理解起着关键作用。  由于SAR图像的成像机理,SAR图像含有固有的乘性斑点噪声,而且SAR图像存在灰度不均匀,弱
本文描述了matlab以简化方式处理图像的一些可能性。我们将这篇论文分为两部分。第一部分是图像处理中使用的一些技术(裁剪图像,旋转图像,去除噪声并将其删除,RGB图像直方图,获取图像的像素值,更改图像的像素值,调整图像大小,RGB格式,检测图像中的纹理区域)。另外还介绍了如何使用matlab从图像中获取一些信息。(图像坐标系,工具箱中的图像类型,GPU上的图像处理,从工作区将图像数据导入图像查看器
学位
电驱动车辆是指一类由电动机直接或间接驱动车轮运行的运载对象,主要包括乘用电动汽车和特殊用途的电动轮车,因其具有节能减排的优势为应对气候变化与推动绿色交通的重要运载工具。然而此类车辆面临着所谓“里程焦虑”与节能降耗需求。加大电池容量与能量密度、快速充电技术、充电站布局等是目前解决“里程焦虑”的主要途径,但依然存在着车重增加,电池安全与充电站覆盖等诸多问题。为此,基于行驶状态估计的车辆能耗优化控制(亦
数字IC集成电路,尤其是FPGA硬件电路的版权保护技术是半导体技术发展的重要核心问题之一。目前尽管部分核心技术产品已得到了众多半导体公司及研究机构的广泛应用,但是IC芯片硬件安全技术在给设计者带来安全保障的同时,也带来了许多潜在的安全隐患。因此,如何研究解决IC芯片电子产品中FPGA硬件电路版权的安全保护与实时认证问题,已成为了当前FPGA硬件安全电路设计领域急需解决的问题之一。本文利用信息隐藏、
学位
水产养殖是农业的重要组成部分,多年来产量处于是世界首位,是一个不断发展的综合性研究领域。为了深入了解水产养殖业发展现状及发展趋势,以及渔民喂养方式和获取信息途径,我们前往“浙江省淡水水产研究所八里店实验综合基地”实地调研,通过一个月的实地观察以及工作人员和周围养殖户的反馈,我们发现养殖户多以经验养殖为主,养殖技术以及鱼病预防等措施更新不及时,遇到问题虽通过网络途径查询,却出现各种错综复杂的信息,导
学位
随着精准农业概念在我国的进一步推广,农业生产对智能机器人的需求也变得更加的旺盛。在农业智能机器人领域,目标障碍物识别技术一直是关系到机器人能否自动行走避障的关键。本文提出了一种基于立体视觉的光谱聚类算法,并把该算法应用到农业智能机器人障碍物检测的研究中。  本文为了降低在伪目标存在的条件下,由于伪目标的干扰引起的算法误检概率,进而提高本系统在非结构化的复杂环境中对目标的有效识别能力,提出了一种基于
随着互联网科技的迅猛发展,人类已经进入了一个信息大爆炸的时代,如何从繁杂的信息资源中提取有效的信息成为了学者们研究的重点内容,谷歌、百度等搜索引擎的出现很好的解决了这一问题。它能够对用户提交的查询请求进行处理,返回给用户想要搜索的信息。  目前虽然我国拥有很多涉农网站,如中国农业信息网、中国农村网、农联网、农业智能搜索网等,这些网站拥有丰富的农业信息资源,符合农业用户的查询要求。但是由于没有规范的
学位
我国作为农业大国,无论是农业在国民经济体系当中所占的比重还是我国的农耕土地面积都是在世界上处于前列的位置,同时随着我国的国家经济的飞速发展和改革开放之后我国经济的快速腾飞,无论是农业的技术水平和果树的种植产业都有了极大的提升和发展,水果和农副产品在人们的日常生活当中的比重和消费都呈现迅速增长的趋势。自1993开始我国成为世界第一水果生产大国之后,无论是果园的播种面积还是水果总产量,还是人均水果产量
学位
在机器学习/数据挖掘的众多研究分支中,异常检测一直是最为重要并且最具有挑战性的课题之一,其也被称为单类别分类/新奇点检测/离群点检测等。具体来说,异常检测致力于从一个数据集合中检测出与观测到的数据常见行为最为不相符的那些异乎寻常的数据模式,换言之,其将数据分类为正常类别和异常类别。异常检测有着非常广泛的应用领域,例如网络入侵检测、欺诈检测、工业故障检测以及智能图像视频处理与理解等。与传统的分类问题
学位
图像作为记录生活、分享信息的重要手段,是大数据时代最主要的非结构化数据形态,其应用领域已经深入到人类生活和工作的方方面面,然而,一方面,随着手机、平板电脑、摄像头等各种图像采集设备的广泛使用,图像的规模正呈现出爆炸性增长的趋势;另一方面,图像的处理和分析(如特征提取、物体检测、目标识别、图像检索等)通常包含非常复杂的计算过程。因此,大规模图像数据已经远远超过了资源受限的终端设备的存储和计算能力。 
学位