多云存储系统中数据放置与负载均衡机制研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:yy4733
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高可用的多云存储系统是当前大数据存储领域的研究热点,具有广泛的应用前景。然而随着大数据应用模式的不断发展,对现有多云存储机制提出了新的挑战:一方面,不同的大数据应用对数据的读写操作差异较大,使得其I/O模式呈现显著的异构性。为保证应用的访问性能,多云存储系统需要根据不同应用的I/O模式制定灵活的数据放置方案;另一方面,随着上层应用数据的不断增多,数据放置不均问题难以避免,此时需要合理的负载均衡策略降低数据放置产生性能瓶颈的风险。因此,需要在多云存储系统中对不同应用的数据进行合理放置,并实现有效的负载均衡,这对大数据存储具有重要的理论意义和应用价值。
  为此,本文研究了多云存储系统混合I/O模式下的数据放置和负载均衡策略。具体研究成果包括:
  (1)针对混合I/O模式下多云存储数据放置问题,提出了一种混合I/O感知的数据放置策略。该策略分为基于决策树的混合I/O感知算法和混合I/O模式下自适应的数据放置策略两个阶段,前者利用决策树模型准确感知数据的I/O模式,后者能够针对性的设计合理的数据放置策略。实验结果表明,该策略可以根据数据特点准确划分数据 I/O模式,准确率达到96.57%,并与未作优化的方案相比降低了20%~50%的数据读写访问延时,优化了存储系统整体性能。
  (2)针对混合I/O模式下多云存储负载均衡问题,提出了一种混合I/O下多云间负载均衡策略。该策略分别设计了周期性负载均衡策略与临时性负载均衡策略,前者可以很好的解决数据布局不均的问题,后者可以有效应对大量大数据应用突发性的I/O请求。实验结果表明,该策略有效消除了数据放置产生的性能瓶颈,并提升了近20%的数据访问效率。
  (3)基于上述两个理论成果,本文设计并实现了一个多云存储数据放置优化系统。首先,搭建了一个包括阿里云、百度云、华为云等云存储服务商的多云环境;其次,将本文理论成果实现并部署在该系统中,为大数据应用提供切实有效的多云存储服务;最后,通过真实环境下的实验测试,验证了本文理论研究工作的有效性。
  总之,本硕士论文面向多云存储系统中数据放置与负载均衡机制进行了深入的探索,并设计实现了一个多云存储数据放置优化系统。相关实验表明,本文所提机制有效提高了大数据访问性能,并能够实时处理大量突发性的I/O请求,可为现有多云存储系统的数据放置优化和负载均衡提供行之有效的解决方案,为大数据存储管理的发展做出有益贡献。
其他文献
近年来,实值神经网络(Real Neural Network,Real NN)在学术界和工业界受到广泛关注,网络的构造、推广及其合理的解释是当前人工智能应用基础理论研究的重要研究内容。作为深度学习的经典学习模型,实值卷积神经网络(Real Convolutional Neural Network,Real CNN)在语音识别、图像处理、医学辅助诊断等领域均取得了显著成果,但是它的网络结构中通常不考
近些年来各行各业高速发展,对人才的选择日趋重要,人才选择最重要的是人才评估。尽管当前招聘形式种类多样,但人才评估依赖于学历证明的情况并没有发生改变,这导致学历造假现象层出不穷。此外,各大企业招聘人才需大量笔试、面试,导致招聘效率低下,且应试型考试能够考前突击,从而取得很好成绩,并不能真实评估人才水平。基于学习经历大数据(以下简称学历数据)生成学生画像,进而实现客观人才评估的方法,近年来受到了很大关
学位
近年来,随着智能设备的普及,移动应用得到迅速的发展。这些应用往往依赖于基于位置的服务,通过使用用户的坐标位置或者语义/逻辑位置为用户提供个性化服务内容。基于位置服务的应用对用户位置信息的访问带来了严重的隐私隐患,为了使用户在获得基于位置服务的同时保障其隐私不受侵犯,研究者们针对位置隐私定义以及隐私与功能之间的最优化权衡展开了研究。  现有的隐私定义主要基于信息论和差分隐私这两个概念,且主要针对用户
学位
随着网络信息技术的不断发展,互联网已经成为国民经济和社会发展的重要基础设施,各类业务与应用对网络基础设施的可扩展性和健壮性要求达到了新的高度。IETF提出的新一代网络管理协议 NETCONF,以及用于描述网络配置和状态数据的 YANG 模型,可以降低人工运维成本,使网络运维趋于自动化。  然而由于业务现实等因素,各家厂商和标准化组织构建的YANG模型存在异构性,不同来源的YANG模型在语义上难以统
学位
近年来,传统数据中心网络的性能已经无法满足分布式应用日益增长的网络需求,新型的低延迟数据中心网络应运而生。低延迟数据中心网络的核心技术是RDMA,即远程直接内存访问技术。RDMA本质上是将协议栈卸载到硬件中,实现了内核旁路技术,避免了传统网络中数据从用户态到内核态的拷贝开销,同时省去了内核处理的开销,为数据中心分布式应用提供了低延时和高带宽的性能优势。RDMA 与数据中心应用的结合使得传统的基于T
学位
X射线数字化放射成像(DR,Digital Radiography)使得医生在无创条件下,能够初步掌握关于病人病情和病灶的基本信息,在众多疾病的医学临床检查和诊断中扮演着不可替代的重要角色。为了降低电离辐射可能带来的致癌风险,低剂量成像是目前临床应用的必然趋势。然而降低辐射剂量将引入大量噪声,导致成像结果严重退化。近年来,随着硬件技术的发展和深度学习理论日渐成熟,基于卷积神经网络的图像噪声抑制研究
学位
近年来,随着证书的普及,学历造假、隐私泄露等事件层出不穷。已有的解决方案大多是基于传统的中心化数据库存储技术,会造成数据丢失、泄露且难以恢复的情况,存在一定的弊端。即便能够保证数据可信,但单凭学历证书也并不能完全代表一个人的能力。  区块链技术的提出为解决上述问题提供了新的思路。学程链是一个基于区块链的学历鉴证平台,它通过将学生全周期的学习经历数据、数字身份存储于区块链上,保证学生数据安全且不可篡
肾癌是人类最常见的十大癌症之一,在治疗肾癌以及肾脏的另一些良性肿瘤方面,外科手术是最佳选择。其中,保留肾单位手术(Nephron Sparing Surgery,NSS)是治疗肾肿瘤的一种有效方法。NSS手术前需要进行计算机断层扫描增强造影(Computed Tomographic Angiography,CTA)确定位置、大小等信息,为此需要在 CTA 图像中进行肾脏定位,并对手术相关组织边缘进
学位
水下目标检测作为诸多水下作业的先决条件之一,通过区分水下多类别目标的不同个体并准确定位,为观测者对水下探测的深入研究提供保障。而声呐图像目标检测作为水下目标检测的关键任务,具有高频,高分辨力,多波束及实时性强的特点,在工业及军事等诸多领域均有着广泛的应用价值。因此面向声呐图像的目标检测任务对于水下探测具有重要意义。  然而传统目标检测算法无法满足声呐图像目标检测任务对处理效率、性能及智能化等方面所
学位
索引结构是用来提高数据访问性能的重要工具,但其采用的数据结构没有考虑真实数据的分布特征。而机器学习的本质是从数据中发掘隐藏的模式,这些从数据中发掘的模式反映了数据的内在联系和分布规律。因此机器学习为建立数据索引提供全新的解决思路。此外,机器学习模型存储空间小、并行度高、查询速度快的特点可以有效地提高索引的查询性能,降低索引带来的空间开销。然而目前基于机器学习的索引结构(简称学习索引)存在着以下不足
学位