虚拟化系统的高效数据保护技术探讨

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:ribb5619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:近年来随着虚拟化技术在金融企业IT基础架构中的推广,数据整合密度急剧膨胀,高效数据保护问题成为一大技术热点。本文旨在借用vmware和avamar软件技术的结合,探讨虚拟化系统环境下,利用重复数据消除技术来实现高效数据保护的实现方法。
  关键词:虚拟化 数据备份 重复数据消除技术 绿色环保
  中图分类号:TP3 文献标识码:A 文章编号:1674-098X(2011)12(b)-0025-03
  
  关键数据保护一直都是金融企业所面临的一大难题。随着数据信息量的激增,企业往往需要一些行之有效的解决方案来管理这些信息,同时依据金融行业监管机构规定和一些法律调查机构的要求往往使得传统数据保护解决方案在资源和容量上捉襟见肘,如果不能遵守这些法规或及时提供信息,就会带来巨额的成本开支甚至受到严厉的处罚。据权威机构的分析表明,全球金融行业需要保护的数据量正以每年 60%左右的速度在递增,而传统的备份解决方案往往依据固定的策略模式不断地重复存储数据,从而使得需要管理的数据总存储量又徒增5至10倍,数据存储和数据备份的有效性和延续性的要求显得越来越高。
  随着绿色环保运动在全球资源紧缺背景下的大力推广,虚拟化技术正在逐步被金融企业纳入IT基础架构考虑的主要技术模式。在数据分布密度不断提高的状态下,虚拟化系统下的数据保护有效性逐步成为摆在IT主管面前的严峻问题之一。
  本文旨在借用VMware虚拟化产品和Avamar备份软件来讲解虚拟化基础架构组成,并讨论利用重复数据消除技术实现虚拟化环境下的“膨胀化”数据高效保护的完整技术方案和优势所在。
  
  1 需求背景和问题现状
  在虚拟化部署架构环境下,存储数据存在数据量大、密度高、重复数据多的明显特征,传统备份解决方案每周都会产生大量需要移动的冗余数据,使得IT数据运维部门常常会经常面临这样的问题:备份时间段并入生产时间中、网络存在局限性、集中备份管理的数据过多。
  1.1 虚拟系统的数据分布密度提高
  随着企业IT数据中心基础架构虚拟化模式推广趋势,由于虚拟机部署架构的特点,在服务器集成度大大提升的同时,存储数据的存放压力也随之增长,这使得数据存储和备份效率提升成为需要考虑的关键问题之一。
  1.2 虚拟化系统的数据重复存储特性
  由于虚拟机的系统数据和业务应用数据都存放的存储介质上,在虚拟化环境下,存储数据中存在大量相同的数据元素。同时依据传统数据备份策略,需要制定进行完整备份和增量备份的循环时间表,这样备份产生的冗余数据又会成倍产生,如何提升这些共享资源上的冗余数据的存放和备份效率,也成为一个关键考虑问题之一。
  1.3 数据备份可用时间窗口缩短
  由于金融企业要实现7*24小时全天候的运营服务,为支撑业务系统的服务质量,满足企业客户的需求,业务运行的闲置时间越来越短。按照通常的备份原则,往往将生产系统的备份时间安排在业务运行的闲暇时间,这也就意味可以用来实施备份的时间窗口被不断缩短,从而对于备份效率提出了更高的要求。
  1.4 数据恢复时间要求提升
  由于金融企业对客户的利益承诺条款要求的提升,对业务运行的系统非宕机时间的要求也不断提高,从而要求系统恢复时间可以最大限度的缩短,所以备份数据的可恢复性和恢复的效率也愈加受到关注。
  1.5 数据备份介质的成本效益考量
  出于成本费用的考虑,传统备份的主要介质来源于磁带介质,但是磁带介质常常会出现介质损坏、磁头污染、介质容量不足、磁带库硬件故障的各种出错风险。随着业务系统对于多级数据存储的需求提升和数据恢复时效性的要求提高,数据备份介质的选择基准更多的偏向于成本效益的分析。
  1.6 数据集中备份管理需求
  在金融行业综合业务大集中模式的形成下,业务数据的集中管理需求也随之提出,在考量备份方案时,由于传统备份介质(磁带、光盘等)存在异地传输易丢失或被盗的不安全性,逐步趋向于异地存放电子拷贝的共享管理模式。虽然无需人员直接干预处理磁带介质,但是对于电子拷贝存放及恢复的可靠性和安全性要求又成为一大主要问题。
  1.7 网络吞吐的压力问题
  随着集中存储数据密集度增大,重复数据元素增多,在有限的备份时间窗口中,完成数据备份的管理目标,网络压力成为不可忽视的问题之一,如何降低网络传输数据量也成为缓解问题的主要考虑方向。
  近几年来,IT部门往往会考虑使用磁盘存储介质作为传统备份方法的补充方案,但对于所面临的数据有效备份和保护的难题,旨在替代磁带库和磁带介质的磁盘解决方案却仅能解决其中一部分的问题。数据备份容量、备份时间、备份数据保留时长,都成为企业IT主管们在考虑高质量数据保护的重要环节,而消除重复数据技术随之成为提供高效数据保护解决方案的技术基础。
  
  2 技术实现原理
  虚拟化架构体系下的数据冗余程度极高,在同一系统内和不同系统之间都存储着许多完全相同的文件或数据(例如,发送给多个虚拟终端的操作系统文件或文档)。在传统的备份机制下,备份软件将一次次地重复得存储所有这些同源数据,导致数据冗余的成倍增长。重复数据消除技术的推出,定义了可将重复数据标准化为单个共享数据对象以提高存储容量及备份效率的技术,高度冗余的数据保护尤其是备份数据在此获益最大。Avamar备份软件正是基于源位置全局数据消除技术达到IT数据高效保护的目的。
  2.1 在源位置全局消除冗余数据
  备份软件可以通过在源位置上实施消除文件和子文件数据段级别的冗余。在备份操作期间,可以在源位置解决备份数据的冗余问题,然后才跨 LAN 或 WAN 传输数据。将备份软件的代理端部署在需要保护的系统(如服务器、台式机和笔记本电脑)上,可识别并过滤掉单个系统内和多个系统之间的文件中随时间推移而重复存储的数据段。这可确保每个具有唯一性的数据段仅在整个数据集内备份一次。因此,拷贝或编辑的文件、共享的应用程序、嵌入的附件,甚至每天都在变化的数据库,都将只会产生少量的增量备份数据。
  通过仅移动新的、具有唯一性的子文件数据段,可将每日所需的网络带宽和存储量减少到1/500。通过在全局范围内只存储每个子文件数据段的单个实例,还可将总体后端磁盘存储量降低到1/50,从而实现经济高效的基于磁盘的长期存储和恢复可行性。
  2.2 可变长度数据段与固定长度数据段
  重复数据消除技术对数据重复性的判断前期是数据分段,确定数据分段大小的方法是在数据段(或子文件)级别消除冗余数据的关键因素。快照或复制技术通常采用固定块或固定长度数据段来定义数据源组成。遗憾的是,即便对数据集只进行很小的改动(例如,在文件开头插入数据),尽管这样做对数据集的实际改动其实是极小的,但也会改变数据集中的所有固定长度数据段。重复消除技术可以使用智能的方法来确定数据段的大小,例如对于WORD应用和数据库应用来说,数据段值特征将会不同,以这种方法通过观察数据本身来确定逻辑边界点,从而消除了重复数据字段存储和备份的低效现象。
  2.3 确定逻辑数据段的技术
  重复数据消除技术采用的算法是对数据集的二进制结构(构成数据集的数字0和数字1)进行分析,以根据上下文确定数据段边界,所以无论数据集存储在企业中的什么位置,备份软件客户端代理都能够识别出任何数据集中完全相同的数据段。Avamar备份软件的数据段平均大小为24KB。
  通过分析二进制结构的方法可适用于包括数据库在内的所有类型和大小的文件。例如,如果在文本文件的开头和中间各添加一个段落,此算法将识别出新的、修改过的数据段,并只备份这些识别出来的唯一数据段,从而显著减少需要发送和存储的备份数据量。
  对于每个24KB的数据段,Avamar备份软件使用SHA-1加密算法生成20个字节的唯一ID,此唯一ID就好像该数据段的指纹,成为数据段重复性判断的唯一标准。备份软件将使用该唯一ID来确定以前是否存储过某个数据段。使用这些唯一ID的分层图,可以快速高效地存储备份文件、目录、整个文件系统,甚至数据库。
  利用全局重复数据消除技术在源位置识别冗余数据段,然后对消重后的唯一数据段通过网络传输到集中数据集,从而有效解决类似传统备份难以解决的数据高效保护和成本经济考虑的矛盾。通过仅移动新的、具有唯一性的子文件数据段,将每日所需的网络带宽和存储量减少到1/500,无论网络和基础架构是如何缓慢或拥塞,企业都可以利用现有的网络带宽对数据中心和远程数据中心进行备份和灾难恢复。为了提高安全性,也可对传输中以及静态的数据进行加密,可以有效地保护数百个远程分支节点的数据存储和备份需求。
  2.4 虚拟化环境下的备份技术实现
  自2007年以来,金融行业在IT基础架构中逐步引入了成熟的VMware虚拟化技术,形成集中管理、灵活调度、资源优化的高密度服务器整合平台。随着虚拟化平台使用的规模化扩展,数据分布密度急剧增长,数据备份的容量压力愈发凸显,集成了源位置全局重复数据消除功能的Avamar软件技术,恰好响应了在虚拟化系统下的高效数据备份和恢复需求。
  2.5 Vmware虚拟化架构体系
  (1)VMware vSphere虚拟数据中心操作系统
  VMware Virtual Infrastructure是业界一种云操作系统虚拟化套件,VMware vSphere虚拟数据中心操作系统将数据中心转变成“内部云”,将IT部门从与硬件静态对应的系统程序约束中解放出来,可向独立于硬件和位置的所有应用程序保证适当级别的可用性、安全性和扩展性。
  (2)VMware View虚拟终端
  随着使用多平台设备和移动办公模式的推广,IT部门为跨各种Web、桌面和服务器解决方案连接到数据中心和应用程序而绞尽脑汁。将来的桌面将不会是单一物理设备,而是不同设备和环境的集合。应用程序和数据可能位于许多不同的位置,例如运行于某台服务器上的虚拟桌面、家用笔记本电脑以及Web邮件帐户,我们希望无论使用什么设备来连接到桌面,或者无论其应用程序及数据位于何处都能看到相同的视图界面。同时IT部门也希望简化企业终端管理,并经济高效地控制桌面和应用程序。
  虚拟终端是包含虚拟桌面基础架构的桌面计算单元,它将应用程序、数据和操作系统与硬件分离,无论我们使用瘦客户端还是笔记本电脑、在办公室还是出差途中,都可以灵活的获得应用程序和数据的个性化视图。智能后端系统可以向任何设备提供应用程序和数据,使我们能够将精力集中于业务工作而不是工具本身,应用程序和数据获取也将不需要跟随设备而移动,实现了用户桌面系统控制的灵活性、集中管理和有效保护。
  随着企业IT部门对于开发终端接入的安全性管理,虚拟终端的使用越来越广泛,成为虚拟化系统中VM组群一个相对具体独立特性的单元群体。
  (3)VMware Virtual Infrastructure组件构成
   VMware ESX Server—VMware vSphere操作系统中的企业版虚拟化OS,是运行在物理服务器上的经过生产验证的虚拟化层,将处理器、内存、存储和网络资源抽象化,是VM虚拟机的宿主平台。
   VMware Virtual Machine File System(VMware VMFS)—用于各类VM虚拟机的文件系统。
   vCenter Management Server—用于配置、调配和管理虚拟化IT基础架构的中心点。
   Virtual Infrastructure Client (VI Client)—此界面让用户和管理员能够从任何Windows PC远程连接到 VirtualCenter 实施虚拟机的相关配置管理和终端操作。
   VMware VMotionTM—使运行中的虚拟机能够从一台物理服务器实时迁移到另一台服务器,同时实现零停机、保持连续的服务可用性并可完全保证事务完整性。
  VMware vStorage APIs for Data Protection—将备份负载从ESX Server主机卸载,消除备份时间窗口,消除LAN中的备份流量,并避免在虚拟机内运行备份代理来执行映像级别和文件级别的虚拟机数据备份。
  2.6 Avamar 备份软件实现机制
  Avamar备份模式可采用两种方式为VMware虚拟化系统下VM虚拟机来提供数据备份的实现,两种方式有着不同的技术特点,依据应用系统的备份需求不同可以考虑采用不同的部署模式。
  (1)基于虚拟机VM系统的备份
  VM系统级别的备份需要在每个虚拟机内安装Avamar代理。用于此方法的备份配置与用于物理服务器的备份配置无任何区别,需要基本客户端设置以外的资源配置来支持特定应用程序,例如Microsoft SQL Server或Exchange,或者Oracle。但与传统备份模式不同的是它利用最高级别的分类识别重复数据消除,来支持虚拟机内应用程序和文件级的数据备份,将备份数据容量和数据传输率降到最低。
  (2) 基于vStorage APIs for Data Protection的映像备份
  VMware vStorage APIs for Data Protection可以实现无需LAN的备份,并将备份工作负载卸载到备份代理服务器。vStorage API的代理服务器可以装载虚拟机的.vmdk文件,并提供.vmdk备份或文件级备份,以实现整个映像或文件集的可恢复性。通过使用Avamar代理来备份装载的虚拟机磁盘,Avamar同时在文件级和.vmdk级提供了重复数据消除。
  VMware vStorage APIs for Data Protection包括一组应用工具和API,它们可与 Avamar代理软件和Avamar互操作性模块(AVIM)协同工作,Avamar代理和AVIM在代理服务器上运行以提供备份服务。虚拟机的实际备份在备份代理服务器上进行,一台备份服务器可以为多台ESX Server主机上的许多虚拟机提供备份服务。
  Avamar与vStorage APIs for Data Protection及AVIM集成后,利用vStorage API来创建快照以及装载和卸载快照(运行中的虚拟机的时间点拷贝),当Avamar备份软件按指定的时间表和策略启动备份时,代理服务器上的Avamar代理将启动备份活动,从而在最短时间内完成虚拟机的备份,并同时进行数据消重,将备份数据和存储容量降到最小。
  使用Avamar和vStorage APIs for Data Protection相结合的优势体现:
   可以对运行中的虚拟机进行实施完整映像备份
   在VMDK文件内和VMDK文件之间执行重复数据消除
   利用高效传输(只传输非重数据),避免通过网络拷贝整个虚拟机磁盘映像
   在Windows和LINUX中从映像级备份提供文件级恢复
   通过重复数据消除和压缩数据最大限度减少网络流量
   避免在大多数情形下管理每个虚拟机中的备份代理
  
  2.7 备份软件与vCenter 集成
  为提供备份管理和数据恢复的集中化、全局化和可管理性,通常备份软件都会与VMware的集中管理平台vCenter集成,使备份软件管理控制台可以查询一个或一组vCenter实例,获取虚拟化系统的集中数据信息,并提供重要数据信息的集中备份和恢复活动的统一管理。
  备份软件与vCenter集成的主要特点:
   轻松获取虚拟化全局试图,对虚拟机备份状态一目了然
   显示虚拟机是如何(客户系统、虚拟机、根本未备份)以及何时备份的,可以完全跟踪备份执行并记录过程
   实现备份策略统一管理,添加虚拟机时自动向其添加预设的备份策略
  
  3 在企业IT运维中的优势体现
  重复数据消除技术的采用,减少了虚拟机内和虚拟机之间的重复备份数据量,通过在全局范围内只存储文件数据段的单一实例,将总体后端存储量减少到原来的 1/50,从而有条件实现经济高效的基于磁盘的长期恢复。在金融企业IT部门的数据运维工作和IT预算支出中体现了诸多优势:
  缩减基础架构成本
  减少或消除了存储数据每周和/或每月完整磁带备份相关的介质成本和管理成本。磁带备份过程的自然结果是,反复地提取、发送和存储相同数据的多个拷贝。创建这些数据的每个副本都耗费宝贵的服务器、网络、存储设备和管理人员,导致总体拥有成本的连续攀升。
  备份软件利用消重技术,可以快速消除与操作系统、修补程序、应用程序等相关的冗余数据,从而大幅降低基础架构成本。
  减少备份时间(实际执行时间)
  通过在源位置上消除冗余数据,将传统备份负载从每周高达200%减少到每周2%,大大缩短了备份时间,有效避免出现备份占用生产时间或拖延到周末这样的情况。对于虚拟化环境下的高密度应用系统部署的情况下,也能轻松面对类似每日完整备份的苛刻要求。
  降低CPU利用率
  集成消重技术的备份软件客户端以低优先级或“精确”模式运行,不会与其他应用程序争夺客户端系统中的CPU资源。虽然在备份操作过程中,此类客户端通常比传统备份代理多使用15%的CPU,但将备份操作所需时间缩短到了1/10,从而降低了总体CPU利用率。
  集中式管理
  集中部署模式使得备份软件可以从单个管理控制台屏幕上管理多个站点,并同时查看多个系统。完整的生命周期管理和执行策略管理可以使企业实现全局管理的一致性和灵活性。
  提高恢复时间目标
  由于增强了对数据的访问功能,使企业可以轻松达到其恢复时间目标。既然数据可通过单个步骤即时恢复,那么,与传统的多步恢复过程相比,就提高了员工的生产率。
  经济高效的灾难恢复
  利用备份软件的复制模块,可以实现经济有效地向异地移动和存储全部关键数据,从而加强灾难恢复能力。远程复制完全可以通过高效的IP异步数据传输实现的,可安排在非高峰时段进行,以优化利用网络带宽。可从DR(灾难恢复)站点到主站点实施远程恢复,对停机立即做出响应。
  远程系统保护
  由于采用全局重复数据消除技术,备份数据量大大降低,通信成本显著降低,只有新的、具有唯一性的子文件数据段才通过网络从远程位置发送到数据中心,从而可以有效保护驻留在所有远程位置的宝贵数据资产。
  
  4 结语
  总而言之,在VMware 虚拟化系统备份需求下,备份软件技术充分利用源位置重复数据消除的技术优势,有效消除了传统备份的瓶颈--大量冗余数据必须通过同一组共享资源(物理服务器的 CPU、以太网适配器、内存和磁盘存储)进行传递,从而大幅减少与介质和网络需求相关的基础架构成本,同时提高了虚拟化环境下的备份效率和数据可靠性,有效提升了应用程序整合率,并最大限度地减少了繁杂的基础设施的运维管理工作,成为金融企业IT主管们试图降低CTO而考虑的基础架构改革推进的主要技术途径之一。
  
  参考文献
  [1] VMware.com/cn上的VMware vSphere和VMware产品页.
  http://www.vmware.com/cn/products/vsphere/.
  http://www.vmware.com/cn/products/view/.
  [2] china.EMC.com 上的 Avamar 产品页
  http://china.emc.com/products/family/avamar-family.htm00.
其他文献
"记忆、操作、计算"能力是化学实验教学中培养的三项基本能力,其中"操作"能力为三项能力之首。用"操作"巩固"记忆,"用"操作"强化"计算,"使学生真正达到记忆快准、操作稳准、计算精准。
中学语文教学的根本目的就是教学生学会去说、去写、去读、去听,其核心的东西就是思维方法.在语文教学中,应注重思维训练,突出思路教学,从而提高课堂教学质量.
从电力电子器件及其故障的特殊性出发,提出电力电子器件及其故障具有灰色性质,从而为灰色理论系统应用于电力电子器件的故障诊断提供了前提。本文以IGBT为例,运用灰色关联方
在中学历史教学中,要培养学生的创造性思维能力,就需要从3方面下手:把学生的直觉思维与逻辑思维有机结合起来;把发散思维与定向思维有机结合起来,把思维的层次性和深刻性结合
目的探讨应用改良非创伤性充填(atraumatic restorative treatment,ART)技术治疗学生恒牙龋的效果及学生的接受程度,为提升中小学生的龋病治疗水平提供参考。方法选取2006年昆山
摘要[目的]为了研究能使核桃采穗圃产出更多的优质穗条的种植密度和施肥配比模式。[方法]采用裂区设计,以密度为主区因素(A),株行距分别为1.0 m×2.5 m、2.0 m×2.5 m、3.0 m×2.5 m 3个不同密度定植,施肥量为副区因素(B),并将氮、磷、钾不同比例进行搭配。主区为随机区组排列,副区为完全随机区组排列。[结果] 种植密度对产穗量的影响在0.01水平显著;施肥配比产穗量的影响不
随着化石能源的不断枯竭,生物质能源的作用日益凸显。在生物质能利用过程中会遇到各种问题,即生物能快速、广泛发展的制约条件。在生物质储存、使用时,干燥过程成为其关键环节。
摘 要:随着全球人口和经济规模的不断增长,能源使用带来的环境问题及其诱因不断地为人们所认识,不止是烟雾、光化学烟雾和酸雨等的危害,大气中二氧化碳(CO2)浓度升高带来的全球气候变化也已被确认为不争的事实。《大小兴安岭林区生态保护与经济转型规划(2010-2020年)》已经出台,大小兴安岭国有重点林区成为我国首个获正式批复的国家级低碳经济示范区。  关键词:森林 林业 低碳经济 可持续发展  中图分
摘要[目的] 为了更好地选用涪陵榨菜(茎瘤芥)的不同肥料组合。[方法] 在收集施用不同肥料的收获期榨菜的茎叶产量、营养品质等检测数据的基础之上,运用主成分分析的方法,并以SPSS统计软件进行合理地施肥效果分析。[结果] 建立相关主成分的回归方程,实现主成分对变量的反映,对比较各肥料组合的使用效果具有积极意义。[结论] 该研究可为合理选用榨菜的施肥方案提供科学依据和参考。  关键词涪陵榨菜;施肥;主
加强政府的宏观调控能力,充分发挥工程造价管理部门的监督作用,加强施工企业的工程管理等措施才能把日渐上涨的人工费对建筑市场造成的冲击和影响降至最小,更加有利于建筑市