基于PaaS并行ETL系统的元数据驱动技术的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wooool123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随信息产业的蓬勃发展业务数据量急剧增长,并行计算技术在实际需求产生的应用中日渐成熟。与此同时,企业需要加大对数据中心的各项投入,以解决数据量激增带来的处理能力不足的问题。如何更加有效地利用计算资源成为了这些企业都在思考且当前最为迫切的问题。云计算思想的出现很好地解决了上述问题,不但可以为企业提供强大的计算能力,也满足了信息产业对于计算资源利用率和集中化的需求。   海量数据的ETL(抽取、转换、装载,Extract-Transform-Load)处理是联机分析处理(OLAP,On-Line Analytical Processing)、数据挖掘(DM,Data Mining)等后续分析处理的重要基础,而现有的ETL工具难以满足用户灵活多变的需求,也无法提供动态扩展能力。与此同时,ETL工具的开发者也很难及时实现用户的需求,并且需要投入很大精力进行开发。所以,迫切需要提出一套行之有效的技术方案来实现基于云平台的并行ETL系统并增强其可扩展性。该方案不但可以帮助用户灵活配置需要的ETL处理流程并提高流程的可复用性,也使ETL系统开发者可以方便快捷地开发出满足用户特定需求的ETL组件。   元数据可提供充分的可扩展性,通常用来描述信息的特征,也可作为不同处理步骤间的接口用于传递信息,帮助实现信息资源的灵活管理。   为了解决上述问题,结合上述背景及分析,借助元数据的高可扩展性,本文提出了一种基于PaaS(平台即服务,Platform as a Service)并行ETL系统的具有高可扩展性的元数据驱动技术方案。本文的主要内容如下:   1.提出了基于PaaS的用于描述并行ETL系统的元数据的分类,包括数据元数据、输入/输出元数据、组件元数据、流程元数据、参数元数据。其中,不同类型的元数据分别用于存储和交换系统中不同对象的特征信息。   2.研究设计了针对ETL系统的元数据交互模型并描述了各类元数据之间的关系。   3.研究设计了基于PaaS并行ETL系统的元数据驱动方案,描述了各模块提供的服务内容以及各类元数据与PaaS平台及并行ETL系统中各模块间的关系。   4.设计并实现了基于PaaS的依靠元数据驱动的并行ETL系统原型,该系统中包含若干并行ETL组件并且拥有高可扩展性,使得用户和开发者都可以借助元数据传递的接口信息方便灵活地实现需求。该系统原型是理论实践相结合的产物,能够充分体现元数据驱动带来的灵活可扩展性。   5.设计对用户和开发者暴露的系统接口信息,提供系统的可扩展性。   6.最后,本文根据现实中的应用场景进行设计和实验,通过实验体现了该元数据驱动带来的灵活性和可扩展性,也验证了本文研究及实现工作的实际意义。
其他文献
无线多跳网络具有灵活自组,移动性强,易于部署设置等特性,基于该网络视频传输系统的研究引起多方关注。视频传输业务具有高实时性,对网络质量有着较高的要求。所以如何做到快
随着互联网的快速发展,WEB应用在互联网上的迅速增多导致越来越多的WEB服务被企业发布到互联网上。WEB服务适用于企业内部及企业与企业之间,WEB服务在开发松散耦合的基于组件的
目前,软件开发的技术和规模都达到了一定高度,随之而来的软件质量问题也成为研究的重点。因为软件测试是提高软件质量的关键,其地位在软件开发过程中越来越重要。合理并且有
随着软件应用领域的不断扩大和深入,软件系统的异常行为会对用户造成巨大的损失,因此软件系统的可信性已经成为一个受到广泛关注的焦点问题。而开发可信的软件系统的前提是在
随着世界公共安全形势的日趋复杂化,越来越多的监控摄像头被安放在街道、室内场所等的各个角落,由于监控摄像头每天24小时不间断的采集数据并传回视频监控中心,导致监控视频的数
云计算包括三个层次的服务:基础设施即服务(Instructure as aservice,IAAS),平台即服务(Platform as a service,PAAS)和软件即服务(Software as a service,SAAS)。基础设施即服务
学位
目标物体位姿参数估计是航天器对接、机器人以及无人驾驶等领域无法回避的技术难点之一。在单目视觉领域中,该问题可以被分解为两个子问题:建立三维模型到图像之间的3D-2D特征
车道检测是计算机辅助驾驶系统最重要的组成部分,计算机辅助驾驶系统需要在车道检测的基础上,才能对驾驶行为、车辆偏离、防碰撞等问题进行分析判断。车道检测的研究在过去几十
随着Linux应用的普及,Linux系统的安全问题也逐渐暴露出来,由于Linux是UNIX系统的一种,多采用的是任意访问控制(DAC,DiscretionaryAccess Control)。因此,存在一些先天的缺点,例如