论文部分内容阅读
近年来,伴随信息产业的蓬勃发展业务数据量急剧增长,并行计算技术在实际需求产生的应用中日渐成熟。与此同时,企业需要加大对数据中心的各项投入,以解决数据量激增带来的处理能力不足的问题。如何更加有效地利用计算资源成为了这些企业都在思考且当前最为迫切的问题。云计算思想的出现很好地解决了上述问题,不但可以为企业提供强大的计算能力,也满足了信息产业对于计算资源利用率和集中化的需求。
海量数据的ETL(抽取、转换、装载,Extract-Transform-Load)处理是联机分析处理(OLAP,On-Line Analytical Processing)、数据挖掘(DM,Data Mining)等后续分析处理的重要基础,而现有的ETL工具难以满足用户灵活多变的需求,也无法提供动态扩展能力。与此同时,ETL工具的开发者也很难及时实现用户的需求,并且需要投入很大精力进行开发。所以,迫切需要提出一套行之有效的技术方案来实现基于云平台的并行ETL系统并增强其可扩展性。该方案不但可以帮助用户灵活配置需要的ETL处理流程并提高流程的可复用性,也使ETL系统开发者可以方便快捷地开发出满足用户特定需求的ETL组件。
元数据可提供充分的可扩展性,通常用来描述信息的特征,也可作为不同处理步骤间的接口用于传递信息,帮助实现信息资源的灵活管理。
为了解决上述问题,结合上述背景及分析,借助元数据的高可扩展性,本文提出了一种基于PaaS(平台即服务,Platform as a Service)并行ETL系统的具有高可扩展性的元数据驱动技术方案。本文的主要内容如下:
1.提出了基于PaaS的用于描述并行ETL系统的元数据的分类,包括数据元数据、输入/输出元数据、组件元数据、流程元数据、参数元数据。其中,不同类型的元数据分别用于存储和交换系统中不同对象的特征信息。
2.研究设计了针对ETL系统的元数据交互模型并描述了各类元数据之间的关系。
3.研究设计了基于PaaS并行ETL系统的元数据驱动方案,描述了各模块提供的服务内容以及各类元数据与PaaS平台及并行ETL系统中各模块间的关系。
4.设计并实现了基于PaaS的依靠元数据驱动的并行ETL系统原型,该系统中包含若干并行ETL组件并且拥有高可扩展性,使得用户和开发者都可以借助元数据传递的接口信息方便灵活地实现需求。该系统原型是理论实践相结合的产物,能够充分体现元数据驱动带来的灵活可扩展性。
5.设计对用户和开发者暴露的系统接口信息,提供系统的可扩展性。
6.最后,本文根据现实中的应用场景进行设计和实验,通过实验体现了该元数据驱动带来的灵活性和可扩展性,也验证了本文研究及实现工作的实际意义。