论文部分内容阅读
目前商业银行面对互联网金融潮汐一般的冲击,愈发需要提高自身信息技术水平,通过了解掌握每日银行自身最新经营状况数据,以适应先进的管理水平和风险承受能力,快速准确地做出相应决策,应对新时期市场的不断变化。由于银行系统分支复杂,各类数据分布在银行不同的业务系统中,各条线之间数据相互关联而又不统一,为了提高数据分析工作的效率和质量,有效利用数据,挖掘其中有价值的信息。如何解决有效管理和统一各个业务及管理环节的海量信息数据的问题,改善业务流程、提升工作效率,对银行来说有着非常重要的意义。数据仓库平台建设可以解决各系统间的数据孤岛等问题,全面整合上游系统的数据,抽取解析,并为下游系统提供所需模式的数据类型,为银行管理层决策提供有效依据。本文对数据仓库、ETL(Extraction Transformation and Loading)的基本概念及国内外研究历史和现状做了基本的描述,全面分析了数据清洗和DSB(Data service bus)的原理流程。并在现有数据仓库技术架构体系的基础上进一步结合上下游系统的特定需求,为不同业务系统提供数据支持,建立数据仓库模型,划分SDM(Source Data Model)/FDM(Foundational Data Mode)/MDM(Market Data Mode)/RDM(Report Data Mode)等数据层次,对每个层次进行分析描述。提供了ETL的可行性方案,提出从开始到结束的完整ETL流程,包括ETL工具外的脚本应用。本文还介绍了行业内通用的数据仓库ETL工具和自动ETL跑批工具,简要介绍了比较重要的相关下游系统及其运行情况。在DSB系统开发结束之后,对其进行了功能测试和性能测试。