数据仓库数据源管理研究与实践

来源 :科协论坛·下半月 | 被引量 : 0次 | 上传用户:tta86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:论述数据仓库系统数据源管理的意义、对象、内容和方法,基于此,开发建设数据源管理系统,并应用到对ERP系统业务数据的接入管理,取得预期的成效。
  关键词:数据仓库 数据源 数据源管理
  中图分类号:TP392 文献标识码:A 文章编号:1007-3973(2013)012-202-03
  1 引言
  数据仓库(Data Warehouse)是所有DSS(Decision Support System)处理的基础,是一个面向主题(Subject Oriented)的、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。一般来说,数据仓库应具有以下几个方面的作用:(1)存储企业级的基础数据和共享数据;(2)为各业务应用系统提供共享数据;(3)为业务部门提供综合数据查询分析功能;(4)为企业管理层提供分析决策信息。
  数据仓库系统的数据一般是通过数据源从业务源系统中抽取,由此数据源是数据获取的首要环节和关键点,当面对众多业务源系统,面对海量数据的抽取时,就迫切需要一套完整高效的方法和工具对数据源进行管理,为数据仓库系统数据的准确性、完整性和及时性提供支持。
  2 数据源管理概述
  2.1 数据源定义
  数据源是指业务源系统(以下简称源系统)中向数据仓库提供业务数据的技术对象,数据仓库系统通过数据源来抽取源系统中的业务数据。在源系统中,数据源可以是各种技术对象,如数据库表、视图、XML文件、文本文件或程序等。
  相对应的,在数据仓库系统中一般也有相应的技术对象对应于源系统中的数据源,用于存储业务源系统的数据。在源系统和数据仓库系统之间存在着各种数据传输技术和工具,用来进行数据抽取和传输,比如各种专业化的数据抽取工具(ETL)、WebService技术、数据库连接技术(DB Connect)等等。
  2.2 数据源管理意义
  数据源管理是数据仓库数据管理的重要组成部分,更是数据接入管理的主要内容。数据源管理的目标是:(1)确保数据仓库系统能准确、完整和及时地接收到业务数据,防止因数据源变更对数据仓库数据造成的各种不良影响。(2)让业务人员、信息管理人员和技术人员等各级各类人员清楚地了解和知晓数据仓库系统已接入了哪些业务数据,为业务人员与技术人员建立起沟通的桥梁。(3)减少因不了解数据仓库系统数据而造成的数据重复接入、重复建设或利用不充分等现象,促进数据仓库系统数据模型的完善提升和数据共享能力提高。
  3 数据源管理的对象、内容和方法
  3.1 数据源管理的对象
  3.1.1 数据源
  数据源涉及到数据的业务类别、数据结构、抽取方式等信息,可分类归纳为业务属性、技术属性、数据项属性和运行属性四类,以反映数据源的各方面内容。
  业务属性用于说明数据源所涉及的业务数据情况,比如是哪些种类的业务数据,什么业务逻辑条件、组织条件和时间条件下的业务数据,这是数据源管理的核心价值所在。数据源业务属性主要通过数据源名称和数据源描述来表达,此外还包含数据的业务类别(比如财务类、营销类等)、数据业务类型(比如主数据、交易数据等)等信息。
  数据项属性是指数据源中可提供的业务数据项(也称字段)信息,主要有数据项的技术名称、中文名称、说明、数据类型、数据长度、小数位数、关键字标识等。
  技术属性是指数据源的物理实现,说明数据源的技术对象和类型,主要包括:数据源对象的技术名称;技术类型,如表、视图等;当前版本;使用状态,如在用、未用、废弃;增量支持,说明数据源是否支持以增量方式提供数据。
  运行属性指数据仓库系统基于数据源抽取业务数据的相关具体信息。运行属性往往是根据业务、技术和管理的需要而确定的,并且往往是设置在数据抽取工具上。运行属性通常包括:数据的抽取频率和触发时间;数据的抽取方式,分为全量或增量,全量是指抽取数据源中的全部数据,增量是指抽取数据源中自上次抽取后变化的业务数据;推送方式,分为推、送两种方式,推是指源系统主动发起数据的传输,拉是指数据仓库系统主动发起数据的传输;数据传输技术,是指数据传输的技术方式,包括WebService、RFC、数据库直连(DBLINK)、ETL工具等。
  3.1.2 数据源构造对象
  一个数据源本身往往是由程序、表或视图等多个技术对象构建而成,这些技术对象是数据源的构造对象。显然构造对象的变化会对数据源产生影响。事实上这些构造对象本身也可能存在依赖关系,并且是多对多的依赖关系。同样,对这些技术对象需要关注其技术名称、技术类型和主要功能作用。
  3.2 数据源管理的内容
  数据源管理的主要工作应包括配置管理,变更管理和运行管理等。此外基于数据源管理的特点,从实际工作角度出发还应区分清楚数据源管理的分工职责等。
  3.2.1 配置管理
  数据源配置管理的主要任务是建立起数据源配置清单,记录数据源的各项属性信息,分析和记录数据源及其构造对象之间的相互依赖关系。数据源配置清单的建立是数据源管理的基础工作。数据源配置清单可以服务于各级各类人员,业务管理人员可以了解数据中心从业务系统抽取了哪些数据,项目实施人员可以充分了解和共享现有数据,避免重复建设,信息运维人员可以了解数据接入情况,以及数据源详细配置。
  3.2.2 变更管理
  数据源变更管理是数据源管理的重点,能否及时发现数据源变更,并能够有效处理变更。这直接关系到数据抽取的准确性、完整性和及时性。数据源变更的情况有三类:(1)技术对象构造的变化,这是指数据源或其构造对象在逻辑结构上的变化,这类变化往往会直接导致数据抽取任务失败,运维人员比较容易发现数据抽取错误,进而进行排查分析解决,实际工作中这类错误最为常见;(2)单纯的业务逻辑变化,比如一个业务代码及其逻辑含义的变化,这类变化一般不会导致数据抽取任务的失败,错误很隐秘,因而也很难发现,往往是最终用户通过应用功能发现数据存在离谱现象,才能逐步分析解决,而且整个排查分析过程也会很艰难,实际工作中这种情况也存在;(3)信息系统的物理变化,比如服务器有调整,IP地址或域名有变化等,这类错误一般是立刻容易发现的,也比较容易解决,在实际工作中较少发生。   变更管理的主要任务就是解决以下几个问题:(1)及时发现数据源的变更,这是数据源管理的难点。及时发现是指在应用变更之前尽早发现它们对数据源的影响,这需要以知晓数据源(及其构造对象)的变更之处为前提。(2)分析数据源变更的影响。在发现数据源有变更之后,应尽快分析数据源变更的影响,判断数据源变更对数据仓库系统的影响范围、程度和具体技术对象。(3)提出数据源变更影响的解决方案。在数据源变更之前,应尽快提出相应的解决方案来消除或减轻对数据仓库系统造成不良影响,解决方案的实施应与数据源变更相协调一致。(4)及时调整维护数据源配置清单。最后应及时调整维护数据源配置清单,使配置清单始终能反映系统实际状况。总之,一个高水平的管理是应该尽量做到数据源变更前及时发现,迅速完成变更影响分析,有效提出解决方案,并有序加以实施。
  3.2.3 运行管理
  运行管理主要任务是监控数据源运行情况。了解数据源运行参数,包括运行频率、触发时间、抽取方式、数据传输技术等。关注数据源运行结果,确保数据仓库及时准确地抽取到源系统业务数据。分析数据源运行效率,了解数据抽取过程中耗用的时间和消耗系统资源情况。通过监测数据源运行情况,合理调整数据源配置与抽取策略,提高数据接入质量,改善系统运行效率。
  3.2.4 分工协作
  由于数据源存在于业务源系统中,并且对数据仓库系统有着紧密的联系。因此,业务源系统和数据仓库系统两端都必须开展数据源管理,明确分工,各尽其责,密切沟通,协调一致,通力合作,只有这样才能管理好数据源,才能有效提高数据抽取的准确性和可靠性。
  业务源系统技术人员应研究数据源及其构造对象的结构、状态及相互依赖关系,建立和维护数据源配置清单;在源系统变更实施前,应充分了解技术对象的变更情况,分析它们对数据源可能造成的影响,并及时通知数据仓库系统技术人员。数据仓库系统技术人员应及时分析数据源变化对数据仓库系统造成的影响,并与业务源系统技术人员协调一致,明确相应的解决方案,有序进行数据源的变更。
  3.3 数据源管理的方法
  要做好数据源管理还需采取必要的信息化工具,通过工具的应用,实现手工管理无法实现的任务,提升数据源管控效率。
  (1)采用信息化工具是实现数据源管理要求的必然体现。业务系统的数据源及其关联对象数量庞大,复杂的系统往往具有数千个技术对象,技术对象之间存在着大量的逻辑关系,依靠手工管理是很难做到准确和高效,难以实现数据源变更影响分析等要求。(2)企业往往有多个业务源系统,有各自不同数据源,通过信息化的手段可以把不同业务源系统的数据源统一地整合起来,进而可以较为完整地反映企业数据的整体状况。(3)通过信息化工具,可以实现数据源信息共享,满足业务、信息和技术等各级各类人员对信息管理的不同要求。
  4 数据源管理实践
  基于上述数据源管理的理念,以某公司SAP BW数据仓库为例,将SAP ERP系统数据源作为切入点,设计开发了一套数据源管理系统,系统架构见图1。数据源管理系统由应用功能、数据库和接口三部分组成。应用功能主要实现数据源查询展现、维护同步和变更预警等功能;数据库主要存储了数据源及其相关信息;接口部分主要实现对ERP系统数据源技术对象的获取。
  4.1 系统主要功能
  4.1.1 数据源查询
  数据源查询实现数据源信息共享。用户可以设置条件以树状导航方式查看数据源清单,对业务人员来说,着重关注数据源的业务含义,如数据源名称、业务类别、数据源描述、来源系统等;对信息管理和技术人员来说,在了解掌握业务含义的基础上,可进一步了解数据源的技术细节,如数据源的来源系统、技术名称、技术类型、抽取方式、抽取技术、抽取频率等,有利于数据源的管理、开发和运维工作。
  4.1.2 数据源同步
  数据源同步是一项关键功能,实现ERP系统数据源配置信息自动同步到数据源管理系统。它可自动获取ERP系统的数据源对象技术信息,辅以人工分析和说明数据源技术对象的业务属性,更新数据源管理系统中的数据源信息,保证数据源管理系统与ERP系统技术对象的一致性。该项功能可以显著地减少数据源信息维护工作量,同时也为数据源变更预警功能奠定基础。
  4.1.3 数据源变更预警
  数据源变更预警实现ERP系统数据源及其构造对象变更自动提醒。该功能将列出ERP系统中数据源结构或数据原表等技术对象的最新变化,通过人工甄别,分析这些变化对BW数据源造成的影响,以便能对相关数据源及数据仓库相关模型进行及时调整,减少对数据仓库数据抽取的不良影响。
  4.2 关键技术
  实现数据源管理系统要解决以下几个主要技术难点:(1)需要研究ERP业务系统的数据源技术对象存储方式,这需要跟踪系统的内部结构,不断进行验证测试,才能掌握数据源存储方式。(2)需要研究数据源的构造对象,厘清数据源与构造对象的对应关系,这项工作已经涉及到源系统内部的数据逻辑结构的研究。(3)研究和建立数据源变更自动预警机制,能够及时发现源系统数据源或其构造对象的更变,并在数据源系统自动提示,该项工作是系统建设的关键,也是技术难点。
  4.3 实践成效
  数据源管理系统投入运行后,显著提升了ERP系统数据源管理能力。(1)各级各类人员很容易就能掌握ERP系统中哪些数据接入了数据仓库,以及所有相关的业务、技术、运行情况等信息,为满足数据共享需求,以及技术和业务人员之间的沟通提供了条件。(2)对数据源整体情况的掌握,直接避免了因难以了解数据接入现状而导致数据源重复开发的问题,促进了数据共享水平提升。(3)数据源变更事前预警功能达到变更提醒100%准确,避免了因各种变更导致数据不能正常更新到数据仓库的问题,从根本上弥补了ERP系统数据源变更管理的空白。
  5 总结与展望
  本文对数据源管理的对象和内容进行了分析和定义,开创性地提出了建立数据源配置清单及数据源变更事前预警功能,并将相关理念用于实践,取得了显著成效。后续可拓展实践领域,将其运用到各种异构的源系统数据源管理中,且可延伸管理范围,进一步分析构建数据模型和数据输出相关管理功能,实现数据流全过程管理。
  参考文献:
  [1] William H. Inmon.Building the Data Warehouse[M].4th ed.New York:Wiley,2005.
其他文献
摘 要:首先,利用分光计测量双棱镜的楔角,并发现楔角越大干涉条纹宽度越小,亮度越强。其次,得到l-d曲线,并利用l-d的直线表达式,提出一种用于计算双棱镜折射率n及厚度h的新方法。最后,得到并观察He-Ne激光干涉的现象。  关键词:l-d曲线 He-Ne激光干涉 双棱镜折射率  中图分类号:O436.1 文献标识码:A 文章编号:1007-3973(2013)012-126-02  在“用双棱镜
期刊
摘 要:船舶电力系统的供电一定要保证其连续性,以此可以有效尖端船舶停电所持续的时间。分析现在船舶电力系统通常出现故障的原因,在故障分析的基础之上解释船舶故障诊断专家系统研究的设计原理。可以根据两个诊断模块,即其他设备诊断和输电线路诊断将整个诊断系统有效分别。采用产生式和框架相结合的手段很好地体现船舶电力系统的知识表示,而为了有效解决故障识别中存在的不确定性问题,提出了模糊规则来解决其不确定性。该研
期刊
摘 要:近年来,随着社会经济的快速发展和科学技术的不断进步,低压变频装置和变频技术也在不断的成熟和改进,在节能及优化生产控制方面发挥重要作用。对低压变频装置的工作原理、特点等内容进行分析,并结合某沥青生产装置的应用就低压变频装置的选用谈一点看法,以供参考。  关键词:低压变频装置 原理 特点 应用  中图分类号:TM921.51 文献标识码:A 文章编号:1007-3973(2013)012-13
期刊
摘 要:简要介绍采用紫外辐射功率测量法检测电力设备外绝缘污秽的原理,并针对紫外辐射功率测量法对系统数据采集速度要求较高的问题,介绍一种利用高速AD转换器AD9248和FPGA实现高速数据采集的方法。  关键词:高速数据采集 外绝缘污秽 紫外检测 AD9248 FPGA  中图分类号:TP211 文献标识码:A 文章编号:1007-3973(2013)012-118-03  1 引言  电力设备的外
期刊
摘 要:以台州发电厂SCR烟气脱硝改造工程为例,从设备投资、运行费用、安全性等方面出发,对脱硝还原剂的选择进行全面分析。结果表明,尿素方案的投资费用、运行费用分别是液氨方案的3倍和1.5倍,但是该工程的液氨储量已经构成重大危险源,运输路线上也存在一定安全隐患,而尿素法不存在安全问题。因此,该工程采用尿素作为脱硝还原剂。  关键词:选择性催化还原(SCR) 脱硝 液氨 尿素  中图分类号:TK227
期刊
摘 要:基层雷达站夜间电压变化大,电能质量差,雷达电机易损坏。采用可变电抗式软起动器进行电机起动和运行,可有效地降低电动机的起动电流以保护设备。建立以可变电抗器为基础的软起动器数学模型,分析晶闸管导通角与电机电流之间的关系。选择合适的导通角,可以调整成合适的电抗器电感值,从而达到保护电动机的目的。  关键词:基层雷达站 电机稳压装置 可变电抗器 软起动器  中图分类号:TM47 文献标识码:A 文
期刊
摘 要:变电运行是电网安全工作的最前线,对电网安全稳定运行具有重要意义。结合工作实践,浅谈国家发展智能电网的背景下,提升变电运行管理工作水平的重要性,分析变电运行设备维护技术,探讨相关的管理水平提升措施。  关键词:电力系统 变电运行 设备维护 技术  中图分类号:TM63 文献标识码:A 文章编号:1007-3973(2013)012-175-02  近年来,随着我国电网规模的不断扩大,对电网运
期刊
摘 要:随着电网规模的发展,电网调度管理越来越离不开调度自动化系统。调度自动化系统是电网调度重要的技术支持手段,正确的自动化信息,是电网指挥决策的关键。高级应用软件,自动无功电压控制、负荷预测、AGC等应用软件的正常运转均离不开自动化基础数据;错误的数据,导致负荷预测正确性下降、AVC乱动作。变电站规模扩大,自动化信息总量越来越多,基础信息正确性成为需要克服的难题。必须采取规范化管理,控制数据处理
期刊
摘 要:火电厂直流循环水系统发生水锤时,易产生断流弥合水锤。探讨在事故停泵水锤过程中空气阀的作用机理,建立边界条件数学模型,并对停泵水锤进行计算和分析。结果表明,对于火电厂直流系统,空气阀可有效地控制水柱分离和断流弥合水锤。  关键词:空气阀 停泵 水锤  中图分类号:TM621 文献标识码:A 文章编号:1007-3973(2013)012-151-02  1 引言  目前国外滨海电厂多采用直流
期刊
摘 要:分析当前电力企业信息化规划与建设过程中对信息安全领域的保障要求,针对智能电网的属性及其特征,将可信计算与云计算技术引入智能电网的信息安全规划当中,给出一种基于可信平台的智能电网信息防护的云体系。该体系可以解决智能电网中因多用户、多智能设备的接入而引发的数据安全问题,并从CA体系建设、桌面安全部署、安全管理体系、等级防护方案等方面阐述了该体系的内涵。旨在建立一种智能电网信息安全的保障体系模型
期刊