论文部分内容阅读
【摘 要】时代的潮流推动着科学前进的脚步,伴随着知识经济时代的不断推进,商业竞争也日趋激烈。如何有效地管理企业在经营运作过程中所产生和收集的大量可利用数据与信息,成为信息管理人员所面临的一个重要问题。
【关键词】数据仓库;数据;信息
中图分类号:G250.74 文献标识码:A 文章编号:1009-8283(2009)09-0140-01
数据库作为企业信息的存储枢纽,不仅为企业的日常业务提供各种各样的数据服务,而且也是企业经营决策的基础。数据库管理系统在实现这两种功能上存在巨大的差别,因此衍生出以事务型处理(OLTP)为主、以决策支持(DSS)及联机分析处理(OLAP)为主的两种不同数据库系统。20世纪70年代开始出现的关系数据库(传统数据库)在联机事务处理中获得了较大的成功,但无法承担将日常业务处理中所收集到的各种数据转变为具有商业价值信息。其原因是传统数据库的处理方式和DSS(Decision Support Systems)中数据需求不相称,主要体现在:
(1)系统响应问题:在传统数据库中,用户对数据的操作时间短暂,能保证较高的系统响应时间,但决策分析问题的解决则需要遍历数据库中大部分的数据,消耗大量的系统资源,这是OLTP系统无法承担的。
(2)数据需求问题:DSS需要全面、正确的集成数据,这包括内部各部门的有关数据和企业外部的、甚至竞争对手的相关数据,但是在传统数据库中只存储了本部门的事务处理数据,没有与决策问题有关的集成数据,若每次用户决策分析都需要进行一次数据的集成,将极大地降低系统运行的效率。
(3)数据操作问题:传统数据库中的用户只能使用系统所提供的有限参数进行数据操作,访问受到很大的限制。而决策分析人员希望以专业用户的身份,用各种工具对数据进行多种形式的操作,结果以商业智能(BI)的方式表达出来。
因此,决策分析需要一个能够不受传统事务处理约束,高效率处理决策分析数据的支持环境,数据仓库正是满足这一要求的数据存储和数据组织技术。数据仓库不是数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式。利用完整的信息及时做出正确的决策,这就是数据仓库所要完成的根本任务。
1 数据仓库的概念
数据仓库这项技术发源于20世纪80年代初W.H.Inmon的研究。 数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相對稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程而不是一个项目。
2 数据仓库的特点
根据数据仓库概念的含义,数据仓库拥有以下4个特点。
2.1 面向主题
操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2.2 集成的
数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
2.3 相对稳定的
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
2.4 反映历史变化
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3 数据仓库的类型
数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(Enterprise Data Warehouse EDW)、操作数据存储(Operational Data Store ODS)和数据市集(DataMart DM)。
企业数据仓库(EDW)。为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。
4 数据仓库的实现方法
数据仓库作为一种解决问题的方案,它不是一个可以买到的现成产品,不同企业会有不同的数据仓库实现方案,因此数据仓库并没有严格的数学理论基础,它的实现是一个不断往复前进的工程.从总体上看,实现数据仓库的基本步骤大致如下。
(1)启动数据仓库工程,制定建立数据仓库工程的目标及工程计划.计划包括数据范围、提供者、技术设备、资源及详细工程调度等。
(2)建立技术环境。选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信等。
(3)确定主题进行数据建模。根据决策需求确定主题,选择数据源,对数据仓库的数据组织进行逻辑结构的设计。
(4)设计数据仓库中的数据库,即设计多维数据结构的事实表和维表。
(5)数据转换过程。实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。
(6)定义元数据,即定义数据的意义及系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结构及数据时限等。
参考文献:
[1] Kalen Delaney(著),聂伟,方磊,揭磊骏(译).Microsoft SQL Server 2005技术内幕:存储引擎[M].电子工业出版社,2007.
[2] 王媛媛,钟永恒.基于SQL Server 2005 data的Web日志挖掘系统构建[J].现代图书情报技术,2006(5):58-61.
[3] 张宁,贾自艳.数据仓库中ETL技术的研究[M].计算机工程与应用,2002,38(24):213-216.
【关键词】数据仓库;数据;信息
中图分类号:G250.74 文献标识码:A 文章编号:1009-8283(2009)09-0140-01
数据库作为企业信息的存储枢纽,不仅为企业的日常业务提供各种各样的数据服务,而且也是企业经营决策的基础。数据库管理系统在实现这两种功能上存在巨大的差别,因此衍生出以事务型处理(OLTP)为主、以决策支持(DSS)及联机分析处理(OLAP)为主的两种不同数据库系统。20世纪70年代开始出现的关系数据库(传统数据库)在联机事务处理中获得了较大的成功,但无法承担将日常业务处理中所收集到的各种数据转变为具有商业价值信息。其原因是传统数据库的处理方式和DSS(Decision Support Systems)中数据需求不相称,主要体现在:
(1)系统响应问题:在传统数据库中,用户对数据的操作时间短暂,能保证较高的系统响应时间,但决策分析问题的解决则需要遍历数据库中大部分的数据,消耗大量的系统资源,这是OLTP系统无法承担的。
(2)数据需求问题:DSS需要全面、正确的集成数据,这包括内部各部门的有关数据和企业外部的、甚至竞争对手的相关数据,但是在传统数据库中只存储了本部门的事务处理数据,没有与决策问题有关的集成数据,若每次用户决策分析都需要进行一次数据的集成,将极大地降低系统运行的效率。
(3)数据操作问题:传统数据库中的用户只能使用系统所提供的有限参数进行数据操作,访问受到很大的限制。而决策分析人员希望以专业用户的身份,用各种工具对数据进行多种形式的操作,结果以商业智能(BI)的方式表达出来。
因此,决策分析需要一个能够不受传统事务处理约束,高效率处理决策分析数据的支持环境,数据仓库正是满足这一要求的数据存储和数据组织技术。数据仓库不是数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式。利用完整的信息及时做出正确的决策,这就是数据仓库所要完成的根本任务。
1 数据仓库的概念
数据仓库这项技术发源于20世纪80年代初W.H.Inmon的研究。 数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相對稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程而不是一个项目。
2 数据仓库的特点
根据数据仓库概念的含义,数据仓库拥有以下4个特点。
2.1 面向主题
操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2.2 集成的
数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
2.3 相对稳定的
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
2.4 反映历史变化
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3 数据仓库的类型
数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(Enterprise Data Warehouse EDW)、操作数据存储(Operational Data Store ODS)和数据市集(DataMart DM)。
企业数据仓库(EDW)。为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。
4 数据仓库的实现方法
数据仓库作为一种解决问题的方案,它不是一个可以买到的现成产品,不同企业会有不同的数据仓库实现方案,因此数据仓库并没有严格的数学理论基础,它的实现是一个不断往复前进的工程.从总体上看,实现数据仓库的基本步骤大致如下。
(1)启动数据仓库工程,制定建立数据仓库工程的目标及工程计划.计划包括数据范围、提供者、技术设备、资源及详细工程调度等。
(2)建立技术环境。选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信等。
(3)确定主题进行数据建模。根据决策需求确定主题,选择数据源,对数据仓库的数据组织进行逻辑结构的设计。
(4)设计数据仓库中的数据库,即设计多维数据结构的事实表和维表。
(5)数据转换过程。实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。
(6)定义元数据,即定义数据的意义及系统各组成部件之间的关系。元数据包括关键字、属性、数据描述、物理数据结构及数据时限等。
参考文献:
[1] Kalen Delaney(著),聂伟,方磊,揭磊骏(译).Microsoft SQL Server 2005技术内幕:存储引擎[M].电子工业出版社,2007.
[2] 王媛媛,钟永恒.基于SQL Server 2005 data的Web日志挖掘系统构建[J].现代图书情报技术,2006(5):58-61.
[3] 张宁,贾自艳.数据仓库中ETL技术的研究[M].计算机工程与应用,2002,38(24):213-216.