论文部分内容阅读
【摘要】本文介绍数据仓库技术在电力负荷管理方面的应用。实例以电力负荷管理为主题说明数据仓库开发的过程,包括选定供电局电力负荷管理系统为数据源,设计数据仓库物理结构;建立多维数据模型,使用ETL工具将负荷数据抽取到省级数据中心数据仓库中;使用SQL Server 2005分析服务工具进行多维分析与查询;最后生成分析报表并展现结果的过程。同时介绍了实例开发中遇到的数据存储查询、多维分析服务器性能问题的解决办法。
【关键字】数据仓库;数据中心;OLAP
1、引言
近年来,供电局建立了电力负荷管理信息系统,实现了远方自动抄表,同时实现对用电客户的实时负荷数据的采集与监测。目前,系统中存储了大量的、细粒度的历史数据,可被利用分析,进行数据挖掘,使供电局管理者更好的掌握电力负荷趋势。数据仓库技术满足这方面的应用需求,利用数据仓库技术,向下整合各供电局电力负荷管理系统的数据,对历史数据进行数据挖掘,为供电局管理者提供有效的决策支持。本文先介绍了数据仓库体系,再以实例电力负荷管理为主题说明数据仓库开发有关过程,并介绍实例开发中遇到的数据存储查询、多维分析服务器性能问题的解决办法。
2、数据仓库体系简介
三层结构是一种典型的数据仓库结构,由数据管理和存储、OLAP服务器以及前端工具组成。图1是省级电网公司数据中心数据仓库的典型应用。数据管理和存储主要采用集中型的企业级数据仓库,将各个信息系统的数据有效存储在一起;通过OLAP服务器对数据按多维模型分析;最后通过前端工具进行展现。
3、数据仓库开发过程
以电力负荷管理对象模型为实例简单说明开发数据仓库的5个步骤过程。
3.1确定主题
选择以电力负荷管理为主题,实现不同供电局、不同行业在不同时间点的负荷数据分析。首先根据这个主题,选择与主题相关的数据源,包括信息系统和数据库表。确认了主要数据来源为电力营销系统的数据库和电力负荷管理系统的数据库,并且数据库表为供电局信息表、行业信息表和负荷与时间关联表,选定后确认数据库表间关联关系。
3.2设计数据仓库中的数据库
设计多维数据结构的事实表和维度表,设置数据仓库的物理存储结构。根据主题内容设计了星型模型的多维数据关系,由3张维度表(供电局表、行业表、时间表)和一张事实表(负荷表)组成。表关系如图2所示。
3.3ETL
ETL是一个数据抽取、数据清理、数据一致性格式化、数据整合和装载的过程。ETL工具一般具备对不同平台的各种数据库的访问能力,通常通过ODBC、JDBC和OLEDB等访问方式访问目标数据库。以电力负荷管理主题的ELT为例,数据整合遇到的问题是供电局电力负荷管理系统由不同的厂家开发,使用不同数据库并且各系统编码没有进行全省的统一设计,数据编码各有不同表达。为克服这类困难,统一使用OLEDB的方式访问各供电局电力负荷管理系统的数据库,并在省级层面进行对公共信息的建模,重新制定各系统共同遵守的编码规则,统一度量单位,实现了对数据定义、组织及加工的规范化过程。ELT数据抽取的频率是一天一次,基本满足需求应用。由于实际平台使用的是SQL Server 2005数据仓库,所以实例中采用了SQL Server 2005的SSIS服务来处理数据抽取,快速的建立起ETL工程,并将数据装载到目标库中。
3.4数据分析
电力负荷管理主题有三个维度:供电局、行业、时间,可采用数据仓库的数据分析工具实现对多维数据集分析。常用的分析方法有数据切片、切块、钻取、上翻、旋转,可分别从不同的侧面得到电力负荷状态信息。实例中使用的是SQL Server 2005的SSAS分析服务工具,通过编写多维表达式(MDX)语句来查询分析数据模型,检索多维数据。
3.5数据展现
最后将MDX查询的结果通过WEB服务器发布,以图形、图像、报表等方式展现数据传递的信息和数据挖掘结果。实例中为了保证兼容性,采用了SQL Server 2005报表服务,通过配置报表模型、报表数据源和查询语句,提供展现结果。
4、瓶颈和解决方法
4.1数据存储查询瓶颈
数据仓库主要以关系数据库技术为基础,由数据库系统管理海量数据的存储,因此同样面临着一般数据库所遇到的查询瓶颈问题。实例中由于存储数据量大,在源数据的批量输入及更新、接受来自OLAP服务器的只读汇总查询的时候,数据库服务器压力较大。针对这种情况,可对其中一些存储记录过多的大型事实表进行优化,采用动态分区和建立索引等方式提高速度。
4.2OLAP服务器的瓶颈
OLAP服务器的主要任务是接受及分析来自前端工具的查询语句,处理多维运算,并缓存结果对象。实例中,测试过在更多的资源查询请求下,OLAP服务器同样面临的连接量和处理量大的问题,此时可采用多个OLAP服务器,并与负载均衡器的结合方式对外提供服务。
5、结语
数据仓库技术为供电局电力负荷管理分析提供有力的技术支撑,提高了数据的利用率。供电局管理者可以利用数据仓库工具建立有效而准确的集成决策支持系统,提高科学管理和科学决策能力。
【关键字】数据仓库;数据中心;OLAP
1、引言
近年来,供电局建立了电力负荷管理信息系统,实现了远方自动抄表,同时实现对用电客户的实时负荷数据的采集与监测。目前,系统中存储了大量的、细粒度的历史数据,可被利用分析,进行数据挖掘,使供电局管理者更好的掌握电力负荷趋势。数据仓库技术满足这方面的应用需求,利用数据仓库技术,向下整合各供电局电力负荷管理系统的数据,对历史数据进行数据挖掘,为供电局管理者提供有效的决策支持。本文先介绍了数据仓库体系,再以实例电力负荷管理为主题说明数据仓库开发有关过程,并介绍实例开发中遇到的数据存储查询、多维分析服务器性能问题的解决办法。
2、数据仓库体系简介
三层结构是一种典型的数据仓库结构,由数据管理和存储、OLAP服务器以及前端工具组成。图1是省级电网公司数据中心数据仓库的典型应用。数据管理和存储主要采用集中型的企业级数据仓库,将各个信息系统的数据有效存储在一起;通过OLAP服务器对数据按多维模型分析;最后通过前端工具进行展现。
3、数据仓库开发过程
以电力负荷管理对象模型为实例简单说明开发数据仓库的5个步骤过程。
3.1确定主题
选择以电力负荷管理为主题,实现不同供电局、不同行业在不同时间点的负荷数据分析。首先根据这个主题,选择与主题相关的数据源,包括信息系统和数据库表。确认了主要数据来源为电力营销系统的数据库和电力负荷管理系统的数据库,并且数据库表为供电局信息表、行业信息表和负荷与时间关联表,选定后确认数据库表间关联关系。
3.2设计数据仓库中的数据库
设计多维数据结构的事实表和维度表,设置数据仓库的物理存储结构。根据主题内容设计了星型模型的多维数据关系,由3张维度表(供电局表、行业表、时间表)和一张事实表(负荷表)组成。表关系如图2所示。
3.3ETL
ETL是一个数据抽取、数据清理、数据一致性格式化、数据整合和装载的过程。ETL工具一般具备对不同平台的各种数据库的访问能力,通常通过ODBC、JDBC和OLEDB等访问方式访问目标数据库。以电力负荷管理主题的ELT为例,数据整合遇到的问题是供电局电力负荷管理系统由不同的厂家开发,使用不同数据库并且各系统编码没有进行全省的统一设计,数据编码各有不同表达。为克服这类困难,统一使用OLEDB的方式访问各供电局电力负荷管理系统的数据库,并在省级层面进行对公共信息的建模,重新制定各系统共同遵守的编码规则,统一度量单位,实现了对数据定义、组织及加工的规范化过程。ELT数据抽取的频率是一天一次,基本满足需求应用。由于实际平台使用的是SQL Server 2005数据仓库,所以实例中采用了SQL Server 2005的SSIS服务来处理数据抽取,快速的建立起ETL工程,并将数据装载到目标库中。
3.4数据分析
电力负荷管理主题有三个维度:供电局、行业、时间,可采用数据仓库的数据分析工具实现对多维数据集分析。常用的分析方法有数据切片、切块、钻取、上翻、旋转,可分别从不同的侧面得到电力负荷状态信息。实例中使用的是SQL Server 2005的SSAS分析服务工具,通过编写多维表达式(MDX)语句来查询分析数据模型,检索多维数据。
3.5数据展现
最后将MDX查询的结果通过WEB服务器发布,以图形、图像、报表等方式展现数据传递的信息和数据挖掘结果。实例中为了保证兼容性,采用了SQL Server 2005报表服务,通过配置报表模型、报表数据源和查询语句,提供展现结果。
4、瓶颈和解决方法
4.1数据存储查询瓶颈
数据仓库主要以关系数据库技术为基础,由数据库系统管理海量数据的存储,因此同样面临着一般数据库所遇到的查询瓶颈问题。实例中由于存储数据量大,在源数据的批量输入及更新、接受来自OLAP服务器的只读汇总查询的时候,数据库服务器压力较大。针对这种情况,可对其中一些存储记录过多的大型事实表进行优化,采用动态分区和建立索引等方式提高速度。
4.2OLAP服务器的瓶颈
OLAP服务器的主要任务是接受及分析来自前端工具的查询语句,处理多维运算,并缓存结果对象。实例中,测试过在更多的资源查询请求下,OLAP服务器同样面临的连接量和处理量大的问题,此时可采用多个OLAP服务器,并与负载均衡器的结合方式对外提供服务。
5、结语
数据仓库技术为供电局电力负荷管理分析提供有力的技术支撑,提高了数据的利用率。供电局管理者可以利用数据仓库工具建立有效而准确的集成决策支持系统,提高科学管理和科学决策能力。