论文部分内容阅读
[摘要]随着水厂自动化水平的不断提高,PLC系统得到了广泛的应用,水厂建立了涵盖生产全过程的“数据宝库”。为了充分利用这些“数据宝库”中的数据,发现数据中蕴藏的有用知识,提高水厂的运营管理水平,论文提出建立水厂运行数据仓库,并开发基于数据库的数据挖掘系统的设想,给出数据仓库的设计模型。探索的基于水厂运营数据仓库的数据挖掘系统,为水利企业的信息化进程和建立决策支持系统奠定了一定的基础。
[关键词]数据挖掘 数据仓库 决策支持 水厂
中图分类号:S9 文献标识码:B 文章编号:1671-7597(2008)0620089-01
为了适应水厂生产自动化水平提高的需要,水厂都安装了PLC(Progr
ammable Logic Controller)自动控制系统,它有着完善的信息收集、传输、加工、存储、查询和控制功能,建立了涵盖水厂生产全过程的“数据宝库”。但面对这些“数据宝库”,往往不能深层次地理解并有效的使用这些数据。水厂的运行、管理等决策者企盼从这些海量数据中发现蘊涵的有用知识,来提高运行管理水平。那么,怎样才能在海量数据提取知识呢?
以数据仓库(Data Warehouse)与数据挖掘(Data Mining)为代表的数据库新技术应运而生。与传统的面向管理业务过程的数据库技术不同的是:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,目的在于有效的决策支持。基于数据仓库的数据挖掘,已经成为企业信息管理的新的发展趋势之一。因此,水利企业可以很好地利用收集到的数据信息构建数据仓库,在数据仓库中通过数据挖掘来发现蕴涵在水厂生产数据库中的深层次知识,比如水泵性能状态渐变和寿命隐性损耗的规律等,这些有用的知识能够为水厂生产和发展做出即时、正确的判断,为管理者制定决策提供有力的依据,因此,基于水厂数据仓库的数据挖掘系统的建设势在必行[1]。
一、数据仓库的主题设计
数据仓库的主要特点之一是面向主题。在水资源日益短缺、煤电等运营成本日益增加的大环境下,主题的选择应服从于水利企业运营管理的总目标,具有全局性、综合性,不能局限于某一职能管理部门。结合目前水厂信息管理现状,本文提出以下主题设计。
(一)电量/负荷数据仓库
水厂作为水利企业,其基本职能是向国民经济提供质量合格的水利资源,故其数据仓库建设的首选主题应是耗电量及供水量。耗电量/供水量数据仓库应准确记录最小时间间隔内每台机组的耗电量、供水量,以及所带负荷等相关数据,其最小时间间隔视具体条件应精确到0.25h或0.5h。这样就可以随时调出任何一天的供水量或耗电量进行分析,并可统计出每时、每日、每月、每年的耗电量、供水量,绘制相应的负荷曲线,为各项管理提供最基础的支持。
(二)设备状态数据仓库
水厂是资金密集、设备密集型企业,水厂生产的安全稳定是建立在水厂设备正常运转的基础上的,因此对设备状态的监控始终是水厂生产管理的重要环节之一。为了能对设备运行状况做出综合评价,将主要的设备的基础数据、缺陷数据、检修数据、可靠性统计数据以及设备的实时运行参数加以集成,按时间标志记入数据仓库,并可以进一步数据挖掘来分析设备状态。
除此之外,根据各厂需要还可考虑建立水泵经济性能分析库、供水成本数据仓库、人力资源管理库、流动资金占用分析库等主题数据仓库。有了这些面向决策主题的数据仓库的支持,才能对数据做深入的挖掘分析,从数据中开采出有用的信息或知识。
二、数据仓库的数据模型设计
考虑到目前水厂数据库系统均采用关系数据库,数据仓库的数据模型设计应采用基于关系数据库的“星形模型”[2]。
(一)耗电量/供水量数据仓库
事实表记录耗电量/供水量的具体数据,包括不同时间和不同机组下的负荷最大、最小、平均值,以及供水量、耗电量等数据,维表分为:时间维(小时、日、月、年)和机组维,其星形模型如图1所示。

图1 耗电量/供水量数据仓库星形模型
(二)设备状态数据仓库
事实表记录经仔细选择的水厂主辅设备的运行数据和状态监测数据,维表分为时间维(小时、日、月等)、设备维(设备编号、所属机组等)、部门维(所属分车间、班组等)、状态分类维(正常、缺陷、故障等),其星形模型如图2所示。

图2 设备状态数据仓库星形模型
三、基于数据仓库的数据挖掘
(一)数据仓库和数据挖掘结合的必然性
数据仓库是面向决策分析的,数据仓库从事务型数据中抽取并集成得到分析型数据后,需要各种决策分析工具对这些数据进行分析和挖掘,以便得到有用的决策信息。而数据挖掘技术恰恰具备从大量的数据中发现有用信息的能力,于是数据挖掘就自然成为数据仓库中进行数据深层次分析的一种必不可少的手段。所以,数据仓库和数据挖掘的结合已成为必然趋势。
(二)基于数据仓库的数据挖掘的体系结构
图3描述了基于数据仓库的数据挖掘的体系结构。在该体系结构中主要的输入是源于数据仓库的数据、分析员的指导,以及知识库中的知识和经验。从数据仓库中取来的数据,经过数据选择后,在知识发现引擎里得到处理,引擎中提供了大量的知识挖掘算法,以便生成初步的信息模式。
然后分析员根据知识库中的相关知识对挖掘出来的信息模式进行评估并用数据可视化技术将评估结果图形化输出以得到决策者可理解的有用知识。

图3 基于数据仓库的数据挖掘系统
下面分别介绍各主要模块的功能。
(1)数据挖掘系统管理器:数据挖掘系统管理器控制并管理知识发现过程。分析员的输入和知识库中的信息,用于驱动以下三个过程:数据选择过程、挖掘算法的选择和使用过程、模式评估过程。
(2)知识库和分析员的输入:知识库源于多方面的必须的信息。分析员可以将元数据输入到数据仓库中,以便描述数据仓库的数据结构。此外,分析员还要在知识库中输入其它相关的数据知识,如数据的关键字段、需求规则等,以便按一种有效的方式指导信息的发现,减少可能丢失的有用模式和关系;分析员还要做出权衡,存储新的发现结果,以提高知识发现的能力。
(3)DB接口(数据仓库的数据库接口):数据挖掘系统利用数据库的查询机制从数据仓库中抽取数据。知识库中的元数据指导数据库接口正确地组织数据结构以及数据结构在数据仓库中的存储方式。
(4)数据选择:确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件选择要抽取的数据及抽取的方式,以及选择算法所需的数据类型,并将数据类型输入到算法中。
(5)知识发现引擎:知识发现引擎将知识库中的挖掘算法提供给数据选择构件抽取的数据,其目的是要挖掘数据元素间的模式和关系。
(6)模式评估:分析员根据某种兴趣度度量识别表示知识的真正有趣的信息模式,用于模式评估的技术有支持度度量、置信度度量等。
四、结论
数据仓库与数据挖掘作为一种新的信息管理技术,为水利企业的信息化进程和决策支持系统的建立创造了契机。本文结合水厂实际提出了数据仓库的主题设计和数据仓库的数据模型设计,以及基于数据仓库的数据挖掘的模型设计,对数据仓库、数据挖掘技术在水利行业中的应用进行了初步探索,对进一步开发适用于供水企业生产决策支持的数据挖掘系统具有指导意义。
参考文献:
[1] 江放、李海刚、高国安. 基于数据仓库的数据采掘及其在决策支持系统中应用。应用技术.2001.1. 第72期. 13~17.
[2] 武森、高学东译,(德)M.巴斯蒂安 著,数据仓库与数据挖掘。北京.冶金工业出版社.2003. 9 . 11~21.
作者简介:
刘刚,男,重庆,工学硕士,工程师,从事工业自动化领域内的研究,开发与设计。
[关键词]数据挖掘 数据仓库 决策支持 水厂
中图分类号:S9 文献标识码:B 文章编号:1671-7597(2008)0620089-01
为了适应水厂生产自动化水平提高的需要,水厂都安装了PLC(Progr
ammable Logic Controller)自动控制系统,它有着完善的信息收集、传输、加工、存储、查询和控制功能,建立了涵盖水厂生产全过程的“数据宝库”。但面对这些“数据宝库”,往往不能深层次地理解并有效的使用这些数据。水厂的运行、管理等决策者企盼从这些海量数据中发现蘊涵的有用知识,来提高运行管理水平。那么,怎样才能在海量数据提取知识呢?
以数据仓库(Data Warehouse)与数据挖掘(Data Mining)为代表的数据库新技术应运而生。与传统的面向管理业务过程的数据库技术不同的是:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,目的在于有效的决策支持。基于数据仓库的数据挖掘,已经成为企业信息管理的新的发展趋势之一。因此,水利企业可以很好地利用收集到的数据信息构建数据仓库,在数据仓库中通过数据挖掘来发现蕴涵在水厂生产数据库中的深层次知识,比如水泵性能状态渐变和寿命隐性损耗的规律等,这些有用的知识能够为水厂生产和发展做出即时、正确的判断,为管理者制定决策提供有力的依据,因此,基于水厂数据仓库的数据挖掘系统的建设势在必行[1]。
一、数据仓库的主题设计
数据仓库的主要特点之一是面向主题。在水资源日益短缺、煤电等运营成本日益增加的大环境下,主题的选择应服从于水利企业运营管理的总目标,具有全局性、综合性,不能局限于某一职能管理部门。结合目前水厂信息管理现状,本文提出以下主题设计。
(一)电量/负荷数据仓库
水厂作为水利企业,其基本职能是向国民经济提供质量合格的水利资源,故其数据仓库建设的首选主题应是耗电量及供水量。耗电量/供水量数据仓库应准确记录最小时间间隔内每台机组的耗电量、供水量,以及所带负荷等相关数据,其最小时间间隔视具体条件应精确到0.25h或0.5h。这样就可以随时调出任何一天的供水量或耗电量进行分析,并可统计出每时、每日、每月、每年的耗电量、供水量,绘制相应的负荷曲线,为各项管理提供最基础的支持。
(二)设备状态数据仓库
水厂是资金密集、设备密集型企业,水厂生产的安全稳定是建立在水厂设备正常运转的基础上的,因此对设备状态的监控始终是水厂生产管理的重要环节之一。为了能对设备运行状况做出综合评价,将主要的设备的基础数据、缺陷数据、检修数据、可靠性统计数据以及设备的实时运行参数加以集成,按时间标志记入数据仓库,并可以进一步数据挖掘来分析设备状态。
除此之外,根据各厂需要还可考虑建立水泵经济性能分析库、供水成本数据仓库、人力资源管理库、流动资金占用分析库等主题数据仓库。有了这些面向决策主题的数据仓库的支持,才能对数据做深入的挖掘分析,从数据中开采出有用的信息或知识。
二、数据仓库的数据模型设计
考虑到目前水厂数据库系统均采用关系数据库,数据仓库的数据模型设计应采用基于关系数据库的“星形模型”[2]。
(一)耗电量/供水量数据仓库
事实表记录耗电量/供水量的具体数据,包括不同时间和不同机组下的负荷最大、最小、平均值,以及供水量、耗电量等数据,维表分为:时间维(小时、日、月、年)和机组维,其星形模型如图1所示。

图1 耗电量/供水量数据仓库星形模型
(二)设备状态数据仓库
事实表记录经仔细选择的水厂主辅设备的运行数据和状态监测数据,维表分为时间维(小时、日、月等)、设备维(设备编号、所属机组等)、部门维(所属分车间、班组等)、状态分类维(正常、缺陷、故障等),其星形模型如图2所示。

图2 设备状态数据仓库星形模型
三、基于数据仓库的数据挖掘
(一)数据仓库和数据挖掘结合的必然性
数据仓库是面向决策分析的,数据仓库从事务型数据中抽取并集成得到分析型数据后,需要各种决策分析工具对这些数据进行分析和挖掘,以便得到有用的决策信息。而数据挖掘技术恰恰具备从大量的数据中发现有用信息的能力,于是数据挖掘就自然成为数据仓库中进行数据深层次分析的一种必不可少的手段。所以,数据仓库和数据挖掘的结合已成为必然趋势。
(二)基于数据仓库的数据挖掘的体系结构
图3描述了基于数据仓库的数据挖掘的体系结构。在该体系结构中主要的输入是源于数据仓库的数据、分析员的指导,以及知识库中的知识和经验。从数据仓库中取来的数据,经过数据选择后,在知识发现引擎里得到处理,引擎中提供了大量的知识挖掘算法,以便生成初步的信息模式。
然后分析员根据知识库中的相关知识对挖掘出来的信息模式进行评估并用数据可视化技术将评估结果图形化输出以得到决策者可理解的有用知识。

图3 基于数据仓库的数据挖掘系统
下面分别介绍各主要模块的功能。
(1)数据挖掘系统管理器:数据挖掘系统管理器控制并管理知识发现过程。分析员的输入和知识库中的信息,用于驱动以下三个过程:数据选择过程、挖掘算法的选择和使用过程、模式评估过程。
(2)知识库和分析员的输入:知识库源于多方面的必须的信息。分析员可以将元数据输入到数据仓库中,以便描述数据仓库的数据结构。此外,分析员还要在知识库中输入其它相关的数据知识,如数据的关键字段、需求规则等,以便按一种有效的方式指导信息的发现,减少可能丢失的有用模式和关系;分析员还要做出权衡,存储新的发现结果,以提高知识发现的能力。
(3)DB接口(数据仓库的数据库接口):数据挖掘系统利用数据库的查询机制从数据仓库中抽取数据。知识库中的元数据指导数据库接口正确地组织数据结构以及数据结构在数据仓库中的存储方式。
(4)数据选择:确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件选择要抽取的数据及抽取的方式,以及选择算法所需的数据类型,并将数据类型输入到算法中。
(5)知识发现引擎:知识发现引擎将知识库中的挖掘算法提供给数据选择构件抽取的数据,其目的是要挖掘数据元素间的模式和关系。
(6)模式评估:分析员根据某种兴趣度度量识别表示知识的真正有趣的信息模式,用于模式评估的技术有支持度度量、置信度度量等。
四、结论
数据仓库与数据挖掘作为一种新的信息管理技术,为水利企业的信息化进程和决策支持系统的建立创造了契机。本文结合水厂实际提出了数据仓库的主题设计和数据仓库的数据模型设计,以及基于数据仓库的数据挖掘的模型设计,对数据仓库、数据挖掘技术在水利行业中的应用进行了初步探索,对进一步开发适用于供水企业生产决策支持的数据挖掘系统具有指导意义。
参考文献:
[1] 江放、李海刚、高国安. 基于数据仓库的数据采掘及其在决策支持系统中应用。应用技术.2001.1. 第72期. 13~17.
[2] 武森、高学东译,(德)M.巴斯蒂安 著,数据仓库与数据挖掘。北京.冶金工业出版社.2003. 9 . 11~21.
作者简介:
刘刚,男,重庆,工学硕士,工程师,从事工业自动化领域内的研究,开发与设计。