论文部分内容阅读
中图分类号:TP3文献标识码:A 文章编号:1671-7597(2008)0220050-01
所谓的数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识隐含的、事先未知的、潜在有用的信息,是统计学在信息技术发展到一定阶段的必然产物。
从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程;从商业角度看,数据挖掘是一种深层次的商业信息分析技术:即基于企业既定业务目标,对大量的企业数据进行探索和分析,揭示其内在的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。
一、数据挖掘的功能和常用技术
数据挖掘的功能用于指定数据挖掘任务中要找的模式类型,一般可以分为两类:描述型数据挖掘和预测型数据挖掘。描述型主要用来刻画数据集合的一般特性;预测型主要是根据当前数据进行分析推算,从而达到预测的目的。具体来讲,数据挖掘的功能主要包括以下几个方面:概念描述、关联分析、分类、聚类、演变分析、偏差检测和复杂类型的数据挖掘等。
数据挖掘根据采用的技术分类,最常用的技术方法有:统计分析方法、粗集方法、决策树方法、神经网络方法、模糊逻辑、规则归纳、聚类分析和模式识别、最近邻技术、可视化技术等。
二、数据挖掘的一般过程
目前,几乎每个数据挖掘软件提供商都提出了与自己的数据挖掘过程模型,但它们因都与各自的产品相关联而不具有通用性。尽管还没有一个通用的数据挖掘过程模型来指导人们如何实施数据挖掘过程,但是概括地来看,数据挖掘过程一般由四个主要阶段组成:确定业务对象、数据准备、挖掘实施、结果表达和解释。这几个阶段在具体实施中可能需要多次反复、重复、循环。下图给出了数据挖掘的过程,图中百分数表示各阶段工作量的大致比例。
(一)确定业务目标
明确数据挖掘的业务目标是数据挖掘的第一步。尽管数据挖掘的最后结果大部分是不可预测的,但是其所要探索的问题是有预见性的、有目标的,盲目地开展数据挖掘往往是不会成功的。挖掘对象的确定要充分了解相关领域的有关情况,熟悉背景知识,弄清用户要求。
(二)数据准备
数据准备是数据挖掘过程中非常重要的一个阶段,数据准备的好坏将影响到数据挖掘的效率和准确度以及最终挖掘模式的有效性。这个阶段又可细分为数据集成、数据选择、数据预处理和数据转换4个步骤。
数据集成是将多个数据源中的数据进行合并、解决语义模糊性、处理数据中的遗漏和清洗脏数据等;数据选择就是根据用户要求利用一些数据库操作对数据进行处理,从数据库中提取出需要挖掘的数据集合;数据预处理就是对上述数据进行再加工,检查数据的完整性和一致性,对其中的噪声数据进行处理,对丢失的数据利用统计方法进行填补,为进一步的分析做准备,并确定将要进行的挖掘操作的类型,然后根据数据挖掘的目标,通过投影等降维处理技术减少待处理的数据量;数据转换就是根据挖掘的需要进行离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等操作。
由于数据挖掘对数据的严格要求,使得数据准备阶段成为整个数据挖掘过程中工作量最大的阶段,几乎占到全部工作量的50%-90%。但是如果数据挖掘是基于数据仓库的,那么数据准备阶段的工作量将会大大缩减,因为数据仓库中的数据已经经过了清理、转换和集成等过程。

(三)挖掘实施
挖掘实施阶段进行实际的挖掘操作,主要完成的任务包括建立训练数据和测试数据,选择合适的算法和工具作用于准备好的训练数据,选取相应参数,生成一个相对最优模型,并对此模型用业务语言加以解释。模型的建立是一个反复的过程,需要利用测试数据仔细评估不同的模型以判断哪个模型对于要挖掘的业务问题最有用,而且在寻找最优模型的过程中可能会由于受到新的启发而需要重新选择或修改原有的数据,甚至改变最初对业务问题的定义。
(四)结果表达和解释
结果表达和解释阶段的主要任务是数据挖掘模型投入使用后,根据最终用户的决策目的对提取的知识进行分析,把最有价值的信息区分出来并提交给用户。在这个过程中不仅要把知识以能被人理解的方式表达出来,还要对其进行有效性评价,如果不能满足用户要求,则应重复上述数据挖掘过程。
三、数据挖掘技术在统计学上的应用
随着计算机的应用越来越广泛,数据挖掘技术在统计学上的应用越来越被更多的学者和技术人员所重视。
首先,统计学和数据挖掘有着共同的目标:发现数据中的结构。由于数据库的内涵越来越大,复杂数据集的分析对计算机越来越依赖,一方面导致了统计学对数据挖掘技术产生了很大的影响力,另一方面也要求统计学家们改变他们的一些思路及操作原则。
其次,统计学和数据挖掘有着共同的技术手段:量化的模型。现代统计学一模型为主,而计算等是次要的;而数据挖掘技术测试长于计算、演绎和推理,从而对未来有良好的预测。
最后,数据挖掘最成熟的方法是统计分析方法,包括相关分析、回归分析、单变量分析、多变量分析、因子分析、聚类分析和判别分析等。利用这些方法可以检测那些异常形式的数据,除此以外,还运用决策树方法、人工神经网络方法、遗传算法、模糊技术、粗(Rough)集方法、可视化技术等边缘学科和技术,利用各种统计模型和数学模型解释这些数据,从而理解隐藏在这些数据背后的市场规律和商业机会。
参考文献:
[1]Olivia Parr Rud,数据挖掘实践,第1版,朱扬勇等译,北京:机械工业出版社,2003.
[2]Mehmed Kantardzic,数据挖掘:概念、模型、方法和算法,第1版,闪四清等译.北京:清华大学出版社.2003.
[3]张春华、王阳,数据挖掘技术、应用及发展趋势,现代情报,2003(4):47-50.
[4]周宇等,面向E-CRM的数据挖掘技术应用,控制工程.2003(5):212-215.
所谓的数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识隐含的、事先未知的、潜在有用的信息,是统计学在信息技术发展到一定阶段的必然产物。
从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程;从商业角度看,数据挖掘是一种深层次的商业信息分析技术:即基于企业既定业务目标,对大量的企业数据进行探索和分析,揭示其内在的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。
一、数据挖掘的功能和常用技术
数据挖掘的功能用于指定数据挖掘任务中要找的模式类型,一般可以分为两类:描述型数据挖掘和预测型数据挖掘。描述型主要用来刻画数据集合的一般特性;预测型主要是根据当前数据进行分析推算,从而达到预测的目的。具体来讲,数据挖掘的功能主要包括以下几个方面:概念描述、关联分析、分类、聚类、演变分析、偏差检测和复杂类型的数据挖掘等。
数据挖掘根据采用的技术分类,最常用的技术方法有:统计分析方法、粗集方法、决策树方法、神经网络方法、模糊逻辑、规则归纳、聚类分析和模式识别、最近邻技术、可视化技术等。
二、数据挖掘的一般过程
目前,几乎每个数据挖掘软件提供商都提出了与自己的数据挖掘过程模型,但它们因都与各自的产品相关联而不具有通用性。尽管还没有一个通用的数据挖掘过程模型来指导人们如何实施数据挖掘过程,但是概括地来看,数据挖掘过程一般由四个主要阶段组成:确定业务对象、数据准备、挖掘实施、结果表达和解释。这几个阶段在具体实施中可能需要多次反复、重复、循环。下图给出了数据挖掘的过程,图中百分数表示各阶段工作量的大致比例。
(一)确定业务目标
明确数据挖掘的业务目标是数据挖掘的第一步。尽管数据挖掘的最后结果大部分是不可预测的,但是其所要探索的问题是有预见性的、有目标的,盲目地开展数据挖掘往往是不会成功的。挖掘对象的确定要充分了解相关领域的有关情况,熟悉背景知识,弄清用户要求。
(二)数据准备
数据准备是数据挖掘过程中非常重要的一个阶段,数据准备的好坏将影响到数据挖掘的效率和准确度以及最终挖掘模式的有效性。这个阶段又可细分为数据集成、数据选择、数据预处理和数据转换4个步骤。
数据集成是将多个数据源中的数据进行合并、解决语义模糊性、处理数据中的遗漏和清洗脏数据等;数据选择就是根据用户要求利用一些数据库操作对数据进行处理,从数据库中提取出需要挖掘的数据集合;数据预处理就是对上述数据进行再加工,检查数据的完整性和一致性,对其中的噪声数据进行处理,对丢失的数据利用统计方法进行填补,为进一步的分析做准备,并确定将要进行的挖掘操作的类型,然后根据数据挖掘的目标,通过投影等降维处理技术减少待处理的数据量;数据转换就是根据挖掘的需要进行离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等操作。
由于数据挖掘对数据的严格要求,使得数据准备阶段成为整个数据挖掘过程中工作量最大的阶段,几乎占到全部工作量的50%-90%。但是如果数据挖掘是基于数据仓库的,那么数据准备阶段的工作量将会大大缩减,因为数据仓库中的数据已经经过了清理、转换和集成等过程。

(三)挖掘实施
挖掘实施阶段进行实际的挖掘操作,主要完成的任务包括建立训练数据和测试数据,选择合适的算法和工具作用于准备好的训练数据,选取相应参数,生成一个相对最优模型,并对此模型用业务语言加以解释。模型的建立是一个反复的过程,需要利用测试数据仔细评估不同的模型以判断哪个模型对于要挖掘的业务问题最有用,而且在寻找最优模型的过程中可能会由于受到新的启发而需要重新选择或修改原有的数据,甚至改变最初对业务问题的定义。
(四)结果表达和解释
结果表达和解释阶段的主要任务是数据挖掘模型投入使用后,根据最终用户的决策目的对提取的知识进行分析,把最有价值的信息区分出来并提交给用户。在这个过程中不仅要把知识以能被人理解的方式表达出来,还要对其进行有效性评价,如果不能满足用户要求,则应重复上述数据挖掘过程。
三、数据挖掘技术在统计学上的应用
随着计算机的应用越来越广泛,数据挖掘技术在统计学上的应用越来越被更多的学者和技术人员所重视。
首先,统计学和数据挖掘有着共同的目标:发现数据中的结构。由于数据库的内涵越来越大,复杂数据集的分析对计算机越来越依赖,一方面导致了统计学对数据挖掘技术产生了很大的影响力,另一方面也要求统计学家们改变他们的一些思路及操作原则。
其次,统计学和数据挖掘有着共同的技术手段:量化的模型。现代统计学一模型为主,而计算等是次要的;而数据挖掘技术测试长于计算、演绎和推理,从而对未来有良好的预测。
最后,数据挖掘最成熟的方法是统计分析方法,包括相关分析、回归分析、单变量分析、多变量分析、因子分析、聚类分析和判别分析等。利用这些方法可以检测那些异常形式的数据,除此以外,还运用决策树方法、人工神经网络方法、遗传算法、模糊技术、粗(Rough)集方法、可视化技术等边缘学科和技术,利用各种统计模型和数学模型解释这些数据,从而理解隐藏在这些数据背后的市场规律和商业机会。
参考文献:
[1]Olivia Parr Rud,数据挖掘实践,第1版,朱扬勇等译,北京:机械工业出版社,2003.
[2]Mehmed Kantardzic,数据挖掘:概念、模型、方法和算法,第1版,闪四清等译.北京:清华大学出版社.2003.
[3]张春华、王阳,数据挖掘技术、应用及发展趋势,现代情报,2003(4):47-50.
[4]周宇等,面向E-CRM的数据挖掘技术应用,控制工程.2003(5):212-215.