数据挖掘技术在统计学上的应用

来源 :硅谷 | 被引量 : 0次 | 上传用户：hardstar

【摘要】

：

【作者】

：

雷　鹏

【出处】

：

硅谷

【发表日期】

：

2008年4期

【关键词】

：

数据挖掘技术统计学知识信息技术发展数据库兴趣提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　中图分类号：TP3文献标识码：A 文章编号：1671－7597（2008）0220050－01
　　所谓的数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识，这些知识隐含的、事先未知的、潜在有用的信息，是统计学在信息技术发展到一定阶段的必然产物。
　　从技术角度看，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程；从商业角度看，数据挖掘是一种深层次的商业信息分析技术：即基于企业既定业务目标，对大量的企业数据进行探索和分析，揭示其内在的规律性并进一步将其模型化，从而自动地提取出用以辅助商业决策的相关商业模式。
　　
　　一、数据挖掘的功能和常用技术
　　
　　数据挖掘的功能用于指定数据挖掘任务中要找的模式类型，一般可以分为两类：描述型数据挖掘和预测型数据挖掘。描述型主要用来刻画数据集合的一般特性；预测型主要是根据当前数据进行分析推算，从而达到预测的目的。具体来讲，数据挖掘的功能主要包括以下几个方面：概念描述、关联分析、分类、聚类、演变分析、偏差检测和复杂类型的数据挖掘等。
　　数据挖掘根据采用的技术分类，最常用的技术方法有：统计分析方法、粗集方法、决策树方法、神经网络方法、模糊逻辑、规则归纳、聚类分析和模式识别、最近邻技术、可视化技术等。
　　
　　二、数据挖掘的一般过程
　　
　　目前，几乎每个数据挖掘软件提供商都提出了与自己的数据挖掘过程模型，但它们因都与各自的产品相关联而不具有通用性。尽管还没有一个通用的数据挖掘过程模型来指导人们如何实施数据挖掘过程，但是概括地来看，数据挖掘过程一般由四个主要阶段组成：确定业务对象、数据准备、挖掘实施、结果表达和解释。这几个阶段在具体实施中可能需要多次反复、重复、循环。下图给出了数据挖掘的过程，图中百分数表示各阶段工作量的大致比例。
　　
　　（一）确定业务目标
　　明确数据挖掘的业务目标是数据挖掘的第一步。尽管数据挖掘的最后结果大部分是不可预测的，但是其所要探索的问题是有预见性的、有目标的，盲目地开展数据挖掘往往是不会成功的。挖掘对象的确定要充分了解相关领域的有关情况，熟悉背景知识，弄清用户要求。
　　
　　（二）数据准备
　　数据准备是数据挖掘过程中非常重要的一个阶段，数据准备的好坏将影响到数据挖掘的效率和准确度以及最终挖掘模式的有效性。这个阶段又可细分为数据集成、数据选择、数据预处理和数据转换4个步骤。
　　数据集成是将多个数据源中的数据进行合并、解决语义模糊性、处理数据中的遗漏和清洗脏数据等；数据选择就是根据用户要求利用一些数据库操作对数据进行处理，从数据库中提取出需要挖掘的数据集合；数据预处理就是对上述数据进行再加工，检查数据的完整性和一致性，对其中的噪声数据进行处理，对丢失的数据利用统计方法进行填补，为进一步的分析做准备，并确定将要进行的挖掘操作的类型，然后根据数据挖掘的目标，通过投影等降维处理技术减少待处理的数据量；数据转换就是根据挖掘的需要进行离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等操作。
　　由于数据挖掘对数据的严格要求，使得数据准备阶段成为整个数据挖掘过程中工作量最大的阶段，几乎占到全部工作量的50%－90%。但是如果数据挖掘是基于数据仓库的，那么数据准备阶段的工作量将会大大缩减，因为数据仓库中的数据已经经过了清理、转换和集成等过程。
　　

　　
　　（三）挖掘实施
　　挖掘实施阶段进行实际的挖掘操作，主要完成的任务包括建立训练数据和测试数据，选择合适的算法和工具作用于准备好的训练数据，选取相应参数，生成一个相对最优模型，并对此模型用业务语言加以解释。模型的建立是一个反复的过程，需要利用测试数据仔细评估不同的模型以判断哪个模型对于要挖掘的业务问题最有用，而且在寻找最优模型的过程中可能会由于受到新的启发而需要重新选择或修改原有的数据，甚至改变最初对业务问题的定义。
　　
　　（四）结果表达和解释
　　结果表达和解释阶段的主要任务是数据挖掘模型投入使用后，根据最终用户的决策目的对提取的知识进行分析，把最有价值的信息区分出来并提交给用户。在这个过程中不仅要把知识以能被人理解的方式表达出来，还要对其进行有效性评价，如果不能满足用户要求，则应重复上述数据挖掘过程。
　　
　　三、数据挖掘技术在统计学上的应用
　　
　　随着计算机的应用越来越广泛，数据挖掘技术在统计学上的应用越来越被更多的学者和技术人员所重视。
　　首先，统计学和数据挖掘有着共同的目标：发现数据中的结构。由于数据库的内涵越来越大，复杂数据集的分析对计算机越来越依赖，一方面导致了统计学对数据挖掘技术产生了很大的影响力，另一方面也要求统计学家们改变他们的一些思路及操作原则。
　　其次，统计学和数据挖掘有着共同的技术手段：量化的模型。现代统计学一模型为主，而计算等是次要的；而数据挖掘技术测试长于计算、演绎和推理，从而对未来有良好的预测。
　　最后，数据挖掘最成熟的方法是统计分析方法，包括相关分析、回归分析、单变量分析、多变量分析、因子分析、聚类分析和判别分析等。利用这些方法可以检测那些异常形式的数据，除此以外，还运用决策树方法、人工神经网络方法、遗传算法、模糊技术、粗（Rough）集方法、可视化技术等边缘学科和技术，利用各种统计模型和数学模型解释这些数据，从而理解隐藏在这些数据背后的市场规律和商业机会。
　　
　　参考文献：
　　[1]Olivia Parr Rud，数据挖掘实践，第1版，朱扬勇等译，北京：机械工业出版社，2003.
　　[2]Mehmed Kantardzic，数据挖掘：概念、模型、方法和算法，第1版，闪四清等译.北京：清华大学出版社.2003.
　　[3]张春华、王阳，数据挖掘技术、应用及发展趋势，现代情报，2003（4）：47-50.
　　[4]周宇等，面向E-CRM的数据挖掘技术应用,控制工程.2003(5):212-215.

其他文献

析防守篮板球的抢位挡人技术

[摘要]篮板球争夺是球队获得控制球权的重要来源之一，是篮球比赛攻、守转化的关键。抢位挡人技术是争夺篮板球的首要因素。抢好防守篮板球是掌握球权、挫敌锐气，将队手进攻有效压制在最低限度的重要手段，是强大防守的最后，也是最关键的一道防线。　　[关键词]防守篮板球抢位挡人　　中图分类号：G84文献标识码：A 文章编号：1671－7597 (2008) 0220105－02　　本文主要是通过从争夺防守篮

期刊

防守篮板球抢位挡人

建立师德建设长效机制的对策建议

[摘要]“百年大计教育为本，教育大计教师为本”。是教育教学的重要实践者。师德建设状况则决定了教师队伍质量的高低，教师的思想政治素质和职业道德水平直接关系到大学生的健康成长。当前条件下，需要进一步加强和改进师德建设，需要建立师德长效机制，才能够保证我国高等教育的迅速发展，才能够顺利贯彻党的教育方针，才能为党和国家培养新时期的一流人才。　　[关键词]师德建设长效机制　　中图分类号：G41文献标识码：

期刊

师德建设长效机制

基于欧美人种人体模型比吸收分数比较

期刊

GaN肖特基核辐射探测器对X射线的响应时间特性研究

期刊

电流型银激活探测器标定技术

期刊

南京外语学校欢送波西凯回国

6月20日下午,南京外国语学校千余名师生隆重举行大会,欢送比利时籍教师克里斯蒂·波西凯回国。波西凯是1986年应邀来南京任教的。八年来,她以陶为师,教学严谨,为人师表,受到

期刊

外国语学校克里斯蒂

Bubble智能音箱

這是一款以软性硅胶为主体材料的便携智能音箱。Bubble智能音箱以“方”“圆”为主要表现形态；在不凡的音质基础上，不仅手感柔软而且坚实耐用，同时具有防水功能，支持更多的使用场景，用户能够以任意方式使用，抛砸浸泡，Bubble都能应付自如。　　Bubble智能音箱拥有超长的续航能力和良好音质效果，可以快速连接bluetooth、wifi、nfc等进行音乐播放，相比同类型的便携智能音箱，此款音箱有着独

期刊

智能音箱Bubble

浅析“下”的英译

[摘要]“下”不仅有多重词性，而且所表达的感情色彩也极为丰富，在一些方言和旧语里面，关于“下”的词语更有其独特的含义。通过对下语的词性、意义及运用的分析，浅谈它在英译过程中的表达方式。　　[关键词]“下” “词性” “意义” “英译”　　中图分类号：H159文献标识码：A 文章编号：1671－7597 (2008) 0220109－02　　“下”语的多重词性决定了它在文学作品以及日常生活表达中的重

期刊

下词性意义英译

分化型甲状腺癌患者的131I有效半衰期

期刊

质子放疗过程中射束与人眼体作用的蒙特卡罗模拟计算

期刊

数据挖掘技术在统计学上的应用

其他学术论文