数据挖掘技术的应用研究

来源 :商场现代化 | 被引量 : 0次 | 上传用户:jackyray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 本文介绍了数据挖掘的概念、对象、任务,重点探讨了其应用领域的广泛性及效益性。
  [关键词] 数据挖掘 数据仓库 知识发现
  
  随着计算机网络与数据库技术的迅速发展和广泛应用,各单位拥有的数据量与日俱增,而传统的数据库管理系统(DBMS)仅能提供数据的存取和查询,如何从信息海洋中提取有价值的知识,从而为企业的业务决策和战略发展服务,进一步提高信息的利用率,这就引发了一门新兴的自动信息提取技术——数据挖掘和知识发现(Data Mining and Knowledge Discovery in Databases),并逐渐形成了一个热门研究方向。
  基于数据库的知识发现(KDD)一词最早是在1989年8月于美国底特律市召开的第一届KDD国际学术会议上正式形成的。1995年,在加拿大召开了第一届知识发现和数据挖掘国际会议。2002年,麻省理工学院的《科技评论》杂志提出未来5年对人类产生重大影响的10大新兴技术,“数据挖掘”位居第三。
  一、数据挖掘与知识发现
  数据挖掘(Data Mining),又称为数据采掘、数据开采等。数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。其中需要强调的几点是:得到的必须是有用的信息;得到的必须是清晰、明确的信息;要有一个很快的、可行的算法。
  数据挖掘不同的术语和定义:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology。
  一般认为数据采掘是数据库中知识发现(Knowledge Discovery in Database,简称KDD)的一个环节,是采用具体的数据采掘算法从数据中自动高效地提取有用模式的过程,而KDD是包含数据采掘、数据准备等环节的循环往复过程。在KDD研究领域一致认可的描述性定义是Fayyad等人给出的,定义如下:KDD是从数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解的模式的非平凡过程。知识发现由以下步骤组成:⑴数据清理:消除噪声或不一致数据。⑵数据集成:把多种数据源组合在一起。⑶数据选择:从数据库中检索与分析任务相关的数据。⑷数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作。⑸数据挖掘:使用智能方法提取数据模式。⑹模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。⑺知识表示:使用可视化和知识表示技术,向用户提供挖掘知识。
  对这两个术语更严格的区分是在KDD96国际会议上:Fayyad,Piatetsky-Shapiro和Smyth指出:知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程的一个特定、关键步骤。事实上,在现今文献的大多数场合,这两个术语仍然不加区分地使用着。
  同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此DMKD的研究成果很讲求实际。
  二、数据挖掘的对象及任务
  1.数据源
  根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、以及环球网Web.目前,用于数据挖掘的数据源主要是关系数据库、数据仓库、和环球网Web.
  2.主要任务
  (1)数据总结
  数据总结的目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。
  (2)分类
  分类的目的是建立一个分类函数或分类模型(也称作分类器),该模型能把数据库的数据项映射到给定类别中的某一个。例:信用卡申请者,分类为低、中、高风险。
  (3)聚类
  聚类是把一组个体按照相似性归类,即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。例:①一些特定症状的聚集可能预示了一个特定的疾病。②租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。
  聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
  (4)关联规则
  决定哪些事情将一起发生。是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油+牛奶)。关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间或序列上的规律。例:①超市中客户在购买A的同时,经常会购买B,即A=>B(关联规则)。②客户在购买A后,隔一段时间,会购买B(序列分析)。采用关联模型比较典型的例子是“啤酒和尿布”的故事。
  三、数据挖掘的应用及效益
  应用是數据挖掘的目标。数据挖掘技术不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。其应用范围涉及社会的所有领域,在商业上的应用尤其受到重视。各个领域在KDD应用上既有相同之处,又有各自不同的独特地方。
  1.典型应用领域
  (1)科学应用
  在生物界,开发了HMMS两个智能发现系统,已经用于基因发现和构造核糖核酸模型。天文学上非常有名的系统是加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具SKICAT。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体。SKICAT使用了决策树方法构造分类器,结果使得能分辨的星体较以前的方法在亮度上要低一个数量级之多,而且新的方法比以往方法的效率要高40倍以上。
  (2)市场销售
  数据采掘在销售业上的应用可分为两类:数据库销售(database marketing)和篮子数据分析(basket analysis)。前者的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客以便向它们推销产品,而不是象以前那样盲目地选择顾客推销;后者的任务是分析市场销售数据(如POS数据库)以识别顾客的购买行为模式,从而帮助确定商店货架的布局排放以促销某些商品。
  (3)金融投资
  典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。这方面的系统有Fidelity Stock Selector,LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术辅助管理多达6亿美元的有价证券。
  贷款偿还预测和客户信用政策分析。将数据挖掘技术中的特征选择和属性相关性计算应用到贷款偿付预测和客户信用政策,有助于识别重要因素,剔除非相关因素,使银行优化调整贷款发放政策。
  (4)欺诈甄别
  银行或商业上经常发生诈骗行为,如恶性透支等。这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司的开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;猎鹰的数据格式只有几种,因为流行的信用卡公司只有幾家(如VISA,MASTER等),因此它的应用面很大。FAIS是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。
  (5)产品制造
  在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数,这些数据反映了每个生产环节的状态,通过数据挖掘对这些数据的分析,得到产品质量与这些参数之间的关系,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为制造厂家带来极大的回报。
  (6)Internet的应用
  Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库,数据库有规范的结构,Web上的信息则不然,主要是文档。因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。Web信息发现也称信息搜索或查询,资源发现本质上是网上搜索,关键在于自动生成Web文档的索引。目前,这方面的研究主要有两个方面:研制新的更好的索引系统、利用已有索引系统或搜索引擎开发高层次的搜索或发现系统。相比之下,后者的研究更为活跃。从技术上看,自动文档分类或归类方法将对这方面的研究有很大作用。
  (7)学校教育
  学院分析学生历史信息,决定哪些人愿意报考何专业,发送手册给他们。分析教师的学历、年龄、职称等与授课效果的关联规则,制定教学方案,促进教学质量的提高。
  总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、科研、远程通讯、软件开发、运输、生物信息或基因等各个企事业单位及国防科研上。
  2.数据挖掘带来的效益
  截止到目前,数据挖掘工程在很多领域取得了成果。这些成果使得各类机构和组织能更好地理解它们的组织结构、业务处理过程和顾客,从而得到很高的投资收益。在某些情况下,仅仅一小部分数据挖掘所得到的知识就能回报最初的投资。世界著名的GartnerGroup咨询顾问公司预计:不久将来先进的大企业将会设置“统一数据分析专家”的职位。
  例如:①美国著名国家篮球队NBA的教练,利用某公司提供的数据挖掘技术,临场决定替换队员,从而赢得比赛,在数据库界被传为佳话。
  ②全球数据仓库与CRM解决方案领导厂商NCR公司(纽约股票代号NCR)Teradata的数据挖掘实验室基于20多年丰富的行业经验,协助包括银行、电信、航空、证券和保险在内的各行业企业善用商业数据挖掘,构筑竞争优势。据了解,全球前50大银行中,有一半以上采用NCR的Teradata企业级数据仓库解决方案,尤其是全球获利的前15大银行中就有8家是NCR的用户。
  四、结束语
  综上所述,数据挖掘虽然是一门新兴的技术,但有着鲜明的服务性、大众性、利益驱动性,显示了它强大的生命力。根据最近Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。” 数据挖掘将助你在海量数据面前迅速找到闪亮的知识,找到隐藏的商机,从而立于不败之地。相信在不远的将来数据挖掘会迅速普及。
  
  参考文献:
  [1][加]Jiawei Han. Micheline Kamber 著:数据挖掘:概念与技术[M].范明,孟小峰等译.北京:机械工业出版社,2007.3
  [2]陈安陈宁:等著.数据挖掘技术及应用[M].科学出版社,2006.3
  [3]罗克吴杰:巨型数据库中的数据采掘。计算机工程与应用,2001 37(20) 88~91
  [4]数据挖掘讨论组:http://www.Dmgroup.org.cn
其他文献
文化是旅游的灵魂,旅游是文化的延伸。在各地依托当地民俗文化大力开发民俗旅游的同时出现民俗同质化、庸俗化、商业化、虚伪化现象。针对此种现象,本文提出了在开发利用民俗文
我国先后制定了一系列促进企业自主创新的税收法律制度,但实施效果却不尽如人意。因此有必要借鉴国外的经验,完善相关的税收法律制度,从而为企业自主创新提供良好的法律环境
针对目前我国旅游社会文化影响研究中对目的地少数民族研究的不足,就旅游对目的地少数民族居民的社会文化影响进行了研究方法上的探索,并选取广西桂林阳朔县市区和高田镇的壮
无论是过去的顶礼膜拜还是现在的严词抨击,可能都在业绩光环的影响下过了头。或许现在正是应当冷静地审视一下这家企业的时候了。在刚刚经历过近1000万辆汽车的大规模召回事
布加综合征是指肝段下腔静脉或(和)肝静脉部分或完全阻塞所引起的肝静脉流出道梗阻所引起的症候群,与门脉性肝硬化患者在临床表现上有很多相似之处,诊断容易混淆。
从分析成本管理流程现状入手,抓住国家推广BIM发展建筑信息化的机遇,以施工成本管理理念更新为基础,以组织目标和组织结构优化为前提,融合BIM成本信息流和成本业务流,对成本
文章根据连续采煤机在煤矿的使用情况及在使用过程中出现的故障和维修经验,对连续采煤机的故障进行分析和归类,并针对故障产生的原因提出排查故障及维修的方法。
先天性短结肠(Congenital short colon)也称先天性袋装结肠(Congenital pouch colon)或袋装结肠综合征(Pouch colonsyndrome),是一种罕见的肠道发育畸形,多合并肛门直肠发育不全。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield