数据质量:BI项目成功的基石

来源 :计算机世界 | 被引量 : 0次 | 上传用户:letter0110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  商业智能(Business Intelligence,BI)是IT领域的一个热点话题。日益激烈的市场竞争让越来越多的企业负责人倾向于借助商业智能来辅助决策,而企业经过多年来信息化的建设积累下丰富的数据也为商业智能项目的进行奠定了坚实的基础,在这样的背景下,企业上马商业智能项目的热情逐渐高涨起来。然而,和众多企业管理软件项目一样,商业智能项目的失败率也居高不下,其中数据质量问题是诸多失败诱因中的一个,特别是在涉及多数据源的商业智能项目中,数据质量不高在很大程度上制约了BI项目的最终效果,甚至直接导致了BI项目失败。
  
  数据质量欠佳的原因
  
  导致数据库中数据质量欠佳的原因很多,其中有人为因素,也有系统的原因,还有外界不可抗拒的原因,比如,某个区域改变了邮件编码或者电话号码等,使得系统原有与此相关的数据变成了错误的数据。
  输入错误是最常见的影响数据质量的行为。比如,原本应为8位的电话号码只有7位、2月份出现了31日、数字和字母出现了混淆(把“I”当成了“1”) 等。一般而言,如果应用程序设计得好一些、纠错能力强的话,上述错误在数据录入时是可以避免的。而有些错误如果不用专门的工具而单靠应用程序是不现实的,比如错误的名称、地址信息等。另外,在系统维护和数据处理时也可能出现错误。而错误数据的输入可能扩散到多个系统中,从而影响到整个企业数据的质量,有时即使是相对简单的数据错误也会迅速升级为复杂问题,降低整个企业内数据的质量。事实上,每个数据维护操作都可能改变数据,从而导致无法预知的结果。
  错误的数据还可能来自第三方。现代企业与产业链上下游的关系越来越密切,不少数据就来自上下游企业。此外,有些企业将业务流程外包给第三方或者与合作伙伴以及供应商协作,在这些场合,企业对外来的数据无法即时控制,这些来源或质量无法确定的外部数据都可能进入企业中并在企业中扩散。
  值得注意的是,有些数据原本不是错误,放到特定场景就有问题。比如,同一信息不同系统格式可能不同,数据集成时要把以不同格式保存的数据合并起来就可能出现问题。这也就是企业建立统一的数据字典或者上线主数据管理系统的原因之一。另外,同一数据可能会保持在多个系统,如果在一个系统中有过修改,也有可能引发数据一致性问题。
  为了衡量数据质量,可以从以下几个维度来考察,即完全性、符合性、一致性、准确性、重复性等。完全性指数据项没有缺失,比如个人信息要求必须有身份证号、邮件地址;符合性指各个数据项符合基本常识,例如邮政编号必须为数字、电话号码应没有字母且长度符合规定;一致性指在不同系统中表达同一信息的代码是一致的,一致性是涉及多数据源的数据集成时常出现的问题;重复性指的是同样或者相似数据出现多次。
  
  如何保证数据质量
  
  要改善数据质量可以从两个方面着手,一个是在数据进入系统时引入各种规则来保证数据的正确性,另一个是在数据集成时引入专门的工具进行数据清洗。相对而言,前一个方法更主动,成本也较低,而后一种方法是事后处理,成本高,而且以后还需要持续不断进行。不过,等到要上BI项目时,改善数据质量常常只能是依赖后者。
  改善数据质量最直接的办法就是选用数据质量相关的工具。目前,数据质量已经成为一个专门的应用领域,市场上也有很多工具,比如,大多数BI厂商都有自己的数据质量工具,其ETL工具也带有这部分功能。因为在数据仓库的建设过程中,数据清洗是其中必不可少的一步。
  数据质量保证通常涉及以下过程:首先使用数据剖析工具对数据质量进行分析和探查,以深入了解数据的结构、数值的有效性、分布情况以及在多个分散系统之间关联等重要信息,然后对数据进行清洗、修正、删除重复数据,并实现数据的标准化,最后对这些数据进行归并存入数据仓库。
  应该说,数据质量工具并不是解决问题的根本办法,因为如果管理和流程跟不上的话,单靠数据质量工具是很难达到满意的效果的。实际上,在数据质量保证项目中,有一件非常重要的工作是建立数据的标准和规范、明确数据的定义。因为大多数企业没有建立主数据管理系统,而应用程序开发的时间不同,很可能出现同一数据采用不同格式进行表达的情况,而在对多数据源进行数据集成时,必须对这些数据格式进行转换,如果有了相关标准和定义,就可以大大降低数据集成时的工作量和复杂度。此外,还要建立一个可重复的数据收集、数据修改和数据维护流程,而最终的理想结果是达到流程的自动化,从而降低数据质量保证计划的总体开销。
  值得强调的是,由于数据的生成和处理是一个持续不断进行的过程,因此,数据质量保证是一个长期的过程,相应的,确保数据质量并不是一次就能完成的。
  提出文字:改善数据质量需要从数据质量工具、建立管理制度和流程两个方面着手,并通过持续不断的改进来确保数据质量的高度可靠。
其他文献
北京网康科技有限公司  北京网康科技有限公司(以下简称“网康科技”)成立于2004 年,一直专注于网络应用层技术的研发,致力于为客户提供多种应用层网络安全、网络管理与网络优化产品,帮助客户提升工作效率、节省IT投资、确保数据安全。  网康科技现有员工500余人,目前已建立了以京、津、冀,华北、华东、华南、华中、东北、西北、西南等八大平台为依托、遍布全国的代理商体系以及销售与服务网络。  一直以来,
“云计算落地”系列报道一  编者按:云计算是很多人关注的话题,本报从本期开始,将采访多位行业IT用户,调查云计算在中国的落地情况。     虚拟化的好处很多,不但能够降低数据中心的运营成本,而且能够提高设备利用率。但是国航虚拟化建设显然没有只是关注眼前的直接效益,而是把目标放得更长远,直指云计算。    走进国航信息管理部的数据中心,这里就像一个服务器的“王国”,各式各样的服务器被安放在这里。不光
目前,Wacom中国公司更多的是在进行产品销售和推广。未来,Wacom的很多研发工作也会转到中国。    日前, Wacom公司在北京举行Wacom中国公司成立十周年庆典活动,同时正式向中国市场推出了5款新产品,分别是面向专业CG用户的影拓4代无线版和新帝21UX二代,面向行业用户的PL液晶数位屏产品DTU-1631和DTU-2231,以及面向行业用户的LCD签名数位板STU-300,进一步丰富了
7月26日,富士施乐宣布推出专业的彩色数码多功能打印机DocuColor 1450 GA,该新品具备打印、复印、扫描和传真四大功能,是面向数码印刷、广告及设计行业的专业数码印刷机。据富士施乐(中国)有限公司副总裁陈贻进介绍,该产品具备其他同类产品没有的特色,因此将具有极大的市场竞争力。  首先,DocuColor 1450 GA具有业界最高的彩色输出分辨率2400x2400dpi,这使得其打印的图
IDC的统计显示,2009年到2014年间,全球数据复合年增长率将达到49.8%;到2020年,全球数据量预计将增加44倍,达到35.2ZB,而中国的数据增长率将是全球的两倍。    存储需要敏捷和效率    在日前召开的“惠普融合存储新品发布会”上,《计算机世界》报总编辑许传朝在主持“话题讨论”时表示,数据已经成为企业生产力的重要组成部分,未来企业或商业变革就是基于数据的价值挖掘和商业模式创新。
元旦春节将严查大型电商虚假促销  本报讯 12月25日,国家发展和改革委员会介绍称,2013年元旦、春节期间,各级价格主管部门将重点关注大型电子商务经营者的促销行为,严肃查处促销价高于原价、不履行价格承诺、隐瞒价格附加条件等违法行为。发改委还要求加强对春运期间铁路、民航、公路、水路和城市公交、出租车等交通运输价格检查和巡查,严厉打击春运期间违规上调票价、价外收费等违法行为,切实减轻群众假日出行成本
40G以太网正成为不可阻挡的商业趋势。虽然 10G以太网仍被广泛运用于数据中心,但CIO和IT经理们必须提前考虑到未来的需求(参见图1):高带宽应用,例如服务器虚拟化和云计算、数据中心光纤整合、以及最终用户对于更高性能计算的需求。市场对更快的数据传输速率的需求将不断增长,并对网络生产效率和OPEX成本产生重大影响。  从10G以太网迁移至40G以太网,需要考虑:  1.确认部署40G以太网物理层比
互联网的重要性和价值越来越突出,数据安全防护的需求日渐迫切。综观近几年互联网出现的泄密事件,很多和个人信息被窃取有关,政界、明星甚至普通老百姓都在受到数据安全方面的威胁。“这些事件的出现已经不仅仅是个人声誉的受损,更造成了巨大的经济损失,每一个名人涉及事件造成的连锁效应都是可想而知的。”北信源软件股份有限公司总裁林皓表示。  进入互联网时代以来,政府、企业乃至个人的机密信息和敏感数据被非法盗取的事
本报讯 近日,全球移动互联网商务平台长城会宣布,由其举办的GMIC2011全球移动互联网大会将于4月27~28日在北京举行。大会将迎来3000名移动互联网领域CEO级别的参会人员。届时,“愤怒的小鸟”和“植物大战僵尸”的开发者将分享移动互联的开发经验。此外长城会宣布,天使投资人雷军也正式出任长城会中国董事长。
[战略]    SAP用内存技术打造实时企业  本报讯在日前举办的SAP 2010年度客户大会上,SAP首席技术官兼执行董事会成员Vishal Sikka与SAP创始人之一、监事会主席Hasso Plattner向与会嘉宾介绍了如何运用内存技术(In-memory Technology)来消除交易型应用和分析型应用之间的鸿沟。SAP中国区总裁萧洁云女士表示:“中国有很多企业正在打造实时企业,以期加