预测分析9大败局

来源 :计算机世界 | 被引量 : 0次 | 上传用户:music_cat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “大部分预测分析项目都漏洞百出,无论是预测分析领域的新手,还是拥有一定经验的行业专家,一不小心就会犯错。”数据挖掘公司Elder Research的CEO John Elder说。
  Elder介绍:“由于预测模型可以被不断改进,这些漏洞通常不会对项目构成毁灭性的打击,但仍会导致一些项目遭遇惨败,让投入的巨额金钱和时间化为泡影。即使你拥有了一个好用的预测模型,项目实施过程还是存在其他障碍。”Elder所在公司接受的项目中,有90%以上在技术上是成功的,其中只有65%最终落地实施。
  本文采访了多位数据挖掘和咨询领域的专家,探寻导致预测分析失败的原因。专家们基于各自的经验,指出了9个在技术和业务方面的典型错误。
  没有目标 盲目开始
  一家企业已经意识到了预测分析的潜在价值,并且准备实施,但是,有一个关键问题却没有解决——没有具体的行动目标。
  例如,一家大企业要求某咨询公司对其业务数据进行分析并做出预测,至于预测什么,则没有明确说明,管理层提到“只要能将预测结果应用到各个业务部门就行”。
  咨询公司接手这项工作后,为该公司开发了一个预测模型。“没有一个部门事前阐明他们的业务范围、销售目标等,可以预见,这个项目不会产生任何收益。”Elder Research公司的运营副总裁Jeff Deal说道。
  Deal补充道:“熟悉公司状况的企业决策者在利用内部数据做决策时,对于要实现何种目标应当了然于胸。若借助第三方咨询机构发掘数据价值,就必须制定一个目标,方便咨询机构找到正确的方向。”
  项目目标过大
  一家大型制药企业抱着宏大的理想,启动了一项内部预测分析服务计划。当计划开始实施时,开发团队在项目启动会上宣称该服务将“引导医疗保健行业的一次大变革”。
  但该项目的目标太过宏伟,需要巨额项目启动资金和持续不断的投资保障。巨额投资并没有起到立竿见影的效果,项目团队无法获得决策层的持续投资,最终项目在盲目野心的重压下溃败了。
  Deal建议:“最好是设定小的、切合实际的目标,尽快实现它,然后以此为基础逐步进行扩展。”
  忽略专家意见
  在为预测分析建模时,一个常见的错误观念是:预测模型就像一个神奇的黑箱,在一端输入数据,转动手柄,准确的预测结果就在另一端输出。
  Abbott Analytics曾为一家电脑维修企业构建预测模型。该企业想要基于客户呼叫的文字记录,预测维修人员应该带哪些电脑部件进行上门服务。但问题在于,由于谈话充满模棱两可的内容,在谈话文本中很难提取出用于预测建模的关键词。因此,在最初构建的模型中,先要基于文本中出现的一部分关键词进行预测。
  “我们要为每个关键词创建一个变量,将该变量转换成二进制编码。在跟语言专家沟通后,我们决定将工作重点集中在几十个语义丰富的关键词上,并根据这些关键词改进模型,结合历史信息将这几十个变量与所需的维修零件联系起来。”Abbott Analytics 的总裁Dean Abbott解释,“为此,我们需要将某一关键词变量的出现频率与维修记录中所记载的某一零部件的维修概率联系起来。”
  这个项目所带来的启示是:在构建预测模型时应听取相关行业专家的意见,而不是任由IT人员闭门造车,单纯地依靠算法构造出呆板模型。
  不清晰的模型使用条件
  Abbott Analytics公司曾接手一个为快递业务设计预测模型的项目,用于预测读取到的邮件条形码的准确度。这个项目的难点是,为了保证信件通过读码器时被及时处理,判断需在1/500 秒内完成。
  Abbott Analytics公司设计出一种精确算法,但因为它不能在规定的时限内产生判断结果,最终还是被淘汰了。模型不仅需要做出预测,还需在具体的时间框架内完成,这需要在算法设计之初就考虑到。
  预测分析常常要在精确与效率之间做出取舍。“模型必须足够简单,才能保证运算在短时间内完成,这就是我们面临的典型业务。同时,为了适应客户的业务约束,客户需要在模型构建之初就清晰地界定限制条件。但事实是,太多的人一心只想建立完美的模型,却忽略了模型实际上的使用条件有哪些。”Abbott说。
  在缺乏数据支持的情况下构建模型
  帮助客户催讨债务的机构若想成功地完成每一笔业务,最佳方案是依据欠款的不同特点,制定不同的行动步骤。但这种做法面临的困难是,由于公司对于债款催收流程有严格的规定,员工只能照章行事。
  “数据挖掘是一门比较艺术,因为该公司针对不同业务采用相同的工作步骤,我们无法得出采取哪种工作步骤是最佳方案,这需要历史数据作为参考。”Abbott说。
  如果难以获得这些历史数据,那就需要设计一系列的试验来获取数据。
  例如,针对100笔债务催收业务,以书面形式通知其中50人还款,以电话形式通知另外50人还款,记录这些人各自的特征和还款行为,债务人的特征可能包括往期债务欠款额、还款日期、收入状况、居住地等。然后,以此来建立预测模型,预测哪类债务人适合书面催债、哪类适合电话催债,并在此基础上设计出行动指南。基于预测模型,催收机构可以针对不同债务人采用效率高、成本小的最佳策略。
  “但这一切都要从试验开始。预测分析不能无中生有地创造信息,如果缺乏历史数据支持,就必须通过实验的方法获得有效数据。”Abbott强调。
  等拥有完美数据才开始
  人们往往错误地认为,在开始预测分析前,他们掌握的数据必须是有序的、没有缺失值的。
  在Elder Research公司的客户中,一家全球化的石油化工公司启动了一项具有较高潜在回报的预测分析项目。很快,数据分析专家就发现该石化公司的数据状态比他们预想的还要差很多,最令人头痛的就是一个关键事项的重要目标值缺失。如果要重新收集数据,项目将至少被推迟一年。   “面对这种情况,很多公司可能会让项目暂停,而这恰恰是导致预测项目失败的重要原因。我们早已习惯处理无序、不完整的数据,并找到相应的方法解决此类问题。所以,我们继续推进业务,最终发现了从其他变量推导缺失目标值的方法。”Elder Research公司的数据专家John Ainsworth介绍。
  目前,该项目已经顺利完成,这家石化公司利用预测模型可以准确地找到需要预防性维护的生产环节,避免了代价高昂的停工,节省了大量成本。
  “如果等到有了完整的数据再启动项目,那么上述目标可能永远都不能实现。”Deal说,“数据是活的,可以根据不同情况确定项目实施的优先级。”
  被垃圾数据困扰
  Prediction Impact公司的咨询总监、《预测分析:预言谁会点击、购买、欺诈或者灭亡的力量》一书的作者Eric Siegel曾经与某位列财富1000强的金融服务公司合作,预测哪类呼叫中心工作人员会在这一岗位上工作较长时间。
  “乍看一下,历史数据似乎表明:以至少在岗工作9个月为标准,没有高中文凭的员工的留岗率比其他教育背景的员工高2.6倍。我们差点就向客户建议优先招聘高中就辍学的员工了。”Siegel说。
  但还有两个问题需要注意:第一,从应聘者的简历中录入数据时,两位数据录入员是按不同的标准录入的,一位数据录入员录入了所有的学历指标,而另一位录入员则屏蔽了高学历的样本;第二,由于数据提取的标签设计有问题,导致低学历人员的简历更容易被提取到,这种问题可以通过重新设定提取标签来避免。Siegel总结:“项目实施前,你必须确保数据是完整可靠的,避免出现垃圾数据。”
  耗费过多时间在显而易见的现象上
  一家娱乐休闲酒店想要寻找招揽回头客、提高企业收入的方法。Abbott Analytics构建的分析模型表明,大部分顾客有95%的概率再次到店消费。
  “该模型给出的结论都是一些显而易见的事。例如,有些顾客在连续几年内几乎每月都来,接着有几个月都没来,通常他还会再次光临,而不需任何促销干预。”Abbott说。
  酒店也逐渐意识到了它不需要什么模型来预测给予何种优惠措施吸引顾客再次消费。因为无论他们采取什么措施,总会有约5%的顾客不会再次光顾。
  “如果模型能够识别哪一部分人构成了这5%,那它的作用是巨大的。”Abbott建议酒店特别关注一下那些有较高概率会再来消费、实际上却没来的消费者,“既然我们能预测他们会来,那这部分人群就属于潜在顾客,对这些消费者的促销是很有必要的。若模型结果看起来是显而易见的,就不必在此耗费过多时间,我们更应该将注意力集中在寻找导致反常现象的因素上。”
  预测模型建好后,不关心如何实际应用
  当预测模型成功构建起来以后,接下来该怎么做?很多企业关心的是要建什么样的模型和模型会带来什么样的投资回报,但很少注意到模型建成之后的具体部署、实施工作。
  预测模型的部署策略,因企业环境不同而千差万别。公司需要花费5万~30万美元甚至更高,用于投资适当的分析软件;同时将分析结果融入可视化的商务智能工具,以便于业务人员方便地读取并分析结果。
  “部署一个成功模型有时比构建模型本身还要费力,更重要的是部署策略可能需要不断调整,以适应用户需求的变化。” Deal说。
  读完上文,如果你觉得做好预测分析的难度太大,不要担心,来听听咨询顾问们的见解。
  Abbott Analytics的数据分析专家们认为,一边做、一边学,随时调整才能规避错误。所有的努力都是值得的,预测分析提供了不同于人类思维的看问题的角度,并且能够提供独辟蹊径的解决方案。
  Elder 说:“预测分析确实很困难,但仍有企业在数据中获得了有价值的信息。如果能规避上述问题,你也一样可以做好预测分析。”
其他文献
航空业  结合飞机和发动机数据,当今的航空公司需要主动利用软件分析诊断工具,来锁定妨碍飞机正常运行的问题。利用工业互联网,航空公司可以收集发动机运转的实时信息,对于出现的任何故障信息提供预警,帮助航空公司更高效地运营和维护。比如春秋航空部署了GE智能发动机监控诊断技术,2012年有效预防了计划外发动机拆卸(UER)和停飞待用(AOG),相当于节省了21万多美元的成本,有力支持了机队保持95%的使用
4K是新一代好莱坞大片的分辨率标准。它不同于高清电视(1080P,1920×1080分辨率),也不同于传统数字影院的2K分辨率的大屏幕(2048×1080分辨率),它具有4096×2160分辨率的超精细画面。用简单的比喻就是:你在家里看到的高清电视是207万像素的画面,而在传统数字影院里看到的是221万像素的画面,在4K影院里,你能看到885万像素的高清晰画面。  10英寸iPad配备了高分辨率的
3月21日,第20届中国国际广播电视信息网络展览会(CCBN)在北京中国国际展览中心正式拉开帷幕。与以往网络视频、3D电视、智能电视、手机电视以及IPTV等技术和业务备受关注不同,今年的CCBN上出现了诸多芯片厂商的身影,它们展示了对三网融合发展方向和技术方案的研究成果,以及多种新产品和技术的组合。  数字多媒体融合成主流  中国目前的电视用户数量超过4亿户,国家广电总局预测,到2015年DTH(
12月5日~7日,常州陷入“十面霾伏”。  恶劣的天气并没有挡住第六届全国三维数字化创新设计大赛(简称:全国3D大赛)选手们的热情。来自全国各地高校的400多支队伍、2000多选手和指导教师,住满了常州的12家宾馆,年轻的大学生们给这座有着3200多年历史的古城带来了青春朝气。  全国3D大赛2008年创办,大赛借力常州的产业优势,常州依托大赛的影响力,走出了一条“以赛促学,以赛促产”的转型新路。
本教程介绍高手如何创作原创作品。当然创作之前就是要构思画面,然后画出线稿。由于画面中的卡通元素较多,这些都是细活,每个元素都需要找素材参考或自己独立创作出来,工作量还是蛮大的。    最终效果    1、首先是草图,我选择了手绘。虽然数位板带给我们很大的方便,如果时间允许还是多练习一下手绘吧。由于是草图阶段,我们不需要太多顾忌,尽量把脑子里的画面表现出来。细节的东西可以在深入时再慢慢调整。完成大概
本报综合报道 英特尔将与高通公司在近期举行的2012年国际消费电子展(CES)上针锋相对。高通CEO保罗·雅各布斯将在1月10日登台,展示基于高通芯片的笔记本电脑,高调进军这个由英特尔统治的领域;而当天晚些时候,英特尔CEO保罗·欧德宁也将登上同一个演讲台,宣布推出基于英特尔芯片的手机产品,再次发力进军智能手机芯片市场。  智能手机和平板电脑的风靡促使更多企业进入移动设备市场。分析机构Linle
12月12日,中搜总裁陈沛很激动,他的惟一一条微博上写着:“我终于把14年的理想变成了一个事实。感谢移动互联网。”这一天,中搜发布了旗下移动产品——搜悦3.0及其配套的开放平台,允许第三方商家入驻。  1999年,陈沛曾在一个互联网会议上发言:“我希望未来的互联网是这样的,当一个普通用户打开计算机时,就看到了他所需要的东西。他不需要的东西没有出现,他不关心它来自哪里,因为他只关心内容本身;他也不关
本报综合消息 4月10日,夏普表示,2011年度集团净亏损预计超过3500亿日元,而此前预计亏损为2900亿日元;同一天索尼也宣布,2011财年预计净亏损金额将达5200亿日元 ,创历史最差业绩新纪录。  2011年是日系半导体、家电和电子产业巨头难熬的一年。夏普出现了成立以来最大的一次亏损,索尼也连续四年亏损,松下则以7800亿日元净亏损预期成为日本制造业亏损之王。目前来看,这种状况仍在持续恶化
大庆油田是中国最大的石油生产基地。在50多年的发展历史中,经过一代又一代大庆人的艰苦奋斗,大庆油田创造了举世瞩目的巨大成就。累计生产原油超过20亿吨,主力油田采收率突破50%,实现年产原油5000万吨以上,连续27年高产稳产??  石油作为一种不可再生能源,开采一天,就少一天。辉煌的背后,大庆油田正在逐渐步入产量衰减期,可持续发展战略成为今后大庆油田能否进一步发展的核心。  可持续发展 打造百年油
百度将以19亿美元高价收购91无线的消息,瞬间打破了它近些日子的低调沉默。而这个数额也打破了2005年雅虎10亿美元并购阿里巴巴纪录,一跃成为中国互联网有史以来最大的并购案。  “太贵了,91的标额怎能比搜狗之前的14亿美元估值还高!”诸多业内人议论道。此前,百度与360都曾有意竞购搜狗,更多人认为百度应拿下搜狗才对。  确实是豪购。从百度目前的账面来看,现金和短投合计约为54.4亿美元,19亿美