为什么机器学习没有捷径可循?

来源 :计算机世界 | 被引量 : 0次 | 上传用户:rfvbgtyhnmju
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  企业必须明白,好的数据科学在企业实践中需要花费时间,同时还要给相关人员学习和成长的空间,所以这里没有任何捷径可循。
  O’Reilly最新的调查数据显示,大数据仍然只是1%,或者15%的企业游戏。大多数的企业 (85%)依然没有破解AI和机器学习的密码。仅仅只有15%的“见多识广”的企业在生产过程中运行一些数据模型超过了5年。更重要的是,这些企业更倾向于在一些重要的领域花费时间和精力,比如模型偏差和数据隐私。相对而言,那些还属于初学者之列的企业仍然还在努力尝试着寻找启动按钮。
  不幸的是,对于那些希望通过自动快捷方式比如Google的AutoML或者通过聘请咨询公司缩小数据科学差距的企业,我们给出的答案是:实现数据科学的确需要花费时间,而且没有捷径可循。
  聪明的企业专注于深层次数据
  首先,值得注意的是, O’Reilly的调查数据来自于其自选的一群人: 那些曾经参加过O’Reilly活动的,或者参加过该公司在线研讨会或通过其他途径与之有接触的人。这些人群对于数据科学都有前瞻性的兴趣,即使(按照调查数据的显示)他们中的大部分人并没有从事太多的相关工作。对于那些沉浸在大数据体验中的人来说,最好的客户群体就是那些被称为“见多识广”的企业,它们在生产过程中使用的数据模型已经运行了5年以上。
  从调查上可以发现一个有趣的现象,那就是这些企业是怎样称呼他们自己的数据专家的。具有丰富数据经验的企业称之为数据科学家。而那些思维尚停留在上世纪90年代 “数据挖掘”模式的企业则更倾向于称其为“数据分析师”。如图1所示。
  调查发现,无论企业选择如何称呼他们的数据专家,企业在AI和机器学习方面的经验越丰富,他们就越有可能依靠内部数据科学团队建立模型,如图2所示。
  几乎没人关注云机器学习服务(至少现在还没有)。那些只有2年以下生产经验的企业倾向于依赖外部的顾问来搭建机器学习模型。对于这样的企业而言,这种感觉就像一种不用投入人力而享受数据科学收益的机会,但这是一个非常愚蠢的方法。
  企业的数据越复杂,其数据科学团队就越能建立模型,并评估项目成功的关键指标。纵观所有的企业,产品经理对于项目成功的作用是36%,管理团队的数据是29%,数据科学团队的贡献是21%。
  对于那些经验丰富的企业来说,产品经理的作用依然占到34%,数据科学团队27%,几乎与管理团队(28 %)相同。
  对那些缺乏经验的企业而言,管理团队占到31%,数据科学团队占比较少 (16%)。这不是个问题,事实是这些数据科学团队最适合计算出如何使用数据并衡量其成功。
  太多时候,是外行指导外行
  这种依赖管理层来推动数据科学的想法引起了人们的注意。调查显示,不少高管自称是数据驱动的,但却无视了数据其实并不支持那些靠直觉驱使的决策(62 %的人承认这么做)。
  那些缺乏大数据悟性的企业似乎愿意口头提供数据,但他们根本不明白有效数据科学的細微差别。他们缺乏必备的经验来确保可以获得有意义的、无偏见的数据洞察力。
  关于如何理解机器学习模型,以及如何相信该模型所导致的结果,更多有成熟经验的企业显然掌握了Gartner博客网络中的一位博主Andrew White的评估方法:
  ·AI的创新之处就在于AI可以重新定义新的基线,换句话说就是那些我们认为太过复杂的东西和非常规的东西,目前都可以利用AI来实现。和之前的技术相比,AI应该可以处理更加复杂而且具有认知能力的工作。
  ·这个新的现实只有在AI自动处理的结果是合理的时候才有意义。如果这个新奇的工具所得出的决策和结果让人类无法理解,那人们就会放弃这个工具。因此在某种程度上,能否理解AI所做出的决策也非常重要。
  ·然而,理解决策和理解算法如何工作是两回事。人是可以掌握输入、选择、权重以及结果的原理的,而即便算法能够在一定程度上将所有这些结合到一起,但我们依然无法证明这一进程。如果结果和输入之间的差距太大,那么人对算法的信任就很有可能会丧失——这是人的天性。
  想要达到这种理解水平是无法通过花钱雇佣咨询顾问能实现的。云端也不是现成的。运用工具比如Google的AutoML 可以“使得那些具有有限机器学习专长经验的开发者能训练针对其业务需求的高质量模型。”这听起来非常好,但是想要从数据科学中受益需要有数据科学的经验。这不仅仅是调整模型的问题,更需要知道如何实现,这需要大量的试错经验。
  另外,从事数据科学需要有人文的心态,再次强调,需要经验。没有捷径可循。实际上,这意味着那些早期投资于数据科学的企业应该发现自己领先于那些没有竞争优势的同行——这种差异很可能会持续下去。
  对于那些希望迎头赶上的企业,Gartner分析师Svetlana Sicular最为经典的忠告仍然在耳边回响:“企业应该在内部多看看。其实内部已经有人比那些神秘的数据科学家更了解自己的数据。”只要企业明白要在企业完成好的数据科学需要花费时间,并且给予其人员学习和成长的空间,他们就不再需要寻找捷径。
  Matt Asay是信息领域的长期从业者,以及前知识产权律师,目前是Adobe公司开发者生态系统的最高领导。
其他文献
通过对20世纪50-70年代初中国对外战略的历史考察,可以发现中国对日邦交正常化战略发挥了关键作用。中国政府在防止日本军国主义复活原则的基础上,首倡“以民促官”及“官民并举”的基本方针,提出正确对待历史问题并放弃战争赔款,并采取“先美后日、以美促日”的外交战略于1972年实现了中日邦交正常化,取得了继中美发表《上海公报》后的又一外交胜利。虽然中国对日邦交正常化战略在实施过程中历经曲折,但它兼具現实
今天的CIO会感觉自己就像是马戏团的表演者,同时处理多个项目,还要确保没有一个项目失败。疫情使这个问题显得尤为紧迫,一方面是公司要求在家工作,另一方面又需要加快数字化转型。然而,当全世界开始在疫情后恢复过来时,随着远程工作、安全、数字化转型、自动化及其他紧迫的项目开始需要重新关注和迅速完成,同时处理多个项目很快会变得更迫切。  由于压力会变得很大,现在制定策略,规划好如何在不牺牲时间、预算或质量的
在长沙举行的华为中国生态伙伴大会2017上,华为强调,要通过平台和生态的双轮驱动来做大产业蛋糕。  刚刚结束的华为中国生态伙伴大会2017,是华为进入企业业务市场以来的第七届伙伴大会。“7”在数字中一直有着特殊的含义,月亮的运转周期是28天,以7天为一个阶段,世界上有七大奇跡;在古希腊,7是完美的数字,它是3和4的和,代表着三角形和四边形,这两种形状在希腊是完美无缺的。  不同于前六届的“合作伙伴
起初有文件,后来有基于结构化文件的导航数据库,然后出现了IMS和CODASYL。大概40年前,出现了首批关系数据库。在20世纪八、九十年代的大部分时间,“数据库”严格意义上指“关系数据库”。SQL(标准查询语言)占主导地位。  后来随着面向对象编程语言日益流行,一些人认为,解决面向对象语言和关系数据库“阻抗不匹配”的办法是在数据库中映射对象。因此,我们最后迎来了“面向对象的数据库”。对象数据库方面
为了让供应链更具有可见性和更为高效,同时避免供应链出现中断,公司正逐步将物联网添加到他们的物流业务中。  当打开Uber应用时,它们会向你显示司机的照片,为你提供车辆的描述,同时还会向你展示地图,便于你查看自己的乘车位置。此外,假如司机需要一些帮助才能找到你,你还可以直接与司机沟通。  这种可见性正在进入到全球的供应链中,这样卖家和买家就可以跟踪他们在世界各地被运输的集装箱、货盘、箱子,甚至是高价
多云管理工具有望使得不同的环境变得有序,方便进行控制和深度分析。  企业把更多的云工作分散到众多的云提供商平台上,这让很多IT和网络管理人员感到不知所措,因为每家云提供商都有自己的工具集、规则和用户需求。在多云环境中,这种错综纷乱的情形很快就会让企业深陷复杂、混乱和成本的泥潭。  从IT中坚企业到初创企业,供应商们纷纷前来救援,提供多云管理工具,旨在让提供多种云服务的数据中心变得有序,方便进行控制
[摘要]二战后越南华人政策的演变过程中,中越关系、越南党和国家的中心任务以及越南民族主义等因素始终支配或影响着不同时期越南华人政策的制定,但随着中越关系的正常化和越南华人本地化进程的完成,越南国内经济发展战略成为目前及未来决定政府华人政策导向的首要因素。  [关键词]越南,华人政策,影响因素  [中图分类号]K25 [文献标识码]A [文章编号]10457—6241(2007)09—0077—
与德勤的分析实践领导讨论常见的分析问题和新的解决方案  编译 charles  作为Deloitte分析实践的领导,Paul Roma指导公司所有业务的分析产品,所以他了解公司要应对的一系列问题。《网络世界》总编辑John Dix最近和Roma讨论了公司面临的分析问题(提示:上面提到的沼泽),帮助提取更多价值的工具(认知分析和机器学习),还有不断发展的执行管理角色(标题并不重要,重要的是问题归谁)
数据备份和恢复有点像黑盒。在灾难发生之前,用户通常不知道情况是否完全在自己的掌握之中。特别是随着云计算和混合选项的增长,这些措施一直处于不断的改进当中。为此,我们请了4位网络专业人员来分享他们的故事。请他们讲述一下自己的亲身体验,告诉我们到底是什么让他们意识到应该做更多措施来加强企业的备份和恢复流程,以及他们是如何实现这一目标的。匹兹堡州立大学改进磁带备份  导火索:2011年5月,一场龙卷风袭击
几乎在所有行業中,物联网(IoT)对于保持竞争力都变得越来越重要。实施物联网的业务目标包括从改进内部业务到提供全新的服务,直至进一步提高合规能力。但是,每家企业应由谁负责探索这一新领域,并确定怎样实施物联网呢?我们了解到,要想开发真正成功的物联网解决方案,重要的是在多个部门中都有坚定的支持者。  1.计划负责人  那些计划负责人应始终非常清楚竞争、市场状况、商业模式变化、风险评估和支持技术等很多发