ODPS降低大数据应用门槛

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:listandmap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  阿里云计算的ODPS从内部使用的工具变成了面向社会开放的大数据平台,开创了国内大数据公共服务的先河,降低了大数据在资金、人才和应用方面的门槛。
  小型企业只要花费几百元就能进行海量数据分析,这是真的吗?阿里云计算的大数据平台ODPS可以让你梦想成真。
  今年举行的阿里巴巴大数据竞赛,首次将ODPS和阿里的天池平台开放给参赛的大学生,这可以看成是ODPS商用的前奏。2014年1月,阿里云计算的ODPS服务开始公测。7月,ODSP正式开始商用。阿里云计算总裁王文彬认为,此举标志着中国的大数据已经进入公共服务的新时代。
  大数据平台即开即用
  云计算出现后,人们可以像使用水、电一样自由地取用IT资源。阿里云计算的ODPS就像是大数据时代的生产流水线,“水龙头”里流出的是用户想要的各类数据分析结果。阿里云计算公布的数据显示,ODPS可在6小时内处理100PB数据,这个数据量相当于1亿部高清电影。王文彬表示,目前全球范围内能够掌握这种技术能力的公司屈指可数,阿里云计算就是其中一家。
  人们使用传统解决方案处理大数据,通常要耗巨资自建数据中心,还要请专业的技术人员负责系统维护和运作,而一旦数据总量超过一定界限,比如100TB,那么数据处理就有可能遇到瓶颈。开源的Hadoop虽然提升了大数据处理的效率、降低了成本,但用户自建一个Hadoop集群花费不菲,而且还需要专业的技术人才。王文彬认为,ODPS对于大数据的最大贡献在于,它以公共服务的方式让人们以更低的成本使用大数据平台和工具,从而大大降低了大数据的应用门槛。从公开资料看,ODPS目前采用的是按使用量收费的模式,定价是每GB 0.3元,即开即用,一个月内免费。根据大部分公司的数据使用量来测算,一般用户平均每月只需花费数百元就可以享受到ODPS的服务。
  ODPS在对外商用之前,本来是阿里巴巴集团内部30多家公司自用的一个大数据平台。王文彬介绍说,阿里小贷最先将ODPS应用于商业领域,目前已有超过36万人从阿里小贷借款,最小贷款额仅为1元,并可实现3分钟申请、1秒放款、零人工干预。如果没有ODPS大数据平台,阿里小贷若想实现上述目标几乎是不可能的,因为阿里小贷每天处理的数据达30PB,包含店铺等级、收藏、评价等800亿个信息项,涉及100多个数据模型。
  在阿里小贷成功地作了一次“小白鼠”后,阿里巴巴集团内部的多个公司纷纷开始尝试ODPS,其中包括淘宝、支付宝等阿里巴巴最核心的数据业务。在ODPS趋于成熟后,阿里云计算终于下定决心将自己的大数据处理能力对外开放,以大幅降低社会创新成本。除了阿里巴巴自身以外,华大基因、国内的一些药监部门等也在ODPS大数据平台上进行了测试。
  目前,在国外,只有像Google、亚马逊等少数企业可以提供类似ODPS这样的公共大数据服务。在国内,ODPS公共大数据服务还属于开先河之作。王文彬也表示,阿里云计算有信心让ODPS变得比Google BigQuery更加强大,不仅支持更丰富的SQL语法,还将提供MapReduce编程模型和机器学习建模能力,服务更多的应用场景。
  云与大数据相辅相成
  回顾ODPS的发展,从2010到现在的5年时间里,阿里云计算的工程师们为ODPS贡献了250万行代码,ODPS经过不断打磨和历练,也从一个企业内部使用的大数据工具变成了可以服务于大众的成熟的大数据平台。
  一开始,ODSP只是作为阿里云计算“飞天”平台的一个重要组成模块出现。“飞天”是阿里云计算于2009年开始研发的一款分布式系统软件,主要提供分布式存储和分布式计算的调度和编程框架。ODPS最开始被用于阿里巴巴集团内部的海量结构化数据的处理和分析。
  2010年春节期间,ODPS的前身Sql Engine第一版正式上线,首个应用是支持阿里云金融的信用贷款和订单贷款业务,运行在30台机器的“飞天”集群系统之上。2012年第一季度,“冰火鸟”项目正式启动,研发团队在Data Engine和Moye之间做技术选择,并最终决定使用Moye作为ODPS产品的核心引擎。之后,历经8个月的开发,“冰火鸟”项目一期结束,阿里小贷和淘宝的数据仓库业务正式迁移到ODPS平台上,这标志着ODPS项目正式成形。
  随着技术的不断成熟,目前,ODPS已经运行在由5000台服务器组成的集群系统之上,这种规模在业内也是少有的。
  王文彬归纳了几条ODPS的产品优势。
  第一,高速的海量运算唾手可得。用户不必再关心由于数据持续增加带来的存储规模、计算延迟等方面的挑战,ODPS可以根据用户的数据规模自动扩展集群的存储和计算能力,让用户专心于数据分析和挖掘,从而最大程度发挥数据的价值。
  第二,ODPS服务即开即用。用户不必自己操心集群的配置和运维,仅需简单的几步操作就可以在ODPS中上传数据、分析数据并快速得到分析结果。
  第三,数据存储安全有保障。ODPS采用三重备份、读写请求鉴权、应用沙箱、系统沙箱等多层次的数据存储和访问安全机制,可以保证用户数据不丢失、不泄露、不被窃取。
  第四,实现多用户协作。通过配置不同的数据访问策略,企业用户的多名数据分析师可以协同工作,并且每人仅能访问自己权限许可范围内的数据,在保障数据安全的前提下提升工作效率。
  第五,按使用量付费。ODPS可以根据用户实际使用的存储量和计算消耗收费,从而有效地降低数据使用成本。
  云计算与大数据就像是一个硬币的正反两面。云计算实现了IT架构的变革,而大数据则改变了数据的使用方式,充分展现并挖掘出了数据的价值。“以前,IT可以简单地理解为是硬件加上软件。但是在云计算和大数据时代,IT就是云计算加数据。这对于IT来说是一次翻天覆地的变化。如今,今天再也不用采购IT硬件和软件,只要采用云服务即可。”王文彬告诉记者,“ODPS其实也是一种云服务,它将改变整个IT的使用模式、使用周期。ODPS让大数据可以以一种服务的方式呈现给大众。”
  阿里云目前在北京、杭州、青岛、香港等多地拥有多个数据中心节点,这为大数据公共服务提供了有力支撑。阿里云目前直接或间接服务的客户将近一百万个。“大数据公共服务是大数据发展历程中的一个里程碑。无论企业规模大小,都有数据处理、分析和挖掘的需求,这是业务发展的必然选择。阿里巴巴自身已经验证过ODPS这个大数据平台,并且可以满足企业用户对大数据公共服务水平的要求。”王文彬强调说,“我们希望将大数据处理平民化,让大数据变成人人都可以使用的工具,而不仅仅是大公司的专利。”
  ODSP需要一个生态系统
  ODPS虽然以降低传统大数据处理的资金、人才门槛为己任,但是ODPS本身其实也有一定门槛。王文彬解释说:“ ODPS并不是每个人都可以使用的。就像是编程一样,ODPS只是一个计算平台,用户要通过它上面叠加的多种工具才能实现大数据的处理。我们之所以开放ODPS平台,也是希望能有更多的合作伙伴可以在ODPS平台上进行二次开发,为用户使用大数据提供便利。ODPS的成功要依靠一个庞大的生态圈。”
  ODPS刚刚开始商业化,虽然现在已经有一些合作伙伴在做ODPS代运营的业务,并且开始在ODPS平台之上开放分析、报表工具等。但是要建设一个具有一定规模的生态体系还要花费一段时间。王文彬表示,阿里云计算准备用几个月的时间把这个生态体系的架构搭建好,吸引更多的合作伙伴加入进来。
  大数据有很多分类方法,其中一种分类方式是按照大数据的属性将大数据分成商业大数据、互联网大数据、机器大数据等。ODPS是不是能够处理所有类型的数据呢?王文彬回应说:“作为一个在线大数据平台,ODPS更擅长处理结构化的数据或半结构化的数据,但不能处理非结构化的数据。不过,未来,我们会在非结构化数据的处理方面做更深层次的探索,这主要取决于用户的需求。”
  目前,阿里集团大部分数据业务都运行在ODPS之上,包括阿里小贷、数据魔方、阿里妈妈广告联盟、广告搜索、点击预测模型训练、支付宝的所有业务、淘宝指数、阿里无线、高德、中信21cn等。基于ODPS,阿里云计算为第三方软件服务商和品牌商提供了大数据计算、挖掘、存储的云环境开发平台。通过阿里云的“御膳房”数据市场,数据消费者与数据提供者可以安全地交易、使用海量数据,实现数据价值。
其他文献
“互联网 ”是一个时代的创新和颠覆,过去的两百多年的管理一直被科技颠覆着,特别是进入21世纪,整个科技领域出现了新的概念如工业4.0、大数据、云计算等等,这些新的科技正在颠覆传统的管理模式,其中,基于云计算saas(Software-as-a-Service,软件即服务)模式的效率大师的诞生为企业提供的一种全新的管理服务模式,被业内评论为解决工作效率和执行力的颠覆者。  尽管国内“终结传统管理模式
就像BYOD是一个跨界的应用一样,戴尔Wyse Cloud Connect云连接设备也是一个跨界型的产品,它让生硬的显示设备变成了丰富多彩的虚拟桌面系统。  把一个“U盘”插入到具有HDMI高清晰度多媒体接口的显示设备上,这个显示设备立刻摇身一变成了可以提供桌面虚拟化或个人云服务的桌面系统,这其中的奥妙就在这个小小的U盘——戴尔最新发布的Wyse Cloud Connect云连接设备上。  改变业
得益于云计算和HANA业务的顺利开展,SAP大中华区的业绩表现保持着良好的增长态势。10月22日,SAP大中华区在深圳召开的SAP论坛上宣布,其2014年第三季度的软件及软件相关服务收入取得了双位数增长,继续保持本财年双位数强劲增长的态势。  云计算业务模式突破  来自SAP的资料称,在2014年第三季度,SAP云计算业务取得了三位数增长,标志着SAP面向基于SAP HANA的云公司的转型获得进一
全国政协委员、小米CEO雷军建议:大数据国家战略应从国家层面上重点考虑数据主权、数据创新能力、关键技术、人才、数据研究、覆盖全行业的产业链、法制环境支持等方面的问题。第一,我国应重视大数据人才培养、关键技术和商业模式的研究。第二,应尽快完善相关法规,推动政府部门等率先开放大数据。第三,重视大数据基础设施建设。推进实施“宽带中国”战略,持续支持下一代互联网、第四代移动通信、公共无线网络、电子政务网、
一直以来,国内O2O行业主要的业务模式就是“以补贴拉用户、以用户拉资本”,而随着阿里大幅缩减校招名额、百度冻结社招、腾讯停止外包招聘并传出要缩减部门,互联网资本寒冬来袭的帷幕似乎渐渐拉开。O2O行业属2014年以来崛起的互联网新兴领域,在以BAT为代表的传统互联网龙头企业都开始缩减成本的形势下,新兴领域内的O2O企业疯狂烧钱的业务模式更加难以为继,与主要竞争对手合并重组以缩减成本、优化资本配置成为
“通达信科计划在3年内,依托自主建设和合作建设云OA平台,占据国内50%以上的云OA市场份额。”4月24日,北京通达信科科技有限公司(简称通达信科)CEO高波在一个小型的媒体沟通会上道出了通达信科对云OA市场的野心。  据悉,通达信科在4月10日刚刚推出云OA服务,旨在使得用户无需安装服务端即可轻松拥有基于互联网的虚拟办公室, 直接使用浏览器、手机或平板电脑登录OA系统,实现全球远程移动办公。  
EAM系统可以更高效、更智能地完成对运营、能耗的监测和管理。部署Infor的EAM解决方案,企业可以大大减少采购和维护成本,同时减少生产停机时间和能源消耗。  信息技术的高速发展改变了制造业的生产模式。在德国率先提出“工业4.0”的概念后,制造业更是在全球刮起了转型之风。与世界先进水平相比,我国的制造业在自主创新能力、资源利用效率和信息化程度等方面存在差距。而随着人口红利的消失,人工成本上升等问题
中国互联网市场可谓“BAT之下,寸草不生”。那么,大数据市场又是怎样一幅场景呢?  “大树之下,寸草不生。”  这用以形容如今被BAT割据的中国互联网市场再合适不过。那么,长出“草”怎么办?BAT买下来。优质的初创公司占队BAT其中一方,或者说BAT在它们遭遇资本寒冬的时候充当“接盘侠”。买卖都是两厢情愿的事儿。  除了商业模式的创新,决定一个企业能否长远发展的更重要因素是技术创新。或许亚马逊因A
自古以来,人们把前知500年、后算500年的人称为神算子,但是在我们生活的这个宇宙空间里,能将140亿年发展过程都算出来的人我们该称他们为什么?利用两周的时间将宇宙140亿年的演变过程计算得清清楚楚,这看起来是天方夜谭,但中国科学院(以下简称中科院)的超级计算中心(以下简称超算中心)却将这一切变为现实。  中国科学院超级计算中心(以下简称中科院超算中心)隶属于中科院计算机网络信息中心(以下简称网络
Vivitek丽讯D795WT超短焦投影机  经过2013年一系列的调整,在Vivitek丽讯回归台达集团的第一年伊始,Vivitek丽讯就全面更新了其工程机产品线。Vivitek丽讯中国区产品总监汪勇刚表示:“Vivitek丽讯拥有台达集团作为坚实的后盾,在技术开发和产品研究方面有着得天独厚的优势。同时,Vivitek丽讯在工程机领域也倾注了心血,投入大量的人力物力。Vivitek丽讯实现了从入