数据大爆炸的机会

来源 :商界评论 | 被引量 : 0次 | 上传用户:cser905
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  如果你的网站拥有数以千万计的活跃用户,如果网站上拥有数以百计的产品服务,如果这些服务以多媒体的形式在多个网络终端上运行,如果正在或者打算尝试走向云计算和Web2.O架构,那就恭喜你了,因为你已经不知不觉地成为大数据时代的先行者或受害者。
  按照维基百科上的定义,所谓“大数据”,在当今的互联网行业指的是这样一种现象:一个网络公司日常运营所生成和积累用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不是以我们所熟知的多少个G和多少个T为单位来衡量,而是以P(1000个T)、E(一百万个T)或Z(10亿个T)为计量单位,所以称之为大数据。
  大数据的机会和挑战
  大数据的出现既为网络业带来了机遇也带来了挑战。从潜在的机会看,数据量的增加为网络公司提供了精确把握用户群体和个体网络行为模式的基础,如果能够充分利用,就可以个人化、个性化、精确化和智能化地进行广告推送和服务推广,创立比现有广告和产品推广形式性价比高数倍甚至数十倍的全新商业模式。同时,网络公司也可以通过对大数据的把握,寻找更多更好地增加用户粘性、开发新产品和新服务、降低运营成本的方法和途径。
  大数据是整个Web2.0革命的重要组成部分,Googli、Facebook、苹果和亚马逊已经处于先发的位置上。
  首先,战略决策能力
  如果采取无所作为、固守原状的鸵鸟政策,那就可能失去未来发展的机会,失去业内竞争的本钱,早晚会被产业淘汰或者居于下游;如果与时俱进,转型适应大数据时代的到来,那就需要对公司的现有产品和运营体系进行全面的改造,例如网站架构的重建,产品的通用化、标准化、模块化,商业模式的创新等等。这对绝大多数网络公司而言,既要维持现有业务、保持业绩的稳定和增长,又要加大投入、迅速转型,是个进退维谷的两难处境。
  其次,技术开发和数据处理能力
  要求使用专门的数据库技术和专用的数据存储设备,更要求专门的数据分析方法和使用体系。网络公司需要大量高端专业人才,这不仅指一般的程序员和数据库工程师,而且指天体物理学家、生态学家、数学和统计学家、社会网络学家、社会行为心理学家等等。对海量数据的分析不能仅仅局限在一般数据规律和模型的把握水平上,而且要有理论思维和全面把握的综合深入能力。
  第三,组织和运营能力
  大数据时代的数据分析基本单位是个人用户,寻找的是个人全面、完整、动态、实时的网络行为模式以及在此基础上归纳出来的群体行为模式,而不是过去那种基于单个产品、服务、频道的碎片式静态统计分析。所以,对大数据的整体把握是网络公司产品开发、运营设置、商业模式的基础和出发点,是龙头而不是龙尾。这就需要对现有公司架构、组织体系、资源配置和权力结构进行重组,让数据管理与分析部门处于公司整体的上游位置。重组成功的标志之一就是公司设立首席数据官的职位,与CEO、COO、CFO、CTO等一道组成公司核心决策层。
  大数据的三个考量维度
  以我的观察和实践经验,网络业中一个公司是否称得起拥有大数据至少要从三个维度考量:
  数据规模——所谓大数据,最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的、显著的数据存储和分析预算(例如,总预算的3%~5%),有了独立的数据处理和分析部门,有了比较完整的数据存储、安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,可以说这个公司面临着利用大数据的机会或挑战了。
  数据结构——数据量只是反映数据性质的一个指标,也许还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司,而另一个一天只产生一万个T数据的公司也许反而是个大数据公司,其奥妙在于数据结构的复杂性。例如,A公司拥有一亿用户,但用户在A公司网站上只干一件事或一类事,比如获取新闻资讯、买卖东西,或者玩玩游戏。那么由此产生的数据量虽然不小,但结构简单,重复性高,分析起来很容易,无非就是根据用户背景和使用习惯分分组,归归类,简单数据挖掘基本功足够,扯什么大数据就有点故弄玄虚了。B公司只有一千万用户,却是个开放平台,用户在此可以干互联网能够支持的所有事情,网络行为又可分为个人、群体、组织等层次,那么这个数据的结构就够复杂,能够支持深度挖掘和复杂建模,因而就可以算作大数据。
  数据关联度——网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,也形成不了大数据。反之,如果一个Web2.O时代的开放平台,架构清晰,逻辑分明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据。
  [编辑 代永华]
其他文献
<正> 本文介绍一种高精度袖珍温湿度测量仪,温度测量范围为-20~+80℃,测温精度为&#177;0.5℃;湿度测量范围为0~100%RH,湿度测量精度为&#177;5%。它可广泛应用于图书馆、实验室、
西方水彩画传入中国近300年了,中国水彩画的创作若从徐泳青的水彩写生算起,也已100年了,从引进、融合,到逐步壮大,乃至今日发展繁荣的过程中,不知多少水彩画家倾注其全部热情和生命
本文初步探讨了活性白土的酸处理生产工艺.且对老工艺进行了改进,在节约原材料、水资源、三废处理、综合利用等方面进行了研究.
在埃及卢克索省政府和现任省长伊扎特&#183;萨阿德博士多次提议下,埃及总理谢拉夫下令,由萨阿德省长牵头组织埃及旅游部、埃及最高文物委员会及卢克索省多名官员和相关领域部分
<正> 故障现象4 在接收彩色全电视信号时,屏幕图像有彩色但失真,即在红色彩条信号垂直方向上出现一行色浓、一行色淡,并且缓慢向上或向下移动,从而形成水平方向上缓慢移动的
2010年,茶叶老字号“吴裕泰”迎来其123岁生日。静心省之,笔者不禁惊见其历史与许多“数字”之间的奇妙关联。数字仿佛是吴裕泰人的命运与呼吸,通过它们,古老而令人骄傲的中国茶
《户县、綦江、金山三地农民画展》与《当代加拿大因纽特人绘画展》于春末初夏时节,同时亮相于重庆美术馆。这两个由四川美术学院、重庆市美术家协会联合主办的展览有147件绘
"美元贬值预期"、"通胀预期"和"人民币升值预期",这三种预期合流成为"资产升值预期",由于房地产暴涨的预期被"赐死","资产升值预期"简化为"股市升值预期",股市就足以形成赚钱效应。
多少年来,中国的犀牛角杯和镀金罗汉不被看好,国际藏家对之曾嗤之以鼻,但近年海外疯狂的中国艺术品炒作,尤其大量中国本土藏家收购海外流失的国宝,中国古董艺术品开始被国际藏家看
中国画在20世纪向现代形态转型过程中,以人物画的变化最为显著。此次《北京画院藏人物画作品展》的院藏人物画有两个突出特点:一是作者比重以北京画院建院初期的画家为主,包括徐