提升大数据价值:Hadoop即服务正在迅猛发展云

来源 :计算机世界 | 被引量 : 0次 | 上传用户:snowsky001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  端正成为企业加快数字化活动的首选,以下是评估HaaS(Hadoop即服务)提供商时应考虑的事项。
  Hadoop为一种基于开放源代码的软件框架,能够跨分布式集群以高吞吐量处理海量的大数据。
  几年前主攻小众市场的Hadoop如今正进军主流市场。随着数字化运动的快速发展,Hadoop提供了充足的应用案例,允许使用普通的商品硬件进行大数据处理。
  Hadoop还具有很高的可扩展性,可从单一服务器扩展到多个服务器农场,同时每个集群都能够运行自己的计算和存储。Hadoop为应用层提供了高可用性,由于集群硬件可以是现成的,所以它们能够实现节点轻松互换,从而提高成本收益。“云端化”发展趋势
  虽然早期使用者通常使用的是通过Apache发行版搭建的本地部署,但是目前企业开始逐步加大对云计算的使用。相比之下,自己动手DIY的方法无疑是繁琐和耗时的。
  随着产品上市时间在数字时代的重要性逐渐突显,越来越多的公司开始使用迅速崛起并被大量采用的Hadoop即服务(Haas)产品。
  从用户的角度来看,将云作为首选具有重大意义。规模化经济使得单位成本更加低廉,企业可以提高效率,减少资本支出,同时获得更大的灵活性。
  除了商业利益之外,云还开辟了一系列全新的数字用例,特别是在物联网环境下和需要实时数据处理的其他场景中。亚马逊网络服务的Elastic Map Reduce(EMR)即为该领域的开拓性产品之一。
  基本上所有的大型服务提供商都不约而同地在其产品组合中添加了基于云的Hadoop托管服务,而且Hadoop发行版厂商自己也在努力“云端化”他们的框架,其中Cloudera的Altus就是最新的例子之一。Altus允许用户利用MapReduce上的Hive或按需的Spark运行数据处理作业。市场发展前景
  在强大的云需求下,越来越多的公司选择了Hadoop即服务。HaaS本质上是一个平台即服务(PaaS)的子类别,它包括虚拟存储和计算资源以及基于Hadoop的处理与分析框架。服务提供商通常运维一个多租户HaaS环境,允许在共享基础设施上托管多个客户。
  据市场研究机构Allied Market称,随着越来越多的公司接受了“云优先”思维模式,预计到2020年,HaaS市场的收入将达到161亿美元;从2014年到2020年,复合年增长率(CAGR)将达到70.8%。从收入角度来看,北美地区仍然是领先的地区,其次分别是欧洲和亚太地区。
  预计到2020年,Haas的爆发将让本地部署的Hadoop的增长相形见绌。据市场研究机构IDC的研究显示,公有云部署已占全球业务分析软件市场的12%,预计其复合年增长率将达到25%。除了大型企业外,中小企业也在越来越多地选择HaaS以获得有可操作性的洞察力和创建以数据为中心的商业模式。
  考虑HaaS时需要关注的事项
  目前已经有了许多HaaS用例,同时也暴露出了一些缺点。将大量数据移动到云端可能会产生延迟问题并且需要额外的带宽。虽然只需点击几下即可方便地部署高度标准化的HaaS环境,但设计权限完全是由服务提供商自行决定。此外,云端上的数据会出现“引力场”并导致用户被厂商锁定。以下是评估HaaS提供商时还需要关注的事项:
  1.弹性
  Hadoop支持适用于各种工作负载的弹性集群,这在考虑基于云的部署时尤为重要。有哪些可用的计算和存储选项能够支持不同的用例?例如,哪些额外的“计算刀片”可用于高I/O工作负载?环境的可扩展性如何,以及调用额外资源(计算和存储)的难易程度如何?
  2.HDFS的持续使用
  尽管不需要将HDFS作为持久性数据存储,但在使用它们具有明显的好处。HDFS使用的是商用直接附加存储(DAS)并且分担了底层基础设施的成本。此外,HDFS可以无缝支持YARN和MapReduce,这使得其能够本地处理查询并充当数据仓库。
  3.计费
  服务提供商的基本价格指标是什么(按订单还是按消费进行计费)?如果能力未得到充分使用,退订服务的灵活性如何?最重要的是,要记住“数据湖”是在快速扩张的,那么价格水平将如何随着时间的推移而变化?
  4.高可用性
  实现“零中断”是一个微妙但却非常重要的问题。提供商的服务级协议和故障切换理念是什么?冗余是如何实现的?例如,提供商是否能够在不中断整個作业的情况下隔离并重新启动单台机器(又称“不间断运行”)?
  5.互操作性
  用例往往会随着时间的推移变得越来越复杂,那么将正在使用或计划使用的服务集成在一起的难易程度如何?它们支持哪些数据流和API,以及它们的文档文件完备程度如何?
  6.人才需求
  虽然与DIY相比,设置Haas环境所需的人力明显减少,但是Hadoop并没有完全实现“开箱即用”。虽然节点的运行只需点击几下鼠标,但是这只是在实际工作刚开始时如此。定制仍然需要花费时间和精力。
其他文献
6月8日,富士康工业互联网股份有限公司(股票简称“工业富联”)正式在上海证券交易所主板挂牌上市,以16.52元/股开盘,不久迅速上涨44.01%至19.83元/股,触及临时停牌“涨停线”。  这是中国工业互联网时代来临的一个标志性事件。就在工業富联上市前一天,工信部公布了《工业互联网发展行动计划(2018-2020年)》和《工业互联网专项工作组2018年工作计划》,目标是到2020年底初步建成工业
《纽约时报》首席技术官Nick Rockwell指出,虽然云计算让企业更加敏捷,但事件触发的计算能够降低成本,支持更高效的开发应用程序。欢迎来到无服务器时代。  云对很多企业来说是个福音,因为首席信息官们可以关掉服务器甚至关闭数据中心。在快速发展的市场上,首席信息官从各种供应商那里租用处理能力、存储和其他工具。但是一小部分IT领导正在寻找一种更有效的方式来租用计算能力。他们不必承担设计和管理云架构
“周界防御”的想法和服务器本身一样古老——一提起这个词,就让人联想起上锁的机房间里嗡嗡作响的ENIAC那么大的机器,而防火墙把它们与外部环境分隔开来。当然,您的实际情况不会是这样的——除非您为中央情报局工作。相反,您所保护的数据是在云中,在世界各地的笔记本电脑和手机上流入流出。当信息无处不在时,安全也必须如影随形,让那些还记得实体服务器的人甚至感觉不到还有防护周界的存在。  Keith Casey
即时恢复允许备份被直接访问以便快速恢复文件,同时还可以检查备份系统本身是否正常。  即时恢复的概念相对简单,即能够直接从虚拟机的备份中运行虚拟机,但是这种简单的概念却提供了无限的可能性。这也就解释了为什么它们被认为是备份和恢复领域多年来取得的最重要进步之一。  在即时恢复出现之前,所有恢复基本上都是相同的,都是从如何存储备份开始,即将备份存储在某种类型的容器或映像中。在商业备份和恢复软件出现之前,
现代的企业界最终将完全由人工智能来定义。  多年来,云计算一直被认为是有史以来最强大和最具颠覆性的力量。  云计算提供必要的工具集,在非常技术化的层面上支持数字演进,购买、构建和运行基础设施、平台和软件即服务。因此,云计算必须被视为基础,这是无须讨论的要求!  然而,对于IT和业务决策者来说,现在的自愿行动是采用人工智能(AI)。如果他们能够自动地收集、汇总、处理和利用企业知识以及周边环境的知识,
“我不喜欢跟用户大谈人工智能(AI)如何高深,更希望的是能在用户的不知不觉中帮他解决问题。”作出上述表述的是新近加入销售易的人工智能专家赵宇辰,而他出任的正是销售易的首席数据科学家一职。  有意思的是,赵宇辰曾经供职于LinkedIn,要知道,数据科学家的概念最早就是由LinkedIn提出的。  定位为新型移动CRM软件的销售易为什么会需要人工智能?是未雨绸缪?还是赶时髦?  AI在企业级业务中扮
为什么漏洞发现奖励制度正在兴起?  即便是准备最为充分的公司在应对网络安全挑战时也会感到气馁。正如道德黑客Jamie Woodruff在“活力数字未来”大会上所做演示时所言,“你最弱的员工决定了你的基础设施的强度。从入侵、破解到社交工程,公司中每名团队成员都属于需要管理的风险。”  安全测试公司CA Veracode的EMEA解决方案架构师经理Paul Farrington指出,《2017年软件安
美国零售、电子商务和营销专家预测未来网络零售最热门的发展趋势。  2016年的“黑色星期五”和“网络星期一”已经告诉我们, 2017年会是电子商务的好年景。因为,仅在美国,网上购物者在2016年“黑色星期五”进行的网络购物交易额就破纪录的高达33.4亿美元,而随后的周一则达到33.9亿美元,也打破了以前的记录。  除了提供无法抗拒的折扣之外,零售商还利用各种技术和应用程序,酝酿着各种方式的销售。分
管理比特币和其他加密货币运行的工作量证明(Proof of Work)算法已经被证明速度太慢并且成本过高。因此,开发人员正在考虑一种更快、更有效的算法:权益证明(Proof of Stake)。  区块链分布式账本的工作原理是,把电子记录链连接在一起,每一个都与之前的电子记录紧密相连;只有在完成共识过程后,才能添加一组新的条目或者“区块”,通过哈希标签加上时间戳。  用于验证区块链上的新条目和管理
根據工业和信息化部发布的最新数据显示,今年1~8月,我国规模以上互联网和相关服务企业(简称互联网企业)完成业务收入7522亿元,同比增长20.9%,增速同比提高0.2个百分点,比1~7月加快0.2个百分点。   1~8月,包括网络音乐和视频、网络游戏、新闻信息、网络阅读等信息服务收入规模达4958亿元,同比增长24.3%,增速较1~7月提高3.2个百分点,占互联网业务收入比重为65.9%;以提供