基于成本模型的Hadoop与Storm混合系统的研究

被引量 : 7次 | 上传用户:May-02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全世界已经进入到一个数据快速增长的时代。当前大数据方向的研究可以分为四类:离线计算、实时计算、流计算以及统一资源管理平台的研究。每种计算框架都仅仅适用于特定的领域,一旦需求范围超过自己擅长的领域,这些框架就难以满足要求了。例如,MapReduce善于进行批处理操作,任务吞吐量比较高,但是实时性不好,往往计算任务需要耗费几个小时甚至是几天的时间。同样地,流计算框架虽然能够快速响应用户事件,但是任务吞吐量又不够高。针对这些问题,本文提出的解决方案是将多框架融合到一个系统中,利用统一资源管理平台实现多框架的集成,通过统一查询接口对外提供服务。本文研究的内容就是在同一个系统中集成Hadoop和Storm两种不同的计算框架来提升整体的处理效率,具体方法就是实时数据和小规模数据通过Storm进行处理以求快速响应,而大规模历史数据使用Hadoop进行计算,增大系统吞吐量。本文对现有的混合型系统进行了深入的调研,大多数系统是在语言层面进行融合,将用户的查询语句转换为每个框架的实际执行任务。这些系统大多立足于屏蔽底层的实现细节,为用户提供统一的查询接口,方便熟悉SQL语言的数据分析人员使用。与这些系统相比,本文设计的架构具有两个新特性:1.设计框架自动选择算法,可以根据任务的特点选择合适的框架来执行该任务;2.可以控制Storm框架的数据来源,特别是为Storm设置了缓存表,能够一定程度上提升执行效率。本文原型系统的实现涵盖了语言处理层、资源调度层以及任务执行层三个方面,其中框架选择算法是在语言处理层中实现的。从对比测试的结果来看,数据量较小时查询操作执行时间与SummingBird on Storm持平,比SummingBird on Hadoop快20%-40%。数据量较大时混合系统数据吞吐量与SummingBird on Hadoop相当,比SummingBird on Storm多40%。本文设计的新型多框架混合系统架构有如下一些优势:整合多种计算框架,应用场景广泛;提供统一的查询语言,为用户屏蔽底层实现细节,便于用户使用;根据任务成本自动为任务匹配合适的计算框架,让混合系统变得更智能。
其他文献
<正>本届江苏国际服装节的一大特点就是突出了产业引领。在服装节开幕前一天,首次在全国范围内进行了四大指数的联合发布,这四大指数分别为:中国常熟男装指数、中国丝绸化纤
有一部美国电影,名叫《兵临城下》(Enemyat the Gates),又名《决战中的较量》,讲述的是第二次世界大战著名的斯大林格勒战役.有个情节,在斯大林格勒三分二的城市失守的危急关头
<正>江苏紫阳假日卧室用品有限公司产品的定位是季节性家纺产品,并且走的是中高端路线,由于差异化错位经营,紫阳家纺走出了一条与众不同的"商路"。该公司常务副总经理张宏兵
羟基肉桂酰基转移酶(hydroxycinnamoyl transferase,HCT)属于植物酰基转移酶家族的一个重要分支,具有“HXXXD”和“DFGWG”两个保守序列,以多种酰基辅酶A(肉桂酰辅酶A、对香
马克思农业生态思想是在欧洲农业革命的背景下,在批判吸收西方哲学自然观、安德森农业经济思想和马尔萨斯人口理论以及李比希农业化学思想的基础上逐渐形成和发展的。通过分
近些年来,随着国民经济持续高速发展,高等级公路的建设正以前所未有的发展速度向前推进,同时20世纪90年代全国各地修建的高等级公路的交通量先后达到饱和状态,需要加宽改造。此外
女性形象的建立从远古时代就已存在,但是在封建社会中那种以男权为主的时代,女性形象的剖析是无从下手的。自20世纪以来随着社会的变迁,关于女性文学的作品不断出现,而通过这
根据基于ARM处理器的数控系统的需要,通过对EP9315开发板的研究与实验,提出一种在ARM数控系统上实现PC/104总线的方案,用于读写运动控制卡。采用CPLD和VerilogHDL语言,描述了
“汤显祖研究书系”(江西高校出版社)集纳了《汤显祖与“临川四梦”》《汤显祖与罗汝芳》《汤显祖与蒋士铨》《汤显祖与莎士比亚》4部汤显祖研究的力作,从不同的角度对汤显祖的
报纸