基于Kafka的大规模流数据分布式缓存与分析平台

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ghw0531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术与互联网应用的不断发展,全球数据总量也在呈现爆炸式的增长,大数据时代即将来临。这将不仅为科学研究领域带来巨大变革,也将深远地影响到未来我们生活的方方面面。现阶段,在大数据分析与计算领域,由于分布式集群架构低成本、高计算能力、良好的可扩展性等特点获得了越来越广泛的应用。于此同时,分布式集群架构中所计算和分析的数据结构也越来越多样化。近年电子商务、物联网,互联网金融等领域的应用不断发展,在多数分布式集群中同时存在着监控端传输的动态流数据和系统生成的运行时日志文件。这种情况下,由于不同特点的数据所适合分析算法和计算方式也有所不同,例如流数据处理过程关于实时性和拓扑结构多样性的要求,大规模数据批量处理过程中的系统吞吐量和资源利用率的要求。而现有的主流分布式集群系统通常只适合对一种特定的数据进行分析,例如Hadoop[19][21]、Storm[22]以及S4[23]等,而无法适应多种类型数据结构并存情况。本文创新性的提出了基于kafka的大规模流数据分布式缓存与分析平台。该平台的设计目标是组织和缓存系统输入的大规模流数据。并分别设计在线流数据处理和离线批处理多种方式的处理单元,依据不同数据类型选择合适的方式进行分析运算。总结该缓存与分析平台的特点,主要分为以下几个方面:(1)采用分布式消息系统作为大规模流数据的缓存,提高了平台对动态流数据输入数据量突发性变化的适应能力。(2)设计并实现在线实时处理单元及离线批处理单元,分别处理集群中不同特点的数据,以满足不同类型的数据对计算实时性和系统吞吐量不同方面的需求。(3)整个平台采用集中式的管理方式,不同模块、不同处理单元中的节点信息统一同步到管理模块,以实现平台节点信息的全局一致性。本文详细介绍了平台的总体架构设计,将系统分为三个部分,分别实现缓存订阅、在线实时处理以及系统管理等功能。并基于此设计实现了基于kafka的大规模流数据分布式缓存与分析平台模型。最后验证了平台的可用性,可扩展性及高效性等特点。本文希望能通过该平台的设计与实现过程,给分布式计算集群的搭建和大规模流数据处理过程提供新的思路和方法。也希望能够通过进一步的努力,不断完善平台模型,将该平台用于实际生活、生产、以及研究过程中。
其他文献
目的评价健身气功八段锦对慢性阻塞性肺病(COPD)稳定期患者急性加重的再入院情况(1年内入院次数、再入院治疗平均天数)以及对肺功能指标FEV1(%)、FEV1/FVC(%)的影响。方法将C
时报讯(记者 颜金梅)自2014年以来,海东市不断加大对渣土车的管制力度,各县(区)交警、城管、交通、城建等部门联手,严查渣土运输车辆未密封、抛、洒、漏现象,让违规渣土车“难上路”
报纸
<正>随着军事斗争准备的不断深入,将有更多的新装备投入研制、生产。在这种情况下,如何紧跟形势发展,把好装备质量关,完成质量监督、检验验收和尽快使交付部队的装备形成战斗
目的探讨主动脉夹层患者的神经系统损害表现,为早期诊断并治疗提供临床思路。方法对我院2008年1月~2011年5月收治的主动脉夹层合并神经系统损害患者12例的临床资料进行回顾性
由于易磨性差、活性低以及存在f-CaO而导致的安定性不良等问题,钢渣资源化利用是目前钢铁工业亟需解决的问题。针对钢渣应用所存在的问题,本文开展以钢渣作骨料,以矿粉-粉煤
目的 观察肾康注射液联合百令胶囊治疗急性期COPD并发肾损害的临床效果.方法 2008~2011年,选择我科(呼吸,肾内)COPD合并肾损害(蛋白尿和/或急性肾衰竭)50例患者为研究对象,随机分
目的探讨盐酸坦索罗辛(哈乐)预防肛肠外科手术后早期泌尿功能障碍的临床价值。方法研究组于木前1d开始至术后3d口服哈乐0.2mg,1次/d;对照组给予安慰剂口服。比较2组的尿潴留发生率