Hadoop类应用的通信流量建模及性能评价

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:playboy200000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,传统数据中心逐渐服务越来越多样性的业务,如高性能应用、大数据应用及互联网应用等等。面对多样性应用的具有巨大差异的通信需求,传统数据中心在单一的网络架构下,网络只能在成本、功耗剧增的同时保有极低的网络利用率。因此,面向应用通信特征构建网络架构是当前数据中心发展的必然需求,为满足这种需求,必须具有一种快速提取应用通信特征的方法。除此之外,对大数据处理平台的开发者及使用者来说,反馈平台相关的应用执行性能以便调整参数配置及优化任务部署也是一个非常迫切的需求,为满足这种需求,必须设计一种性能评价打分机制。  面对上述两种需求,本文选取主流大数据处理平台Hadoop,及与其有相应执行流程的图计算类应用,提出了相应的通信流量建模方法,设计并实现了平台相关的应用性能评价机制。  针对所选的平台及应用,本文深入研究了Hadoop各阶段的执行过程及通信模式,详细分析了PageRank、K-Means及NutchIndexing这三种图计算类应用的流程细节,重点针对真实通信流量获取和建模方法、应用性能评价机制开展研究,为未来的应用部署提供指导。  其中,针对获取真实通信流量的问题,本文比对选用了两种流量获取工具,插桩验证了三处通信流量发生点,提出了阶段时间模型;针对真实阶段流量数据提出了基于函数拟合的流量建模方法,并进一步采用真实阶段流量数据与通信流程相结合的方式,提出了事件驱动的流量建模方法。本文基于上述方法实现了面向Hadoop应用的流量发生器,并在github.org开源。  此外,针对应用性能评价机制的设计问题,本文从HDFS与Hadoop MapReduce两个方面,静态参数及动态性能两个维度,设计了一套打分项(影响因子)选取原则,并结合打分项对整体性能的影响给出了一套打分项权值迭代优化方案。  综上所述,首先,本文通过对Hadoop及三种图计算类应用的流程分析,结合所提出的流量获取和分析方法,提炼出两种流量建模方法,分别得到了相似度为87%及83%的流量模型,为Hadoop平台网络架构的研究提供了快速获取流量特征的方法。其次,通过对Hadoop执行流程的深入研究,提出了一套覆盖HDFS与Hadoop的性能评价打分机制,通过该机制的得分,可以快速找出应用性能的影响因子,从而有效的指导调整参数配置及优化任务部署。
其他文献
故障诊断技术是保证数控机床安全可靠运行、提高用户服务质量的重要手段之一。国内外相关研究机构在数控机床故障诊断方面展开了广泛的研究,在数控系统自诊断和PLC技术等方面
矿区的有效监管是保证矿产资源有序开采的首要条件,而传统的人为监管的方法并不能确保监管的有效性,为此在矿区的监管中引入了智能监控。本文通过分析矿区监管的特点和违法的形
五轴数控加工经常用来加工各种复杂零件来提高加工精度和加工效率。刀轴矢量控制技术是影响五轴加工效果的一个关键因素,直接影响零件加工效率、加工精度和表面粗糙度。利用两
近年来,统计机器翻译已成为了自然语言处理领域最受关注的研究热点。机器翻译能够方便不同民族、不同国度的人之间进行沟通交流,有着广大的应用前景。然而,自动生成满足人们需求
当前,互联网方兴未艾,计算机网络不仅成为人们工作与生活中不可缺少的一部分,而且对企业的管理与经营有着重大的影响,企业的信息化水平也成为衡量一个企业是否优秀的标准之一
目前,随着我国经济的快速发展,各类危及国家和人民群众生命财产安全的突发性事故时有发生。高度重视和切实抓好安全生产工作,是最广大人民根本利益的必然要求,也是构建社会主义和
近年来,移动通信网络迅猛发展,网络优化的作用也变得越发重要。随着信息科技的快速发展,用来帮助网络优化工程师进行网络性能评估和故障分析的网络优化系统软件孕育而生。但
应急救援模拟演练系统是在虚拟空间中仿真各种事故的发生、发展的过程,以及人们在事故环境中可能做出的各种反应。  研究室设计和研发的应急救援模拟演练系统,是为了解决沈阳
视频监控系统是一种综合性的安防监控系统。视频监控系统,监控直观,蕴含信息丰富,因此被广泛应用于银行,超市,交通系统等诸多场合。随着我国城市化建设工作的不断推进,居民生活水平
近些年来无线传感器网络的发展,促进了物联网概念的提出。物联网能够依靠传感器、RFID、红外等技术,拓展人们的感知范围,让人们的生活、工作更加便利和智能化。煤矿生产有其自身