论文部分内容阅读
随着大数据时代的来临,传统数据中心逐渐服务越来越多样性的业务,如高性能应用、大数据应用及互联网应用等等。面对多样性应用的具有巨大差异的通信需求,传统数据中心在单一的网络架构下,网络只能在成本、功耗剧增的同时保有极低的网络利用率。因此,面向应用通信特征构建网络架构是当前数据中心发展的必然需求,为满足这种需求,必须具有一种快速提取应用通信特征的方法。除此之外,对大数据处理平台的开发者及使用者来说,反馈平台相关的应用执行性能以便调整参数配置及优化任务部署也是一个非常迫切的需求,为满足这种需求,必须设计一种性能评价打分机制。 面对上述两种需求,本文选取主流大数据处理平台Hadoop,及与其有相应执行流程的图计算类应用,提出了相应的通信流量建模方法,设计并实现了平台相关的应用性能评价机制。 针对所选的平台及应用,本文深入研究了Hadoop各阶段的执行过程及通信模式,详细分析了PageRank、K-Means及NutchIndexing这三种图计算类应用的流程细节,重点针对真实通信流量获取和建模方法、应用性能评价机制开展研究,为未来的应用部署提供指导。 其中,针对获取真实通信流量的问题,本文比对选用了两种流量获取工具,插桩验证了三处通信流量发生点,提出了阶段时间模型;针对真实阶段流量数据提出了基于函数拟合的流量建模方法,并进一步采用真实阶段流量数据与通信流程相结合的方式,提出了事件驱动的流量建模方法。本文基于上述方法实现了面向Hadoop应用的流量发生器,并在github.org开源。 此外,针对应用性能评价机制的设计问题,本文从HDFS与Hadoop MapReduce两个方面,静态参数及动态性能两个维度,设计了一套打分项(影响因子)选取原则,并结合打分项对整体性能的影响给出了一套打分项权值迭代优化方案。 综上所述,首先,本文通过对Hadoop及三种图计算类应用的流程分析,结合所提出的流量获取和分析方法,提炼出两种流量建模方法,分别得到了相似度为87%及83%的流量模型,为Hadoop平台网络架构的研究提供了快速获取流量特征的方法。其次,通过对Hadoop执行流程的深入研究,提出了一套覆盖HDFS与Hadoop的性能评价打分机制,通过该机制的得分,可以快速找出应用性能的影响因子,从而有效的指导调整参数配置及优化任务部署。