一种基于MapReduce和pvfs的对接中间件的研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:speed5188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
应用的发展和技术的进步使传统的高性能计算和最初以互联网应用为载体的云计算的发展呈现出越来越相似的需求特性。一方面,伴随着高性能计算性能的不断提升和系统的日益庞大,传统的高性能计算在很多领域表现出计算密集和存储密集双重的特点,数据的存储和管理成为很多应用新的瓶颈,而互联网应用在最初的数据密集特点外,随着数据处理要求的不断提升,越来越表现出对计算性能的高度需求。两者在技术上的融合将会带来更为广阔的应用空间和解决问题的能力。事实上,云计算的很多技术热点其实是HPC多年技术积累的一个延伸,方法论上有很多相同的地方。在目前互联网+的时代下,云计算更多地融入到传统应用中,把传统的系统和互联网应用进行了整合,使得行业的应用和数据都能互联网化,这又带来了一个整合的契机,即把传统的数据管理和新的互联网的数据的融合并挖掘历史数据和新数据融合下的价值。因此,传统的数据组织管理模式和新的互联网下的数据组织管理模式也需要融合,并能在一个框架下为应用所用。  针对当前形势,本文针对高性能计算模式和云计算模式的融合,提出了一种基于云计算MapReduce计算引擎和高性能计算文件系统pvfs的对接中间件系统。对于此中间件,可以使MapReduce顺利的运行在高性能计算文件系统PVFS上,并能较大的提升MapReduce任务的执行效率。  在此中间件中,本文实现了JNI层函数体系,使MapReduce应用程序可以通过此JNI层准确的调用底层的PVFS的访问接口,实现MapReduce任务的顺利执行。而且针对PVFS和HDFS具体实现的不同机制,在JNI层添加了可控副本机制,既为PVFS添加了副本系统,使PVFS更好的适应云计算模式,又充分的利用了pvfs的数据分布策略,实现了副本存放过程的负载均衡,使整个系统流畅和高速的运转。整个中间件完成后,整个分布式系统的处理能力较之前提高了15%-25%的性能,处理速度有了较大进展。
其他文献
相对于传统的电话技术,VoIP在承载技术和体系结构上是一次革命性的改进,VoIP是利用分组交换技术通过IP网(Internet Protocol)承载和传送语音数据。从广义上来讲,VoIP已经成为
聚类分析是数据挖掘的一个非常活跃的研究方向。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型,聚类的目的和应用。迄今为止,主要的聚类算法可以划分为如下几类:1
频繁场景挖掘是一种对序列模式挖掘的扩展,它特指从一条单一的事件序列中识别频繁出现的有序的事件集合。频繁场景挖掘技术已经得到广泛的研究,并在多个应用领域取得了良好的效
学位
本文根据目前国内外办公自动化系统建设的现状,提出了解决办公自动化领域中普遍问题的综合解决方案,对其功能模型进行了综合分析,并用Microsoft.Net平台实现,最终设计出了一套实
随着多跳无线网络各种应用的迅速发展,人们对服务质量的要求越来越高,要求多跳无线网络既能满足非实时应用如高吞吐量、低时延以及低能耗等方面的服务质量需求,又能为实时应用提
在Internet上提供大规模的VoD(Video on Demand)服务是一项具有挑战性的工作。传统的视频流播放方式是基于Client/Server(C/S)集中式网络模式,面临网络带宽受限的问题,表现在媒体
互联网是人们发布信息和获取知识的重要平台,随着冗余信息和垃圾信息的急剧增加,快速准确地获取需要的知识成为客观需求。在此背景下,知识图谱、问答系统等基于命名实体知识库的
随着P2P系统在网络领域的快速发展,越来越多的问题开始困扰运营商和终端用户.其中带宽占用过大,资源定位效率低下显得尤为突出.为了在大规模:P2P系统中缓解这些状况,P2P系统
CAD系统是一种用户交互性非常强的系统,用户输入事件驱动着系统中各种功能的执行,是一种典型的事件驱动的系统。CAD系统的用户交互子系统构成了整个系统的基础,系统的其他功能都