论文部分内容阅读
应用的发展和技术的进步使传统的高性能计算和最初以互联网应用为载体的云计算的发展呈现出越来越相似的需求特性。一方面,伴随着高性能计算性能的不断提升和系统的日益庞大,传统的高性能计算在很多领域表现出计算密集和存储密集双重的特点,数据的存储和管理成为很多应用新的瓶颈,而互联网应用在最初的数据密集特点外,随着数据处理要求的不断提升,越来越表现出对计算性能的高度需求。两者在技术上的融合将会带来更为广阔的应用空间和解决问题的能力。事实上,云计算的很多技术热点其实是HPC多年技术积累的一个延伸,方法论上有很多相同的地方。在目前互联网+的时代下,云计算更多地融入到传统应用中,把传统的系统和互联网应用进行了整合,使得行业的应用和数据都能互联网化,这又带来了一个整合的契机,即把传统的数据管理和新的互联网的数据的融合并挖掘历史数据和新数据融合下的价值。因此,传统的数据组织管理模式和新的互联网下的数据组织管理模式也需要融合,并能在一个框架下为应用所用。 针对当前形势,本文针对高性能计算模式和云计算模式的融合,提出了一种基于云计算MapReduce计算引擎和高性能计算文件系统pvfs的对接中间件系统。对于此中间件,可以使MapReduce顺利的运行在高性能计算文件系统PVFS上,并能较大的提升MapReduce任务的执行效率。 在此中间件中,本文实现了JNI层函数体系,使MapReduce应用程序可以通过此JNI层准确的调用底层的PVFS的访问接口,实现MapReduce任务的顺利执行。而且针对PVFS和HDFS具体实现的不同机制,在JNI层添加了可控副本机制,既为PVFS添加了副本系统,使PVFS更好的适应云计算模式,又充分的利用了pvfs的数据分布策略,实现了副本存放过程的负载均衡,使整个系统流畅和高速的运转。整个中间件完成后,整个分布式系统的处理能力较之前提高了15%-25%的性能,处理速度有了较大进展。