论文部分内容阅读
网格计算为许多需要处理海量数据的大型科学实验提供了较为理想的计算模式和支持环境。然而,目前网格中仍然存在许多需要解决的问题:
在网格中间件层面上,由于网格环境下资源的动态特性使得信息系统无法维护全部资源的实时信息,传统的“推”模式的作业调度方式遇到了挑战,常常会将作业调度到已经改变甚至失效的资源上。而应用层面上,海量数据的处理,需要提交大量的处理作业,针对这些作业的提交、查询、管理和监控,通用的命令行方式的网格用户接口显然难以满足要求。
另外,如何提高海量数据的处理速度也是一个十分重要的课题。
基于以上背景,本文研究开发了一个基于网格环境的海量数据处理系统——DISCOVERER,来弥补上述不足:
-采用Agent技术和“推拉”结合的方式进行网格作业调度,该策略可以与现有的网格资源有机地结合起来,有效地弥补原有调度系统的难以适应网格资源动态特性的不足。
-实现了高效的图形界面的作业管理系统,解决了大批量作业的自动提交、管理和监控的问题,有效地提高大批量作业运行的成功率。
-实现了基于DNS的动态负载均衡系统,解决了大量作业提交和大量用户访问对网格用户接口产生的负载失衡问题。
-以DISCOVERER为基础,采用MPI技术并行处理海量数据,提高大数据集的分析速度。