论文部分内容阅读
目前,石油地震资料处理领域的计算机设备正从大型并行计算机向PCCLUSTER转移,虽然PCCLUSTER具有很高的性价比,但毕竟应用时间短,在许多技术方面还不够成熟,尤其在性能监控方面,其使用的方法还比较原始。在单台计算机上系统性能监控功能比较完善,但是对于包含成百上千节点的PCCLUSTER系统,系统性能监控方式发生了根本的变化,正因为没有一个能够应用与PCCLUSTER性能监控方法,许多PCCLUSTER系统处于一种“黑匣子”运行状态,用户不能及时了解PCCLUSTER的运行状况,管理员很难发现性能瓶颈,因此有必要对PCCLUSTER性能监控方法进行深入研究,从而提高PCCLUSTER的运行效率,分析系统性能瓶颈,同时也可以让用户及时了解PCCLUSTER的资源使用状况以合理安排资源。
PCCLUSTER系统是由数量众多的计算机、网络交换机及连接、海量磁盘等构成,PCCLUSTER整体出错的概率大大提高,因此,监视系统必须快速判断错误以便迅速修复或隔离。同时PCCLUSTER系统一个规模不断扩充的系统,性能监视系统必须能够适应规模扩大的变化。尤其重要的是,在大规模PCCLUSTER上,性能监控应该保证非常低的资源消耗,不至于使性能监控工具成为影响系统性能的来源。最后,性能监控系统应该能够直观的显示整个PCCLUSTER运行状况以便用户或管理员理解系统的活动。正因为这些原因,分布式的大规模PCCLUSTER系统在性能监控方法上发生了质的变化,所以有必要设计新的基于PCCLUSTER的性能监控方法,这也是PCCLUSTER实际生产的需要。一个好的、实用的PCCLUSTER系统在性能监控方法将会提高PCCLUSTER系统的普及。本文阐述了PCCLUSTER系统系统性能监控系统的5个设计目标:低负载、低带宽、高稳定性、扩展性和可扩性,以及针对这5个设计目标带来的一些关键点的设计如网络传输、数据的存储等方面的详细设计。
Quick系统监控系统正是基于以上目标设计的一个PCCLUSTER系统在性能监控系统。它包含两个常驻程序:采集传输模块(qkanent)和收集存储模块(qkserver),一个数据实时显示和分析模块,一个数据接口模块。每个模块只完成一个功能,模块之间的联系通过数据流进行,数据流可以通过建立网络连接、读写内存和磁盘进行。每个被监控节点上运行qkagant模块用来来采集、传输本节点的性能信息,在一个PCCLUSTER上有一个或多个节点运行qkserver来收集、保存各计算节点传来的性能信息。Qkagant模块只完成一个功能,将采集的性能信息的通过网络传输给qkserver模块,qkserver模块将qkagant传来的数据保存在内存和磁盘中功能,实时显示模块和数据接口模块只读取内存中的数据,分别显示实时性能图形与输出XML格式数据,历史统计与分析模块只读取磁盘中的数据。
最后,本文论述了如何利用实际地震资料处理PCCLUSTER系统对Quick监控系统作一些量化的分析。主要测试分析了Quick监控系统在3个不同的PCCLUSTER地震资料处理系统上的的负载和扩充性数据。表明Quick监控系统效率高、节点负载小、网络带宽低,同时由于采用模块化设计,程序稳定,适合PCCLUSTER地震资料处理环境。