论文部分内容阅读
随着高性能计算应用(HPC)的复杂化和大型化,高性能计算机系统(HPCS)的硬件规模、节点数量也呈直线上升趋势。优秀的监控软件可以准确地了解HPCS中所有资源的当前状态和使用状况,协助进行资源的分配和调度,预测和定位潜在的故障,提高HPCS的运行效率、可靠性可用性。本文旨在研究HPCS监控系统的实现和改进技术,重点设计了一个全面高效的HPCS监控体系Clumon+,并在超级计算中心联想深腾6800实现了应用程序监控,同时收集系统的性能、作业信息等并以Web方式显示,来指导系统管理工作,提高系统资源的利用率,保障点资源长期稳定、可靠、高效地对外提供计算服务,从而建立良好的面向科学研究的超级计算服务环境。主要工作包括:
⑴对大量现有的高性能系统监控软,如Ganglia、Supermon、Clumon、Parmon、Hawkeye、Lemon的功能、性能、体系结构、效率等参数进行比较研究和分析,总结出了许多重要HPCS监控技术,如性能、系统、应用程序、进程监控的区别和统一,以及监控实现过程中的数据收集、合并、显示阶段的先进方法和工具。
⑵提出全面高效的监控系统这一设想,并测试比较了两种应用程序监控策略Ganglia+Ganglia Job Monarch和Clumon,提出集性能、应用程序、系统、进程一体的监控策略,设计了一种可以以便利的方式查看LSF和OpenPBS作业管理系统中作业、队列及节点作业分配等信息的理想化全面的监控软件Clumon+。
⑶针对深腾6800目前监控功能和性能需求,用perl和shell分别设计实现了Bmonitor-lsf、my_bhosts、my_lsload和my_bqueues脚本程序,实现了基于LSF的应用程序监控,并把监控结果用html页面显示出来。并在稳定性、监控参数显示方式、响应速度、更新方式、占用资源及操作便利性方面进行了比较分析。
⑷考虑到HPCS监控软件本身的资源消耗,文章对如何提高监控程序的运行效率进行研究测试,提出一系列减少监控数据的收集及增加传输速度的方法。