论文部分内容阅读
本课题是中国科学院网络信息中心超级计算中心自研项目“高性能科学计算环境SCE”的一个重要组成部分。在高性能计算环境中,通过对资源状态、网络连接状态、应用程序运行状态的监控与分析,对于网格中间件管理各种网格资源和提高网格应用的性能至关重要。本文围绕着资源监控,所做的工作如下:
1)分析高性能计算环境中应用资源的特点,对应用资源进行分类,在信息模型GLUE的基础上,增加对应用资源描述的支持,建立专门针对应用资源的描述模型,与GLUE中原有的计算资源模型和存储资源模型集成起来,形成集计算资源描述模型、存储资源描述模型和应用资源描述模型于一体的网格资源描述模型GLUE+。
2)基于GLUE+模型,设计并实现了应用资源监控系统。深入研究应用资源的特点,在GLUE+模型的基础之上确定应用监控指标;结合中间件SCE数据传递的实现机制,设计应用监控数据的采集流程,采用统一的方式对应用资源信息进行获取;基于Portlet和Ajax技术,采用dojo画图工具对应用监控数据进行绘图,实现了监控数据的图表化展示。
3)基于Ganglia和MySQL设计并实现了节点资源监控系统。着重研究了如何基于Ganglia获取节点资源监控数据,并研究了RRD数据库存储数据的机制,设计并实现了节点监控数据的获取流程,以及对监控历史数据的处理,用MySQL实现了监控历史数据的存储,最终采用dojo的画图工具用图表的方式展示监控数据。