论文部分内容阅读
集群监控管理作为云计算时代的热点问题之一,受到了国际众多企业的广泛关注它能有效地解决企业在云计算道路中所面临的监控管理问题。集群监控管理系统的设计专门用于帮助用户监控、报告高性能计算工作负载状况并对相关数据进行深入分析。本文围绕具体的应用需求,设计开发了一个面向企业的集群监控管理系统,并对系统实现的一些关键技术进行了研究。完成的主要工作包括:1)系统分析与设计。以解决企业当前使用云计算平台(LSF)引起的集群实时监控管理难的具体问题为出发点,围绕LSF平台的实际应用需求,结合Cacti实时绘图功能的特点,通过"Grid Data Pollers"与"Advocate"连接LSF与Cacti,设计了面向企业系统管理员的集群监控管理系统的整体架构,并对架构的各层进行了详细的分析与设计。2)系统核心Cacti与底层LSF的架构分析与研究。集群监控管理系统以功能强大且可扩展的开源Cacti图形化架构为核心,以LSF系统为底层,完成对集群的监控和管理。Cacti是使用snmp来采集数据,然后调用RRDtool来绘制出图形。LSF的核心架构是建立在LSF集群和LSF核心进程之上,通过一系列核心进程,完成LSF系统对LSF集群中队列、作业、任务的监控和管理。3) Grid Data Polle、Advocate的设计与实现。Grid Data Pollers是集群监控管理系统从LSF获取数据的唯一模块。其具有实时调用LSF API的功能,并且具有与Cacti通信的能力,把拿到的数据转换成RRDtool需要的格式发给RRDtool,使RRDtool能够生成集群实时的图表。Advocate是把系统上层Cacti命令下发给集群来执行的进程。4)数据存储与查询优化技术研究。Grid Data Pollers拿到的数据需要存储在数据库中,因为这些数据的量非常庞大,所以在设计数据库时必须在保证数据库的各种性能,避免运行数据库运行一段时间后由于记录数量庞大而降低运行速度的情况发生5)系统实现。采用开源软件Cacti为系统核心,通过Grid Data Pollers与Advocate连接集群、Cacti与数据库,实现集群监控管理系统。