论文部分内容阅读
云计算通过虚拟化和聚合等技术将大量服务器的计算力和存储资源整合在一起,形成一个庞大的资源池,并以服务的形式将计算力和存储能力对外输出。为了保证云计算平台所提供服务的质量和可靠性,需要对服务器底层的物理资源进行监控,以便即时掌握集群的运行状态和资源利用情况,并及时处理报警和故障,为管理人员提供可靠的监控反馈,辅助管理人员尽早做出相应的处理措施,为服务的正常运行提供有力的保障,因此,对于云计算集群监控系统的研究显得迫切而重要。
本文介绍了云计算技术的相关知识,并对其特性进行了研究,指出了云集群监控系统所应具备的功能和特点。研究表明,云集群监控系统不仅需要对云集群的单一节点进行详细的状态反馈,还需要利用节点间的高耦合性特点,从整体上对集群进行宏观监控,并在此基础上,通过对历史监控数据的分析,预测出集群的运动趋势,对未来将有可能发生的瓶颈和故障发出预警。此外,面对应用场景不同的云集群,监控系统还需要具有通用性,能够满足各种规模的集群应用。针对以上云集群的特性,本文提出了一种基于热力学相空间理论的云集群监控系统的设计方法,该方法通过将节点运行参数向相空间映射的方式,将节点参数的变化转换为相空间中投影点的运动,从而利用相空间图像实现对云集群的宏观监控,并通过监控系统的控制模块,实现对集群的宏观控制功能;该方法还将部分需要预测的监控参数进行保存,通过预测算法对历史数据进行计算,实现对集群未来运行趋势的预测;通过采用可变架构的方式,使监控系统适用于大小规模不一的集群。
基于相空间原理设计的云集群监控系统已在深汕云计算测试中心进行了测试,结果表明,该系统可以有效地反映出集群的整体工作状态,对集群进行宏观操作,并以一定的准确性提供预测结果。