论文部分内容阅读
集群技术是当今高性能并行计算机系统中的一个研究热点,集群技术在应用中不仅可以缩短系统的响应时间,而且还可以提高系统的可用性、可靠性和可扩展性。监控系统是集群管理的核心,监控系统得到的数据可以用于负载均衡、任务调度和相应服务的调整,及时通知管理员有关硬件方面的故障或软件的失效,以便保证集群的可靠性。对于集群来说,除了要实时地监控集群中各个节点的运行状况,还要跟踪系统中的实时任务,并对系统中的突发事件做出及时、恰当的处理。 首先,讨论了集群的信息处理流程、系统结构和特点,在此基础之上,给出了集群的体系结构,并对操作系统、同步和容错等几个关键问题进行了分析。 其次,根据集群的体系结构和特点,分析了集群的监控系统的体系结构、系统性能评估方法以及决策响应机制,并对监控系统的信息获取、干扰消除、事件关联和故障排除等问题进行了深入的讨论。在集群中,集群的节点数目并不是固定的,应该根据实际情况增加和减少,集群中的各个节点可能会由于硬件、软件,网络等方面的原因出现不同的故障或各种各样的错误,因此需要对集群进行实时的监控管理,以便方便的添加、删除节点,更改节点属性,对出现的故障和错误,通过设计的冗余方案,进行及时地恢复,以便达到实时系统要求的高可靠性。根据集群对监控系统的特殊要求,并在前一章研究的基础上,设计一个对集群干扰小、效率高、可扩展、可伸缩的集群监控系统。 最后,对于监控体系而言,结构是个整体方案,在此基础之上可以部署监控的各个功能区,各个功能区可以在一起,也可以独立完成一种后几种功能,重要的是如何无缝的集成在一起,对于整个体系而言,集群监控,任务均衡,还有其他一些数据业务功能等,这几部分功能如何通过一种或几种方案来实现。本章以下内容将对具体功能方案作一讨论。 关于LVS,目前比较流行的负载均衡结构,本文以此为例,讨论结构层次的均衡机制,对于结构业务的关系进行探讨。LVS的抽象体系结构分为三个层次。第一层是负载均衡器,这是集群的唯一入口。从客户端的角度看,集群通过这层的服务体现为一个基于IP地址的单一系统映像(SSI),整个集群共用这个虚拟地址,通过它客户端可以把整个集群看作一个独立的具有合法IP地址的主机系统,客户端的所有访问都发往这个虚拟IP地址。本文关于这一特点进行进一步分析。 一般来说,“负载均衡”要达到的目标是使各台计算机之间的负载基本平衡,而“负载共享”意味着只是简单的负载的重新分配。如果说负载转发技术为集群系统提供了负载共享的基础,那么负载均衡策略则给集群提供了负载均衡的能力。负载均衡策略有时也