论文部分内容阅读
随着海量数据的爆炸增长,越来越多种类的分布式平台开始被应用到大规模集群中。同时,随着一站式大数据平台被大规模的商业应用,分布式平台在复杂集群环境下的不稳定性也逐渐凸显。出于经济效益的考虑,在企业实际生产环境中,服务器集群内所有节点往往不能拥有相同的软件和硬件设备,这种配置的差异性不仅会带来个别节点资源的闲置浪费,更会对服务器集群的正常运作和资源调度造成干扰。同时集群内部的网络通信状况也会对服务器集群的稳定性有一定影响。这些干扰已经成为了分布式平台大规模商用化的重要阻碍,如何快速诊断这些故障源成为当前亟待解决的问题。为了快速诊断影响分布式平台运行的故障,本文设计了一个基于Akka的分布式运维系统。该系统通过分布式设计可实现节点运行故障的并行检测,帮助用户解决问题。首先,本文从用户需求角度出发,对用户进行了需求分析,得到系统的功能需求和性能需求。然后,分别介绍了分布式运维系统的总体功能结构和框架,包括检测模块、用户接口模块和管理模块三大模块。其中,检测模块负责执行运维系统相应检测功能,包括网络环境检测、平台环境检测和系统环境检测。用户接口模块提供了系统与用户的交互方式,包括界面接口和脚本接口。管理模块是整个系统的控制中心,管理集群内节点信息、命令协议以及任务运行等,采用高可靠性的Akka通信技术搭建Master/Slave(M/S)架构管理集群内所有节点。最后,设计并实现了分布式运维系统,该系统根据用户的输入,执行相应的检测或查询,并将最终结果展示给用户。测试结果说明了分布式运维系统功能的有效性和性能的稳定性。