论文部分内容阅读
网络告警管理作为网络运维中的重要任务,可以对网络中发生的告警进行全面有效地管控,对提升网络服务质量有着重大意义。然而随着网络规模的扩大,环境中的网络设备越来越多,设备产生的告警也随之增多,这对网络运维系统中的告警管理能力提出了新的挑战。传统的网络运维系统仅有简单的告警管理功能,适合小规模告警量需求,在当前海量告警下的网络环境中主要存在以下三个问题:一是告警采集能力不足,传统的告警采集技术通过轮询采集告警信息,不能适应大规模告警的需求,在大规模网络中会造成告警采集拥塞;二是根据告警信息定位故障的能力不足,传统的故障定位技术依赖告警关联规则库,同时还需要运维人员的经验支撑,在海量告警下对故障定位的效果不佳,无法应对大规模告警下快速定位并解决故障的需求;三是对告警的分析不足,传统系统仅对告警信息进行时间维度上的展示,辅以告警关联性分析,并没有对全局告警数据进行统计分析,运维人员无法通过告警信息进一步了解网络环境信息。在此背景下,本文针对以上问题设计并实现了一套网络运维系统告警管理子系统。主要工作如下:1.针对告警采集能力不足的问题,本子系统设计并实现了一个告警信息采集器,该采集器基于Kafka消息队列实现,避免了告警平台的数据库查询操作,面对告警风暴也能及时完成告警信息采集,具有低延迟性、高吞吐量的优点,有效解决了海量告警下传统告警采集易拥塞的问题。2.针对故障定位能力不足的问题,本子系统提出了一种基于网络告警聚类技术的故障定位方法,该方法以网络设备产生的网络告警信息为输入,通过告警信息在时间、空间、文本三个维度上的相似度确定告警关联度并进行告警聚类,并辅以根因分析生成故障。该方法基于历史告警生成聚类模型,无需依赖规则库,故障定位能力强,准确度高,有效提高了海量告警下系统的故障定位能力。3.针对告警分析能力不足的问题,本子系统提供了一种多维度的告警分析方式,通过告警级别、内容、频率等指标展现全局告警概要,帮助运维人员快速了解网络运行情况,有利于发现潜在的网络隐患。4.为了使得运维人员更加直观地了解故障详情,本子系统还设计并实现了故障管理模块,完成了系统生成故障的持久化,并提供了多种条件的故障查询。同时为了帮助运维人员快速理解故障,本模块还通过故障传播图重现故障在网络中的传播流程。目前本系统在全国部分省份运营商的多家网点上线并投入使用,为提升故障的感知精度和定位准确性,减少故障影响时间,提升网络质量提供了有效帮助。