网络运维系统告警管理子系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:hn_hcg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络告警管理作为网络运维中的重要任务,可以对网络中发生的告警进行全面有效地管控,对提升网络服务质量有着重大意义。然而随着网络规模的扩大,环境中的网络设备越来越多,设备产生的告警也随之增多,这对网络运维系统中的告警管理能力提出了新的挑战。传统的网络运维系统仅有简单的告警管理功能,适合小规模告警量需求,在当前海量告警下的网络环境中主要存在以下三个问题:一是告警采集能力不足,传统的告警采集技术通过轮询采集告警信息,不能适应大规模告警的需求,在大规模网络中会造成告警采集拥塞;二是根据告警信息定位故障的能力不足,传统的故障定位技术依赖告警关联规则库,同时还需要运维人员的经验支撑,在海量告警下对故障定位的效果不佳,无法应对大规模告警下快速定位并解决故障的需求;三是对告警的分析不足,传统系统仅对告警信息进行时间维度上的展示,辅以告警关联性分析,并没有对全局告警数据进行统计分析,运维人员无法通过告警信息进一步了解网络环境信息。在此背景下,本文针对以上问题设计并实现了一套网络运维系统告警管理子系统。主要工作如下:1.针对告警采集能力不足的问题,本子系统设计并实现了一个告警信息采集器,该采集器基于Kafka消息队列实现,避免了告警平台的数据库查询操作,面对告警风暴也能及时完成告警信息采集,具有低延迟性、高吞吐量的优点,有效解决了海量告警下传统告警采集易拥塞的问题。2.针对故障定位能力不足的问题,本子系统提出了一种基于网络告警聚类技术的故障定位方法,该方法以网络设备产生的网络告警信息为输入,通过告警信息在时间、空间、文本三个维度上的相似度确定告警关联度并进行告警聚类,并辅以根因分析生成故障。该方法基于历史告警生成聚类模型,无需依赖规则库,故障定位能力强,准确度高,有效提高了海量告警下系统的故障定位能力。3.针对告警分析能力不足的问题,本子系统提供了一种多维度的告警分析方式,通过告警级别、内容、频率等指标展现全局告警概要,帮助运维人员快速了解网络运行情况,有利于发现潜在的网络隐患。4.为了使得运维人员更加直观地了解故障详情,本子系统还设计并实现了故障管理模块,完成了系统生成故障的持久化,并提供了多种条件的故障查询。同时为了帮助运维人员快速理解故障,本模块还通过故障传播图重现故障在网络中的传播流程。目前本系统在全国部分省份运营商的多家网点上线并投入使用,为提升故障的感知精度和定位准确性,减少故障影响时间,提升网络质量提供了有效帮助。
其他文献
随着城市化进程加快,以轨道交通为主,公交车、共享出行方式、停车换乘等为辅的城市交通网络,成为缓解交通拥堵问题的重要形式。而接驳问题是制约地铁出行效率的重难点,影响乘客的使用意愿和体验。探究出行者选择接驳方式的决策过程,有助于政府和轨道交通运营者理解影响乘客接驳方式选择的因素及其行为特征,为运营管理提供理论支持。首先,本文通过RP调研,调查出行者在实际生活中选择接驳方式的过程,发现在面临多种接驳方式
学位
学位
学位
目前国内主流手机出厂时都自带音乐播放器,并且大部分用户都首选这种音乐播放器。VIVO的音乐播放器存在不足,如:软件过于臃肿,不必要的功能偏多;软件部分界面友好偏弱,且操作繁琐;软件加载过慢,影响用户体验。为此VIVO公司决定开发、改进现有音乐播放器,更好地服务用户。本文说明了项目背景,简述了该音乐播放器的开发目的,介绍了国内几款主流音乐播放器的发展状况。综述了实现项目所采用的Recycler Vi
目前,浮点计算程序被广泛应用于航空航天、国防军事等对可靠性要求极高的关键领域,因此保证浮点程序计算结果的准确性至关重要。然而,由于计算机进行浮点运算时使用的数值与实际值之间存在舍入误差,舍入误差的累积会影响浮点程序的准确性,因此学术界提出了自动化的误差检测技术来解决这一问题。误差检测需要能够触发误差累积的数值用例输入,而这些数值用例输入通常分散在一些范围较小的输入区间内。现有的数值用例生成系统存在
学位
安卓设备的广泛应用得益于移动互联网的发展,因其开源特性,设备之间差异较大,碎片化问题日益严峻,测试对安卓应用愈发重要。应用间的激烈竞争导致开发周期缩短,也使用户对应用的要求越来越高。手工测试因时间成本过高无法满足当前开发的需要,自动化测试工具产业得以蓬勃发展。尽管大多数工具自称测试效果较好,但其测试实验对评估指标、应用集及设备等方面考虑不够全面,导致结果不够客观。因此本文提出一个较为全面客观的自动
学位
学位