论文部分内容阅读
本文论述了智能化网络故障管理系统的设计与实现,此系统由三部分组成:故障告警管理模块、规则推理模块和关联分析模块。
在故障告警管理模块中,实现了Trap事件接收和通过短信发布告警,完善了原有的告警管理功能,设计了告警事件冗余压抑算法,有效处理了“事件风暴”这样大规模的告警事件。
在规则推理模块中,研究了网络运行的特点,并依此设计事件关联场景规则,应用Rete算法及其推理理论到该模块的规则匹配引擎中,根据Rete模式匹配网络中的节点进行前向推理,当一定时间窗口内的事件满足规则的条件时,规则引擎就能智能化的推理出当前网络故障的根源并进行定位。当规则库里没有规则能与当前的故障匹配时,系统启动关联分析模块,在该模块中,研究了当前计算机网络故障的一般特点并抽象成专家知识,由此构建了开放性的专家系统事例库,故障事件可以通过故障求解模型,从事例库中检索到相似的事例作为该故障的一组解,结合关联分析,将统计概率最大的解作为网络的故障根源。
系统集成后成功部署在华南理工大学网络中心开发的网络管理软件Dcampus SNMS上,测试结果表明达到了系统设计的目标:能接收到配置SNMP Trap的设备发出的Trap事件;在有短信网关的环境下,系统能将告警通过短信转发给用户;对于网络中出现的故障,能依靠规则匹配引擎智能的定位出故障根源;若规则库里没有针对当前事件的场景规则,则系统能启动事例求解模型,根据历史统计分析给出相应的解;设计的事件冗余压抑算法能每分钟处理约300条告警数据,使告警数据量减少55%。