网管系统告警产生和处理机制1.1.1 告警来源和产生机制1、SYSLOG 日志(被动接收方式)通过采集服务器的 SYSLOG 服务,接收网元发送上来的 SYSLOG 日志记录告警采集 程序通过rules 将 SYSLOG 日志记录解析为告警记录一条典型的华为端口析过程:DOWN 告警解Jul 15 19:54:11133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:lntefaceEthernet1/0/5 Turns into DOWN state针对上面的告警,通过 rules,主要解析出如下内容告警来源 IP: 133.63.254.190告警类型:IFNET/5/UPDOWN 告警对象:Ethernet1/0/5告警原始级别:5告警描述:In terface Ethernet1/0/5 Turns into DOWN state 2、Snmp Trap 告警(被动接收方式) 告警采集在 162 端口监听并接收网元发送过来的 TRAP 通知,通过加载相应 MIB 里的TRAP 定义或者厂家提供的 TRAP 告警翻译规则,转换为相应的告警记录。
举例说明:10.102.16.2:TRAP[requestlD=0, errorStatus=Success(0), errorIn dex=0, VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP 告警定义:(1) 1.3.6.1.4.1.3902.1015.1010.1.10.1.17 代表 zxAnEponOnuErroredSymbolPeriodEvent , 即 ONU 错误符号间隔事件,级别是主要2) 808584704 代表索引信息,可进一步定位到具体的析翻译后的告警如下:告警来源 IP: 10.102.16.2告警类型:zxAn Epo nOn uErroredSymbolPeriodEve nt告警对象:10.102.16.2 告警级别:4ONU 设备,如 F820(0/4/4/5) 解告警描述:10.102.16.2 F820(0/4/4/5) : ONU 错误符号间隔事件 3、网元状态Polling 告警(主动检测方式)(1 )告警产生采用定期调度(根据设备的重要程度可设定不同的策略) 再进行ICMP PING 测试:对设备先进行SNMP 连接测试,a、如果 SNMP Ping 不通,ICMP Ping 也不通,发送网元中断告警;不通,只发送网元不可管理告警如果只有 SNMP Pingb、 如果 SNMP Ping 通,不管ICMP Ping 通不通,都不发送任何告警c、 如果原来只是 SNMP Ping 不通,但ICMP Ping 也开始不通,再发送一条网元中断告警说明:网元不可管理和网元中断告警, 默认只发送一次, 不重复发送 (即发生次数为 1)。
2)告警恢复对于处于网元不可管理或网元中断状态的设备, 同时进行SNMP Ping 和 ICMP Ping 跟踪: a、 如果 SNMP Ping 通,根据设备的告警状态,发送相应的恢复告警,分两种情况:设备只有网元不可管理告警:发送网元不可管理恢复告警 设备同时有两种告警:同时发送网元不可管理和网元中断的恢复告警b、 如果SNMP Ping 仍不通,但ICMP Ping 开始通(也就是说原来两者都不通)网元中断恢复告警,发送一 条4、 端口状态 Polling 告警(主动检测方式)端口 Polling 在端口流量采集时进行(检测周期与性能采集周期相同,断标准: 本次端口流量采集采到的端口操作状态跟上次采到的端口状态做对比, 状态变化则发送告警,即:5min 一次)判如果发生了如果是up— >down,就发端口 DOWN 告警;如果是down — >up,就发恢复告警告警 示例:告警类型:端口状态告警描述:如: 172.28.12.4 GigabitEthernet0/1/13( 端口 ) 端口 down 告警级别:严重说明:端口状态告警,只发送一次,不重复发送(即发生次数为1) 。
5、 性能告警(主动检测方式)告警产生机制: 根据性能采集后的数据结果和性能告警设置进行比较, 如果满足性能告 警设置条件, 发送相应的性能告警恢复告警:如果发生了“满足性能告警设置条件”— 变化,则发送相应的恢复告警性能告警分类:(1) 阈值性能告警:通过阈值设置产生的性能告警(2) 基线性能告警:偏离基线时产生的性能告警(3) 梯度性能告警:梯度变化满足一定条件时产生的性能告警>“不满足性能告警设置条件”的(4) 高级性能告警:满足给定的组合条件时产生的性能告警 说明:性能告警,如果满足性能告警设置条件,则每 5 分钟发送一次,直到告警恢复为至6、 其它告警:翻转告警、资源预警、进程告警等(主动检测方式)(1) 翻转告警: 根据翻转设置条件, 产生的告警, 不能自动恢复 告警类型为 “翻转告警”2) 资源预警:根据资源预警设置条件,判断设备的槽位占有或端口利用率是否超过给定阈值,如果超过,则发送相应的资源预警告警告警类型为“资源预警” 3)采集进程告警:采集进程正常时,能够定时主动发送心跳信息给应用服务器,系统每3 分钟检测一次,根据采集进程的心跳信息是否及时更新来判断采集进程是否正常,如果超过设定时间,心跳信息没有更新,则认为进程 down,进而产生相应的告警(重复发送)。
如果进程启动,心跳信息恢复,则发送恢复告警告警类型为“网管服务进程”1.1.2 告警数据处理流程告警从采集,到入活动库,最后进入历史库,这个过程称为告警的生命周期 入历史库为终从始到终,其数据流程如下图所示:采集为始,2、 只有 SYSLOG 和 TRAP 告警需要经过RULES 解析和翻译环节,其它告警来源无此过程3、 被 RULES 过滤掉的 SYSLOG 和 TRAP 告警直接丢弃,而非进入历史库, SYSLOG 和TRAP 告警在原始库中可以找到(TRAP 原始报文默认不入库,如果要入库,需要打开 进程参数)4、 告警先进行重定义,在进行预处理规则过滤, 被预处理过滤的告警, 直接进入历史库(也 可以选择直接丢弃),对应的删除类型为“预处理删除”;没有过滤的告警入活动库,同 时发布 JMS 消息5、 告警是排队入库的,每次从入库队列中取一定数量的告警依次入库分为三种情况:(1) 如果活动库中存在相同的告警事件新发生次数和发生时间);(告警源和事件相同),则进行告警更新(更(2) 如果活动库中不存在相同的告警事件,则插入一条新的活动告警记录;(3) 如果告警为恢复告警,则将活动库中对应的告警事件清除,进入历史库。
6、 活动库的告警被删除后,进入历史库这里的删除有以下几种情况(1) 界面手工删除对应的删除类型为“用户手工删除” 2) 自动恢复删除收到恢复告警后, 自动与对应的活动告警结对合并, 合并后的告警入历史库 合并后的 告警,清除时间为恢复告警的发生时间,清除类型为“自动恢复删除” ,其余字段保留原告 警信息也就是说,恢复告警是与成对的活动告警合并成一条告警后入历史库 3) 告警条件删除 根据在告警设置里设置的定时删除规则, 定时删除符合条件的活动告警 对应的删除类 型为“告警条件删除” 4) 告警过多删除低级告警 当活动库的告警超过设置的容量时, 系统自动启动的删除低级别 (未定和警告) 告警的 策略删除的告警的级别为未定和警告对应的删除类型为“告警过多删除低级告警” 5) 成对合并直接入历史库如果收到的某个告警发生和恢复时间非常接近( 1 秒左右),入库线程从告警队列里取 告警后, 发现有这种成对的情况, 就不再走活动库而是直接合并入历史库, 这种情况下告警 删除类型为“成对合并直接入历史库” 6) 等价告警剔重目前仅适用于端口 down 告警当上来某条端口 down 告警时,但活动库中已经存在该 端口的其它PORT_DOWN 告警,则该端口 down 告警直接入历史库,删除类型为“等价告 警剔重”。
1.1.3 告警关联机制告警关联机制包括:(1) 告警结对清除 收到恢复告警后, 自动与对应的活动告警结对合并成一条告警, 合并后的告警从活动库转入历史库,这种情况下告警删除类型为“自动恢复删除” ;(2) 告警压缩合并 收到告警时,自动与活动库中存在的相同告警事件 (告警源和事件相同)进行合并,同时更新告警的发生次数和发生时间;(3) 告警合并直接入历史库 如果收到的某个告警发生和恢复时间非常接近( 1 秒左右),入库线程从告警队列里取 告警后, 发现有这种成对的情况, 就不再走活动库而是直接合并入历史库, 这种情况下告警 删除类型为“成对合并直接入历史库” ;(4) 告警同源处理 目前主要用于端口 DOWN 告警端口 DOWN 告警的来源主要有 SYSLOG 和端口状态Polling 两种,尽管告警类型在不同的厂商定义中不尽相同,但反映的是同一告警事件,系 统把这些告警类型归属到同一个告警类型组 “ PORT_DOWN ”,同一个告警类型组下的告警, 认为是等价的为避免由于 SYSLOG 日志缺失或解析规则不完整造成的端口 DOWN 告警不准确, 系统 采用了端口状态 Polling 作为辅助手段,对端口状态事件进行监控, 但与 SYSLOG 告警进行 了关联处理。
具体策略: a、 PORT_DOWN 告警类型组下的所有告警类型,可以互相清除,即对于同一个端口, 某个告警类型的恢复告警,可以清除其它 PORT_DOWN 告警b、上来某条端口 down 告警时,但活动库中已经存在该端口的其它则该端口 down 告警直接入历史库,删除类型为“等价告警剔重” PORT_DOWN 告警c、当活动库中存在某个端口的 PORT_DOWN 告警,而端口状态 Polling 检测到该端口的操作状态为up 时,则发送端口状态恢复告警,用于清除该端口的所有 警目前 PORT_DOWN 告警类型组包括的告警类型:PORT_DOWN 告告警类型端口状态LINK-3-UPDOWN LINEPROTO-5-UPDOWNLINK DOWNLINK-SP-3-UPDOWNPKT INFRA-LINK-3-UPDOWNPKT INFRA-LINEPROTO-5-UPDOWN IFNET/4/LINK UPDOWNPHY/4/PHY STA TUS UP2DWN PKT INFRA-LINK-5-CHANGEDL2INF/5/PORT LINK ST。