H3C核心交换机常见故障定位手册

上传人:m**** 文档编号:500334318 上传时间:2023-04-10 格式:DOCX 页数:39 大小:72.01KB
返回 下载 相关 举报
H3C核心交换机常见故障定位手册_第1页
第1页 / 共39页
H3C核心交换机常见故障定位手册_第2页
第2页 / 共39页
H3C核心交换机常见故障定位手册_第3页
第3页 / 共39页
H3C核心交换机常见故障定位手册_第4页
第4页 / 共39页
H3C核心交换机常见故障定位手册_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《H3C核心交换机常见故障定位手册》由会员分享,可在线阅读,更多相关《H3C核心交换机常见故障定位手册(39页珍藏版)》请在金锄头文库上搜索。

1、核心交换机常见故障处理手册目录1.1信息搜集1.1.1搜集设备日速信息1.1.2搜集其佃运彳信息1.2 故障定位和处理1.2.1故障处理流程图1.2.2故障原因分类1.2.3故障模型及影响分析1.2.4常见的故障恢复措施2硬件类故障处理2.1单板故障2.1.1故障描述2.1.2故障处理步骤2.2电源故障2.2.1故障描述.2.2.2故障处理步骤2.3风扇故障2.3.1故障描述.2.3.2故障处理步骤2.4温度告警2.4.1故障描述2.4.2故障处理步骤3 链路端口故障处理3.1端口错包3.1.1故障描述.3.1.2故障处理步骤3.2端口无法叩3.2.1故障描述3.2.2故障处理步骤3.3端口中

2、Up变成Down3.3.1故障描述3.3.2故障处理步骤3.4 端口频繁 Up/Down3.4.1故障描述3.4.2故障处理步骤3.5光模块故障3.5.1故障描述3.5.2故障处理步骤4报文转发故障处理4.1ping不通或美包4.1.1故障描述.4.1.2故障处理步骤4.2L2转发故障4.2.1故障描述4.2.2故障处理步骤4.3L3转发故障4.3.1故障描述.4.3.2故障处理步骤4.4MPLS转发故障4.4.1故障描述.4.4.2故障处理步骤5旧F类故障处理5.1旧F无法形成5.1.1故障描述5.1.2故障处理步骤5.2旧F出现分裂5.2.1故障描述.5.2.2故障处理步骤6系统管理维护类

3、故障处理6.1CPU占用率高6.1.1故障描述.6.1.2故障处理步骤6.2内存占用率高6.2.1故障描述6.2.2故障处理步骤6.3资源不足6.3.1故障描述6.3.2故障处理步骤故障处理通用流程1.1信息搜集为方便故障快速定位,建议不要关闭设备的信息中心(info-centerenable)。缺省情况下信息中心 处于开启状态。1.1.1搜集设备日志信息1.收集diag信息执行displaydiagnostic-information命令后,请输入“Y”,以选择将diag保存到CF卡中(选择 display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输

4、入命令,请耐心等待。displaydiagnostic-informationSaveordisplaydiagnosticinformation(Y=save,N=display)?Y/N:yPleaseinputthefileDiagnosticinformationisoutputtingtoPleasewait.Savesuccessfully.也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-lengthdisable,避 免屏幕输出被打断,如下:screen-lengthdisable%Screen-lengthconfigurationisdisab

5、ledforcurrentuser.displaydiagnostic-informationSaveordisplaydiagnosticinformation(Y=save,N=display)?Y/N:n=runningCPUusageinformation=CurrentCPUusageinfo=CPUUsageStat.Cycle:19(Second)CPUUsage:5%CPUUsageStat.Time:2013-05-2110:06:25CPUUsageStat.Tick:0x19aa(CPUTickHigh)0xa57f44e1(CPUTickLow)ActualStat.C

6、ycle:0x0(CPUTickHigh)0x39fb1e03(CPUTickLow)2. 其他注意事项建议记录设备操作时的命令行显示信息,便于后续分析。明确每一配置操作的影响,保证出现异常时配置能够被恢复。保证当前配置与保存的配置一致,在旧F分裂、单板Fault、单板重启时请不要保存配置,否则可 能会导致配置不一致。操作执行后请等待一定时间来确认执行效果。更换主控板时,请确保新、老主控板的软件版本一致。1.1.2搜集其他运行信息除设备日志信息外,还需要搜集设备的其他运行信息(包括但不限于以下):故障现象、故障时间、网络拓扑、配置信息、现场处理措施及其实施后的现象效果;操作日志记录、抓取的报文

7、信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信 息等;设备故障时单板、电源、风扇指示灯的状态或现场图片等搜集信息越全面、越详细,越有利于故障的快速定位。1.2故障定位和处理设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障 处理流程进行确认。如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。1.2.1故障处理流程图为故障处理的一般流程,可以大致判断出故障的类型。图1故障处理流程图故障分析时常用的方法有:端口报文计数报文镜像端口抓包配置QoS策略进行流量统计Debug开关信息对怀疑故障的模块交叉验证(比如:怀疑某个端

8、口光模块异常,可以将其他正常的光模块装在这个 端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常 单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的S12500-X上确认)。1.2.2故障原因分类1. 单板故障如单板出现异常重启、状态异常、无法启动、反复重启,请参照处理。2. 电源故障如设备电源指示灯异常、不断打印告警信息,请参照处理。3. 风扇故障如设备风扇指示灯异常、风扇停转、不断打印风扇告警信息,请参照处理。4. 温度告警如设备打印温度告警,请参照处理。5. 链路端口故障如端口出现无法UP、频繁UP/DOWN、端口错包,请参照。6. 硬件转发故

9、障如日志不断出现 Forwardingfault、Boardfault:chassisXslotYpleasecheckit 等打印信息,请参照处 理。7. 报文转发故障如出现ping、tracert丢包或不通、二层丢包或不通、三层丢包或不通、MPLS业务异常等,请参照。8. 旧F故障如设备无法形成IRF、IRF分裂等,请参照。9. CPU占用率高如设备单板CPU占用率很高,请参照处理。10. 内存占用率高如设备单板内存占用率很高,请参照处理。11. 资源不足如设备打印Noenoughresource资源不足,请参照处理。1.2.3故障模型及影响分析是一个典型网络故障模型,为提高网络的可靠性,

10、便于故障时快速切换恢复,组网中采用双上行链 路,两台核心交换机之间互为备份。图2典型网络故障模型表1故障点影响分析故障点可能现象影响范围1(含光模块)端口 down业务会切换端口错包增加影响该链路上的业务(影响范围大)2单板fault业务会切换单板芯片故障(单板状态正常)该芯片上的业务异常交换网板芯片故障会影响整机软件异常设备重启,业务会切换协议模块异常一般会影响业务3同1影响该接入层交换机上的业务(影响范围比故障 点1小一些)4设备down影响该设备下的业务单板芯片故障影响部分端口或整机业务软件异常5同1设备重启,影响设备下连业务协议模块异常一般会影响业务影响该链路上服务器涉及的业务6网络正

11、常,业务异常影响该服务器涉及业务1.2.4常见的故障恢复措施表2常见的故障恢复措施故障原因业务恢复动作故障排除动作隔离故障单板;府拆调整业务流向来隔离故障设备(如可以调整硬件更换备件(备件上线应用前应进行必要的测试)路由的优先级,避免流量经过故障设备,实现流量切换)重启故障设备的协议;软件调整业务流向来隔离故障设备链路调整业务流向来隔离故障线路升级版本(含补丁版本);调整组网或配置消除引发故障因素检修线路修改错误配置;其他正确连接设备端口;修改错误配置;正确连接设备端口;调整业务流向来隔离故障线路2硬件类故障处理检修机房的电源、空调等支撑系统2.1单板故障2.1.1故障描述单板状态异常(比如状

12、态为Absent、Fault、Loading)o单板出现异常重启、无法启动或不断重启等。1. 单板状态查询单板状态包括:Normal、Master、Slave、Absent、Fault、Loading。Master与Slave分别表示主、备主控板。Normal表示单板处于正常运行状态。如果发现单板状态出现Fault、Offline、Loading,或该槽位存在单板但状态却是Absent的,说明 单板可能出现故障,请参考处理。displaydeviceSlotNo.BrdTypeBrdStatusSubslotSftVerPatchVer0 LSX1TGS48EC1Normal0S12510-X

13、-1005None1LSX1TGS48EC1Normal0S12510-X-1005None2LSX1TGS48EC1Normal0S12510-X-1005None3LSX1TGS48EC1Normal0S12510-X-1005None4LSX1TGS48EC1Normal0S12510-X-1005None5LSX1TGS48EC1Normal0S12510-X-1005None6LSX1TGS48EC1Normal0S12510-X-1005None7NONEAbsent0NONENone8NONEAbsent0NONENone9NONEAbsent0NONENone10LSX1FAB

14、10B1Normal0S12510-X-1005None11LSX1FAB10B1Normal0S12510-X-1005None12LSX1FAB10B1Normal0S12510-X-1005None13LSX1FAB10B1Normal0S12510-X-1005None14LSX1FAB10B1Normal0S12510-X-1005None15LSX1FAB10B1Normal0S12510-X-1005None16LSX1SUP10A1Standby0S12510-X-1005None17LSX1SUP10A1Master0S12510-X-1005None2.单板重启确认可以通过logfile日志或displayversion查看设备启动后运行时间来确认单板有没有出现过重启, 出现过重启的单板运行时间会明显短于设备上其他单板。如果有单板出现过重启,请参考处理。displayversion

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号