www.H3C.com,86,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,杭州华三通信技术有限公司,,www.H3C.com,www.H3C.com,*,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,第,7,章 中低端,LAN Switch,故障排除,ISSUE 2.1,日期:,杭州华三通信技术有限公司 版权所有,未经授权不得使用与传播,通过本章的学习我们可以:,,了解,Lanswitch,常见故障类型,,掌握故障定位及排除方法,引入,,物理层故障,,端口协商以及自环问题,,VLAN,问题,,管理问题,,设备兼容问题,,其他问题,课程目标,学习完本课程,您应该能够:,物理层故障排除综述(,1,),,从广义的角度来看,以太网的物理层故障包括以太网交换机本身的硬件故障和连接交换机的物理线路故障,,在硬件正常的前提下,借助设备接口指示灯的状态进行初判,,:,,LINK,灯灭表示线路没有连通,灯亮表示线路已经连通,,ACTIVE,灯灭表示没有数据收发,灯闪烁表示有数据收发,,采用替换法进行判断,,包括线路、电缆和光纤、板卡、槽位、整机,调换线路收发,,,在交换机上配置接口环回进行判断,,设置以太网端口进行环回测试:,loopback,,{,external,|,internal,},,设备接口之间的工作速率、工作方式(半双工,/,全双工)、帧格式协商和匹配问题也会导致物理层故障现象,物理层故障排除综述(,2,),,设备本身的硬件故障一般包括:,,接口或者设备硬件损坏;,,Bootrom,或者,comware,版本不正确或者不配套导致设备工作异常;,,光模块接口类型不正确;,,用户,PC,网卡故障或者配置不正确。
线路故障一般包括:,,网线或者光纤线路本身物理损坏;,,网线类型错误(支持,MDI/MDIX,自适应除外)或者光纤收发连接不正确;,,中间传输设备(光电转换器,线路转换器等)故障或者工作不正常;,,接口线缆所支持的最大传输长度、最大速率等超出使用范围常用物理层相关命令,,端口信息显示命令:,display interface,,,[H3C] display interface ethernet0/1,,Ethernet0/1 current state :,UP,,IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 00e0-fc00-0010,,Description :,aaa,,The Maximum Transmit Unit is 1500,,Media type is twisted pair,,loopback,not set,,Port hardware type is 100_BASE_TX,,100Mbps-speed mode, full-duplex mode,,Link speed type is,autonegotiation,, link duplex type is,autonegotiation,,Flow-control is not enabled,,The Maximum Frame Length is 1536,,Broadcast MAX-ratio: 100%,常用物理层相关命令,,端口信息显示命令:,display interface,,PVID: 1,,Mdi,type: auto,,Port link-type: access,,Tagged VLAN ID : none,,Untagged VLAN ID : 1,,Last 5 minutes input rate 229 bytes/sec, 2 packets/sec,,Last 5 minutes output rate 25 bytes/sec, 0 packets/sec,,Input(total,): 554 packets, 41008 bytes,,,13 broadcasts, 68 multicasts,,,,Input(normal,): - packets, - bytes,,- broadcasts, - multicasts,,Input:,3 input errors,, 0 runts, 0 giants, - throttles, 0 CRC,,0 frame, - overruns, 1 aborts, 2 ignored, - parity errors,,,Output(total,): 1119965 packets, 1578436288 bytes,,,407 broadcasts, 1118775 multicasts, 0 pauses,,,,Output(normal,): - packets, - bytes,,- broadcasts, - multicasts, - pauses,,Output:,8 output errors,, -,underruns,, - buffer failures,,0 aborts, 0 deferred, 7 collisions, 0 late collisions,,1 lost carrier, - no carrier,S3026E,光模块类型错误导致互通问题,,现象描述,,,组网描述:,S3026E,交换机与,A,交换机级连。
在,S3026E,上和,A,都开启,GVRP,,,S3026E,光口,G1/1,配置千兆多模模块连结,A,光口,G1/1,,两个端口都为,trunk,,,PVID,都为,1,,都使用,VLAN2,上配置的,IP,地址作管理地址故障现象:在,S3026E,上无法,ping,通对端管理,VLAN,虚接口的地址,用户不能上网友商,A,S3026E,Trunk,用户,PVID,=,1,G1/1,管理,VLAN 2,11.0.1.2/24,管理,VLAN 2,11.0.1.1/24,G1/1,启用,GVRP,S3026E,光模块类型错误导致互通问题,,信息收集,,,使用,display interface G1/1,查看,S3026E,千兆光口,UP,,而且能看到对端交换机,A,透传过来的,VLAN,,,display VLAN,也能看到对端传过来的,VLAN,;,,关闭两端设备的,GVRP,协议,并在两端设备手工配置允许所有,VLAN,通过,在本端,ping,对端管理地址,依旧不通;,,将,S3026E,光接口,shutdown,,使用,S3026E,的电口,E0/2,和,A,设备电口,E0/2,通过网线连接,并正确配置数据,此时能够,ping,通对端管理地址,开启,GVRP,也没有问题。
友商,A,S3026E,Trunk,用户,PVID,=,1,E0/2,管理,VLAN 2,11.0.1.2/24,管理,VLAN 2,11.0.1.1/24,E0/2,启用,GVRP,S3026E,光模块类型错误导致互通问题,,原因分析,,,数据配置错误;,,端口工作模式不正确;,,模块硬件损坏或者类型不正确;,,虚接口不工作处理过程,,,根据前面更换电口验证的情况,数据配置没有问题;,,将光口强制,1000M,全双工工作,仍然不能解决问题;,,怀疑光模块硬件损坏,换同样类型光模块仍然如此S3026E,光模块类型错误导致互通问题,,处理过程(续),,,仔细查看端口显示信息,显示基本正常,查看端口数据统计部分的信息,发现只有入包,没有出包,说明该端口没有进行数据转发;但端口其它信息都能正常显示,说明硬件没有损坏;,,Ping,各自交换机上管理,IP,地址,没有问题,说明三层接口工作正常;,,最后怀疑可能模块用错,经确认,S3026E,的,1000M,多模模块外观与,S3026,多模模块外观相同,硬件模块也兼容,以前曾有错用模块导致故障的情况发生在确认丝印时需要拔下模块,查看,PCB,的丝印,应该是,REV.A,,而交该换机上用的是,REV.0,,至此发现原来是硬件模块类型不对导致此次故障;,,更换正确的多模模块后故障排除。
S3026E,光模块类型错误导致互通问题,,总结,,目前中低端,Lanswitch,产品比较多,有些模块可以通用,有些模块不能够通用因此在进行设备选购的时候不但要注意软件版本的配套,也应重点注意模块硬件的配套问题思考题,,在排除本故障时,还有哪些简捷的方法?,,通过替换交换机,A,或者,S3026E,的方法快速定位故障由于协议转换器不能透传,1518,字节以上报文导致无法访问网页,现象描述,,,如图所示,用户通过,ADSL,接入,MA5100,,在,MA5100,上划分,7,个,VLAN,,,MA5100,通过,10M/2M,协议转换器上连,S3526,进行流量汇聚,,S3526,将,MA5100,上传的,VLAN,用户信息透传给,S8016,在,S8016,上配置多个,VLAN,的三层虚接口地址作为用户网关,并做,NAT,转换后上外网故障现象:,MA5100,下面的用户能够,Ping,通外网的地址和域名(比如,,),但是打开部分网站网页时提示“,Internet Explorer,无法连接到您请求的页,可能该页目前不可用S8016,MA5100,S3526,10M/2M,运营商,2M,数,据网,10M/2M,由于协议转换器设备不透传超过,1518,字节报文导致能,Ping,通外网但是无法打开网页,信息收集:,采用分段故障排除法,,将计算机直接接在,S3526,下面,用户上网正常。
说明,S3526,到外网这一段没有问题查看,S3526,连接,MA5100,的,Trunk,接口的配置,接口的,PVID,设置为,1,,允许所有的,VLAN,通过,并且在接口下,MA5100,的,7,个,VLAN,的信息已经通过(,VLAN Passing,字段)在,S3526,上配置,VLAN 1,的虚接口地址,,MA5100,使用缺省,VLAN 1,的用户可以正常上网S8016,MA5100,S3526,10M/2M,运营商,2M,数,据网,10M/2M,由于协议转换器设备不透传超过,1518,字节报文导致能,Ping,通外网但是无法打开网页,原因分析,,MA5100,下,VLAN 1,的用户可以正常上网,但其他的,7,个,VLAN,却不能正常上网,重点需要分析,VLAN 1,用户的数据和其他,VLAN,用户的数据在传输过程中有哪些不同;,,根据,MA5100,和,S3526,的,Trunk,端口的设置,,PVID,都设置为,1,,,MA5100,在收到,VLAN 1,的用户数据的时候,将,VLAN ID,去掉上传,S3526,,也就是说数据在,Trunk,上传输是不带,VLAN ID,的。
MA5100,上其他,VLAN,用户的数据在,TRUNK,链路上传输是携带,VLAN,信息的这有两种可能:,1,、某台交换机不允许其他,VLAN,通过,也就是,VLAN,互通有可能有问题但根据用户可以,ping,通外网,排除了这种可能性;,2,、小包可以通过,大包不能通过正常,IP,包的最大长度是,1518,,含,VLAN ID,的是,1522,由于涉及到,10M/2M,协议转换器设备,可能是该设备不支持带,VLAN ID,的大包S8016,MA5100,S3526,10M/2M,运营商,2M,数,据网,10M/2M,由于协议转换器设备不透传超过,1518,字节报文导致能,Ping,通外网但是无法打开网页,处理过程,,为了确认是否是协议转换器导致的问题,做如下测试:,,第一步:从,MA5100,下面的,PC Ping 1468,大小的包能够,PING,通,,;,Ping 1469,的包,无法通过第二步:将,S3526,的接口改为,Access,模式,直接把计算机接在,10M/2M,设备连接,MA5100,的出口上,能够上网,也能,Ping,通,1469,的报文第三步:连接另外一台,PC,在协议转换器连接,S3526,的出口,两台,PC,互,Ping 3000,的包,能通。
处理方法:,1,、将两端的设备更换为通过透传带,VLAN ID,的协议转换器;,2,、将,10M/2M,设备更换为光电转换器S8016,MA5100,S3526,10M/2M,运营商,2M,数,据网,10M/2M,由于协议转换器设备不透传超过,1518,字节报文导致能,Ping,通外网但是无法打开网页,测试结果分析,,含,VLAN ID,报文长度:,1522,字节=,1500,(,MTU,)+,18,(二层头)+,4,(,VLAN TAG,) 由于协议转换器只能接收,1518,字节长度的报文,当报文长度超过,1518,的时候,设备就丢弃报文在我们,Ping 1468,的时候,,1468,是,IP,层的净负荷,加上,20,个字节的,IP,报文头和,8,个字节的,ICMP,报文头,整个,IP,层的报文长度为,1496,个字节,再加上,18,个字节的以太网帧封装和,4,个字节的,VLAN,信息,整个以太网帧的长度刚好为,1518,的字节,这个时候,10M/2M,的设备能够接收,所以能够,Ping,通在,Ping 1469,的时候,根据上面的计算整个以太网帧的长度为,1519,个字节,,10M/2M,设备无法接收,导致无法,Ping,通。
S8016,MA5100,S3526,10M/2M,运营商,2M,数,据网,10M/2M,物理层故障,,端口协商以及自环问题,,VLAN,问题,,管理问题,,设备兼容问题,,其他问题,目录,端口协商以及自环问题排除综述,,中低端交换机上常见的接口大致分类,,按工作速率有:,10M,,,10/100M,,,100M,,,10M/100M/1000M,,,1000M,;,,按工作方式有:全双工,半双工;,,按接口类型有:电接口,光接口(多模,单模,10Km,,单模中距,40Km,,单模长距,70Km,),堆叠模块两端设备端口工作方式等参数的匹配问题,,,大多数端口都支持工作参数自动协商功能;,,有时候由于设备之间协商能力不强或两端设备默认的参数配置不相同导致端口协商不通过,端口工作异常,此时就需要对端口的参数进行手工调整和设置,保证双方参数一致常用的端口配置命令(,1,),,设置以太网端口速率,,设置百兆以太网端口的速率:,speed,{,10 | 100 | auto,},,设置千兆以太网端口的速率:,speed,{,10 | 100 | 1000 | auto,},,百兆以太网电端口支持,10Mbit/s,、,100Mbit/s,或自协商工作速率,可以根据需要对其设置。
百兆以太网光端口支持,100Mbit/s,速率,可以设置为,100,(,100Mbit/s,)和,auto,(自协商)千兆以太网光口可以设置为,1000,(,1000Mbit/s,)和,auto,(自协商)1000Base-T,以太网端口支持,10Mbit/s,、,100Mbit/s,、,1000Mbit/s,三种速率,可以根据需要选择合适的端口速率但当双工状态设置为半双工模式后,就不能设置为,1000Mbit/s,速率常用的端口配置命令(,2,),,设置以太网端口网线类型,,mdi,,{,across,|,auto,|,normal,},,,该设置只对,10/100Base-T,、,1000Base-T,端口有效,设置以太网端口的链路类型,,设置端口为,Access,端口:,port link-type,,access,,设置端口为,Hybrid,端口:,port link-type,,hybrid,,设置端口为,Trunk,端口:,port link-type,,trunk,,其他接口显示命令,,显示端口的所有信息:,display interface,,,显示,Hybrid,端口或,Trunk,端口:,display port { hybrid | trunk },,清除以太网端口的统计信息:,reset counters interface,环路问题导致用户上网异常,,现象描述,,,组网如图所示,用户反映上网速度慢,有时打开网页时没有响应。
从外网,Ping,网络中的某台,S3026,管理,IP,地址,发现有如下奇怪,Ping,包:,,Ping 11.11.10.117 : 56 data bytes.,,Reply from 11.11.10.117 : bytes=56:,icmp_seq,=0,ttl,=64 time=16 ms,,Reply from 11.11.10.117 : bytes=56:,icmp_seq,=0 DUP!,ttl,=64 time=33 ms,,Reply from 11.11.10.117 : bytes=56:,icmp_seq,=0 DUP!,ttl,=64 time=33 ms,,Reply from 11.11.10.117 : bytes=56:,icmp_seq,=0 DUP!,ttl,=64 time=50 ms,,Reply from 11.11.10.117 : bytes=56:,icmp_seq,=0 DUP!,ttl,=64 time=50 ms,,Reply from 11.11.10.117 : bytes=56:,icmp_seq,=4,ttl,=64 time=0 ms,,5 packets transmitted, 5 packets received, +4 duplicates, 0% packet loss,,正常情况应该是回五个,reply,报文,,,现在却多出四个,DUP,重复数据包!,,ADSL,Modem,To Internet,S3026,友商,DSLAM,ADSL,用户,启用环路检测,2,条,PVC,环路问题导致用户上网异常的问题处理,,信息收集,,,可以接收到,Ping,响应报文,说明网络是通的,但由于多接收到重复数据包,可能是由于网络环路造成。
用,display,loopback,-detection,察看端口环回检测信息如下:,,[H3C] display,loopback,-detection,,,Loopback,-detection is running,,Detection interval time is 30 seconds,,,Following,Port(s,),has(have,),loopback,link:,,Ethernet0/1,,说明,E0/1,接口连接的网络有环路存在环路问题导致用户上网异常的问题处理,,处理过程,,检查交换机连线确认为树型结构因为,S3026,具备端口,loopback,-detection,功能,当检测到端口所连接的网络有环路时将该端口处于受控状态,如环路解除,还能自动打开端口可以使用该功能用来检测环路将友商,DSLAM,下面的用户线依次断开,同时用,display,loopback,-detection,显示是否有环路查到某个线路问题后,到用户家检查,Modem,配置发现配置了两条相同的,PVC,,导致形成环路在该网络中最后查出有四个同样故障的,Modem,修改配置后,Ping,包恢复正常。
ADSL,Modem,To Internet,S3026,友商,DSLAM,ADSL,用户,启用环路检测,2,条,PVC,端口协商问题导致,S3026,光模块无法正常工作,,现象描述,,组网:,MA5203,通过百兆光纤连接,S3026,百兆多模光模块,,S3026,下面接入上网用户故障现象:光纤正常连接后发现,S3026,光模块,Link,指示灯不亮,用,display interface,命令查询,E1/1,接口发现其状态为,,down,MA5203,S3026,PC,百兆多模,光纤,e1/1,端口协商问题导致,S3026,光模块无法正常工作,,原因分析,,,物理线路问题:调换光纤、改变光纤收发操作,发现指示灯还是不亮用一个带光模块的,S2403F,进行替换,连接到光纤发现,S2403F,工作正常,在,S2403F,下面可以正常上网,说明物理线路没有问题设备或者光模块问题:因光路没问题故怀疑,S3026,的光模块或者,SLOT 1,插槽有故障,通过替换另一台正常的,S3026,连接光纤,发现光模块,LINK,指示灯还是不亮,排除了设备和光模块问题设备间接口参数协商问题或者接口工作参数不匹配:使用,display interface,命令详细查看接口参数,并进行对比。
MA5203,S3026,PC,百兆多模,光纤,e1/1,端口协商问题导致,S3026,光模块无法正常工作,,处理过程,,,通过查询发现,MA5203,端口速率为,100M,,并工作在自协商模式通过查询发现,S3026,光模块端口参数如下,Auto-duplex, Auto-speed, 100_BASE_FX_MMF,,说明接口速率协商正常,但双工,/,半双工协商不通过对,S3026,光接口的参数进行调整,将,S3026,的光接口设置为全双工后,光模块的,LINK,灯即亮,并且,S3026,工作正常总结,,,设备与设备之间不能正常通讯,常见的有物理线路故障、端口工作参数不匹配、设备模块硬件故障等几种原因尤其是两端设备端口均为自协商时,由于不同厂家的设备接口参数不同,或者同一厂家不同设备由于采用的硬件芯片不同而自协商不通过,导致不能正常通讯通常采用替换法可以快速定位故障物理链路存在环路造成业务异常,,现象描述,,,S3526E,通过,NE16E,连接,Internet,,下连,S3026,和,S2016,,,S3526E,和,S3026,之间通过两条百兆链路相连,,S3526E,和,S2016,之间只有一条百兆链路相连。
故障现象:,S3526E,与,S3026,之间的两条链路都不连接或者只接其中一条链路时,,S2016,下的,PC,可以正常,ping,通网关和上层接口地址如果,S3526E,与,S3026,之间的两条链路都连接好,则,S2016,下的,PC,机,ping,不通网关重新启动,S2016,与,S3526E,之间的接口时,,S2016,下,PC,可,ping,通网关,20,左右个包后中断;多次操作现象相同不论,S3526E,与,S3026,之间的两条链路怎样连接,网管都与远端的服务器连接正常;,S3526E,与,NE16E,之间的接口也工作正常NE16E,S3526E,S3026,S2016,PC,网管,PC,TRUNK,远端服务器,由于物理链路存在环路造成业务异常的问题,,原因分析,,,由于,S3526E,与,S3026,之间的两条链路形成环路,与,S3026,相连的两个端口之间存在大量的无用报文,被同时转发到端口属性为,Trunk,的端口,引起广播风暴,使这些端口堵塞,造成端口承载业务异常;,,连接网管和与,NE16E,对接的端口属性为,Access,,可以正常工作处理过程,,,方案一:把,S3526E,上与,S3026,相连的两个端口分别划分在不同的,VLAN,内,但不能满足设备之间的两条链路成主备份关系的要求。
方案二:在,S3526E,上启动,STP,协议,问题得到解决方案三:在,S3526E,和,S3026,之间配置链路聚合(,link-aggregation,),这样既可以增加带宽,实现负载分担,又可以实现链路备份的功能物理层故障,,端口协商以及自环问题,,VLAN,问题,,管理问题,,设备兼容问题,,其他问题,目录,VLAN,故障排除综述(,1,),,VLAN,的引入,,用于隔离网络风暴,增加网络安全性,,早期用路由器进行隔离,但成本高,效率低,应用复杂,,增加了,4,个字节的特殊标注域,用于区别不同用户发送的数据帧,其中,VLAN ID,占用,12,个,bit,,VLAN,与端口的关系,,,Access,端口:这种端口只能属于一个,VLAN,,并且从该端口进来的数据包都不包含,TAG,标记,数据包进入之后,会被加上该端口的,VLAN ID,(加上,TAG,标记)如果有数据需要从这种接口发送出去,数据帧中的,TAG,标记将被删除这种端口一般用于连接用户主机或路由器VLAN,故障排除综述(,2,),,VLAN,与端口的关系(续),,Trunk,端口:这种端口可以属于多个,VLAN,,或者说这种端口可以传送多个,VLAN,的数据帧。
从这种端口发送出去的数据帧都包含有,TAG,标记(缺省,VLAN ID,的数据帧除外);从这种端口接收到的报文,如果已经有,TAG,标记,则直接转发;如果没有,TAG,标记,则加上带有缺省,VLAN ID,的,TAG,标记这种端口一般用于连接交换机或路由器Hybrid,端口:这种端口可以属于多个,VLAN,但是与,Trunk,端口不同的是它所传送的数据帧,可以包含,TAG,标记也可以不包含,TAG,标记;而,Trunk,端口则必须包含,TAG,标记(缺省,VLAN ID,的数据帧除外)其发送数据帧时根据配置信息进行判断是否加上,TAG,标记;接收数据帧时和,Trunk,端口相同这种端口一般用于连接交换机或路由器VLAN,故障排除综述(,3,),,Isolate-user-,vlan,技术简介,,Isolate-user-,vlan,技术解决,VLAN ID,不足的问题采用,VLAN ID,屏蔽的办法,将接入层的用户,VLAN ID,对汇聚层设备屏蔽起来,在接入层使用,VLAN,的方法进行用户二层隔离接入层设备,Isolate-user-,vlan,访问汇聚层设备,对于会聚层设备来说,它只知道,Isolate-user-,vlan,ID,,,数据包返回时,送往,Isolate-user-,vlan,,ID,所包含的所有,Secondary VLAN,用户。
VLAN,路由技术简介,,VLAN,路由技术模拟路由器的三层接口,在以太网上创建出虚拟局域网三层接口这些接口具有三层报文转发的功能将二层不能转发的数据帧进行数据帧头的剥离,然后根据,IP,报文头信息进行转发VLAN,故障排除综述(,4,),,VLAN,故障的分类,,,VLAN,用户隔离不成功;,,VLAN,隔离后不能进行任何通信;,,采用,VLAN,技术后,无法进行设备管理VLAN,故障的解决方法,,分析数据帧的转发过程,特别是数据包携带的,VLAN ID,的变化看看在整个数据帧转发的过程中何时删除,TAG,标签,何时增加,TAG,标签,在删除和增加的过程中是否变化过,VLAN ID,,特别是,Isolate-user-,vlan,技术存在的时候其次分析是否,VLAN,路由存在问题VLAN,配置问题导致用户无法上网,,现象描述,,S3026,下行通过百兆光口接,S2016,,上行通过,100M,以太网口至友商交换机,C,S2016,与,S3026,设置固定的管理,IP,地址,由设备,C,对,S2016,和,S3026,进行管理,由设备,C,连接的,DHCP,服务器为用户分配,IP,地址。
S2016,下挂的用户通过,Isolate-user-,vlan,配置实现二层隔离故障现象:所有,S2016,下挂的用户都无法获得动态,IP,地址,,ping,不通,DHCP SERVER,和网关,C,,,S3026,下挂的用户却可以获得,IP,地址同时,从,S2016,的终端窗口却可以,ping,通,DHCP SERVER,和网关另外还发现,如果把,S2016,下挂的用户设置为,VLAN 1000,用户,则可以通过,DHCP SERVER,获得,IP,地址,也可以,ping,通网关Hybrid,友商交换机,C,E 0/1 100M,E1/1,E1/1,VLAN 1000,管理,VLAN1000,DHCP SERVER,S3026,信息收集,,S2016,下管理,VLAN 1000,的用户可以正常上网,而业务,VLAN,的用户不能上网,说明网络连接正常,问题在设备的配置对不同,VLAN,的处理上查看,S2016,的配置,发现配置了,Isolate-user-,vlan,,,其中,Isolate-user-,vlan,为,30,,,Secondary VLAN,为,2,~,19,,另外配置了管理,VLAN 1000,。
原因分析,,上行数据分析:,VLAN 1000,用户,,下行数据分析:,VLAN 1000,用户,,上行数据分析:,Secondary VLAN,用户,,下行数据分析:,Secondary VLAN,用户,,结论:,Secondary VLAN,用户数据配置问题VLAN,配置问题导致用户无法上网,,Hybrid,友商交换机,C,E 0/1 100M,E1/1,E1/1,VLAN 1000,管理,VLAN1000,DHCP,服务器,S3026,VLAN,配置问题导致用户无法上网,,处理过程,,避免,VLAN ID 1000,在,S3026,和,S2016,之间的一再透传,同时还要兼顾上面设备能管理到,S2016,,需要修改配置方案S3026,下行接,S2016,的端口不再配置,TAG VLAN 1000,S2016,上把,Isolate-user-,vlan,直接设置为,1000,,包含所有用户端口的,Secondary VLAN,,同时做为管理,VLAN,经过这样的调整,下行方向的包从,S3026,出来的时侯,去掉了带有,S3026,上的,Isolate-user-,vlan,的头,进入,S2016,的时侯再加上,S2016 Isolate-user-,vlan,的头,而,S2016,的,Isolate-user-,vlan,既包含用户端口又同时做管理,VLAN,,通过,MAC,地址来区别具体用户,达到了兼顾用户上网和管理的要求。
友商交换机三层接口问题导致与,S6506,互通网络中断,,现象描述,,S6506,下挂,MA5100,接入,ADSL,用户,,S6506,上行和友商交换机设备,C,千兆光口连接,网络正在运行突然中断,用户能,ping,通,S6506,网关,,S6506,到交换机,C,不能,ping,通,,ADSL,用户不能正常上网信息收集,,,使用命令(,display interface,)查看,S6506,和交换机,C,的千兆接口状态,双方物理接口和链路层都正常,UP,使用命令(,display,arp,和,display,mac,-address,)查看,MAC,地址表和,ARP,表,双方都能学到对方的,MAC,地址,并建立正确的,ARP,表项查看,S6506,路由表,发现接口路由和直连路由正常,也有,C,交换机的路由信息查看,C,的路由表,发现路由信息也正常友商,C,S,6506,用户网关,MA5100,ADSL,用户,千兆光口,友商交换机三层接口问题导致与,S6506,互通网络中断,原因分析,,双方之间互通已经一个多月,可以排除兼容性问题物理接口,UP,,可以初步排除物理层问题接口协议层,UP,,同时双方都能学到对端,MAC,地址,双方接口统计信息上都显示有报文收发,也可以排除二层互通问题。
双方是通过三层接口互通,可以判断是三层上出了问题,至于哪一方设备有问题,需要进一步定位友商,C,S,6506,用户网关,MA5100,ADSL,用户,千兆光口,友商交换机三层接口问题导致与,S6506,互通网络中断,处理过程,,在,C,上抓包分析,发现从,S6506,发的,ICMP,报文到,C,后,,C,没有回应从,C,发的,ICMP,报文到,S6506,之后,,S6506,给出回应报文,,C,收到但没有处理在,C,上直接连,PC,机,该接口属于和,S6506,互通的,VLAN,,发现,PC,机,ping,自己的网关竟然不通,可以肯定,C,上这个,VLAN,接口已经不工作了,有吊死的嫌疑更改,C,上相应的,VLAN,接口,问题解决,问题都是由于这个三层接口吊死导致总结,,多利用抓包工具,对于故障的分析和定位很有帮助友商,C,S,6506,用户网关,MA5100,ADSL,用户,千兆光口,VLAN,配置不完全导致业务不通,,S3026A,配置了,VLAN 2,,,3,,,4,,,100,,,G2/1,和,G1/1,均为,T,Trunk,,模式,并均配置了,port trunk permit,vlan,all,。
S3026B,配置了,VLAN 5,,,6,,,7,,,100,,,GE1/1,为,Trunk,,模式,并配置了,port trunk permit,vlan,all,VLAN 100,为管理,VLAN,故障现象:,S3026A,下的,PC,机均可以与,S8016,下的,PC,互通,而,S3026B,的,VLAN 5,,,6,,,7,下的,PC,不能与,S8016,互通,但,VLAN 100,下的,PC,可以与,S8016,互通现象描述,,中心交换机,S8016,的,G1/1/1,接口通过光纤下连,S3026A,的,G2/1,接口,,S3026A,通过千兆电口,G1/1,级联一台,S3026B,交换机的,GE1/1,口S8016,配置了,VLAN 2,,,3,,,4,,,5,,,6,,,7,,,100,,并配置了相应的三层接口,,G1/1/1,为,Trunk,,模式,并配置了,port trunk permit,vlan,all,S3026A,S3026B,S8016,PC,PC,PC,PC,PC,G1/1/1,G2/1,G1/1,G1/1,PC,允许所有,VLAN,通过,Trunk,Trunk,VLAN,配置不完全导致业务不通,,信息收集,,VLAN100,下的,PC,机能够正常通信,说明线路无故障。
S3026B,的,VLAN100,下的,PC,能与,S3026A,的,VLAN100,下的,PC,正常通信,说明,VLAN 100,的,Trunk,能够正常传递,但,VLAN 5,,,6,,,7,的,PC,为什么不能正常,问题基本定位在数据配置上查看,S3026B,的,G1/1,的端口状态,发现允许通过的,VLAN,为,5,,,6,,,7,,,100,查看,S3026A,的,G1/1,和,G2/1,的端口状态,发现允许通过的,VLAN,为,2,,,3,,,4,,,100,,没有,VLAN 5,,,6,,,7,两台交换机都没有启用,GVRP,动态,VLAN,注册协议VLAN,配置不完全导致业务不通,,原因分析,,,原因在于,VLAN,在,Trunk,接口的注册上,虽然我们配置了,port trunk permit,vlan,all,,但其实是允许本交换机中配置的,VLAN,通过,而不是允许所有的,VLAN,通过,这可以通过查看端口的状态发现这样在级联交换机时,上层交换机不能传递下面交换机的,VLAN,信息,从而导致下面的交换机用户业务不正常处理过程,,在,S3026A,手工增加没有的,VLAN 5,,,6,,,7,,网络正常。
另外一种方法是启用动态,VLAN,配置,在两台交换机上启动,GVRP,,便可以避免产生类似故障VLAN,配置问题导致,S3526,下用户上网速度慢,,组网描述,,组网:友商交换机,A,下挂二层交换机,B,,交换机,B,通过,FE,下挂,S3526,,,S3526,下面接入用户故障现象:,S3526,下用户上网速度慢,有时出现网页打不开的现象而,S3526,上行口的,Active,指示灯频繁闪烁,查看其他接口,发现指示灯也频繁闪烁Trunk,Trunk,用户,S3526,友商交换机,A,友商交换机,B,(,L2,),允许所有,VLAN,通过,VLAN,配置问题导致,S3526,下用户上网速度慢,,信息收集,,S3526,交换机上各个端口指示灯频繁闪烁,很有可能是交换机内部形成了广播风暴,通过命令显示接口状态,发现接口统计数据显示收到大量的广播报文,用抓包程序在,S3526,上捕获报文发现广播包很多,大约,10,秒内抓包,30000,多个检查配置,发现,S3526,上行端口配置允许所有,VLAN,通过,断开和交换机,B,的连接后,广播风暴消失检查交换机,B,的配置,发现,B,作为纯二层交换机使用,,Trunk,接口上也配置了允许所有,VLAN,通过。
检查网络拓扑情况,发现是树型结构,不存在环路问题Trunk,Trunk,用户,S3526,友商交换机,A,友商交换机,B,(,L2,),允许所有,VLAN,通过,VLAN,配置问题导致,S3526,下用户上网速度慢,,原因分析,,,很显然大量的广播包来自交换机,B,,是属于,Trunk,接口配置不当引起由于,Trunk,接口允许所有,VLAN,通过,导致很多其他,VLAN,的报文通过交换机,B,到达,S3526,上行口,而,S3526,本身并没有这些,VLAN,的用户处理过程,,在各个交换机上使能,GVRP,协议,使无关,VLAN,的信息不能到达,S3526,由于使用不同厂家的设备,如果不支持同一种协议,可以修改交换机,B,的配置,取消交换机,B,上行口,TRUNK,功能Trunk,Trunk,用户,S3526,友商交换机,A,友商交换机,B,(,L2,),允许所有,VLAN,通过,在启用,GVRP,的低端交换机上如何创建所需的,VLAN,现象描述,,,低端交换机如,S20XX,、,S30XX,系列,在启用,GVRP,的时候,将接收,GVRP,协议发送的所有,VLAN,信息,并在本交换机上创建相应的,VLAN,。
当发送的,VLAN,数量超过,32,,将只能够在本地创建序号低的前面,32,个,VLAN,如果交换机上需要其他,VLAN ID,更高的,VLAN,,将无法实现原因分析,,这是由于低端交换机如,S20XX,、,S30XX,系列,最多只支持,32,个,VLAN,其启用,GVRP,时,只能够接收低的前,32,个,VLAN ID,如果客户端交换机上需要其他,VLAN ID,更高的,VLAN,,而不需要,VLAN ID,较低的那些,VLAN,,即使总的,VLAN,数量不超过,32,,也不能够实现在启用,GVRP,的低端交换机上如何创建所需的,VLAN,处理过程,,,只需要在交换机上,首先创建所需的、,VLAN ID,较高的那些,VLAN,,然后再启用,GVRP,即可建议与总结,,,这个问题是由于低端交换机所支持的,VLAN,数量规格所限,而,GVRP,在动态通告,VLAN,信息时,是不管对端交换机所支持的,VLAN,规格的,当遇到如上问题时,可以使用这个规避措施网络用户私自安装配置,DHCP,服务器导致其它用户上网不正常,S3026,DHCP,服务器,友商交换机,F,L,区,S2403F,S2403F,S2403F,C,区,G,区,用户私有,DHCP,服务器,VLAN,982,Tagged VLAN 982,Untagged,S2403F,下用,户二层隔离,C,区用户上,网正常,L,区和,G,区用户,上网不正常,S3026,网络用户私自安装配置,DHCP,服务器导致其它用户上网不正常,现象描述,,,在某住宅小区宽带网中,每单元分配一个,VLAN,号,组网为中心机房的友商交换机,F,连接,DHCP,服务器,并且下接各单元中的,S3026,,,S3026,下再接,S2403F,交换机。
同时,S3026,和,S2403F,上都接有用户客户要求,S3026,往上送的业务报文必须为,Tagged,报文,且只能包含一个,VLAN,号,为了符合这个要求在,S3026,上没有再划分,VLAN,,而是所有端口都属于一个,VLAN,同时,2403F,各个端口划分在不同的,VLAN,里,且,2403F,的上行口是,Untagged,的如图所示,在某单元中,G,区交换机为,S3026,,,L,和,C,区均有一台,S2403F,接于,G,区的,S3026,上这三台交换机同属于,VLAN 982,故障现象:,C,区下的用户上网正常,但,L,和,G,区下面的用户在动态获取,IP,时,获取的,IP,地址正确,但获取的,IP,地址掩码、网关、,DNS,均错误,用户不能正常上网网络用户私自安装配置,DHCP,服务器导致其它用户上网不正常,原因分析,,,用户动态获取,IP,地址工作过程:首先发一个,DHCP,广播报文当同一,VLAN,内有,DHCP,服务器时,用户计算机首先获取的是本,VLAN,内,DHCP,服务器回应的,DHCP,报文,从而获得,IP,地址(当然这里还需要这个,DHCP,服务器与用户计算机之间没有三层隔离,因为隔离了,DHCP,服务器就不能收到用户计算机发出的,DHCP,广播报文,也就不可能为用户分配,IP,地址)。
当本,VLAN,内没有,DHCP,服务器或存在,DHCP,服务器但服务器与用户之间三层隔离时,则通过三层设备上所配置的,DHCP Relay,指定的,DHCP,服务器获得,IP,地址C,区下的用户可以正确获得,IP,地址,说明,DHCP Server,工作正常网络用户私自安装配置,DHCP,服务器导致其它用户上网不正常,原因分析(续),,G,区和,L,区的用户获得的地址异常,说明用户发出的,DHCP,广播报文没有到达,F,交换机下的,DHCP,服务器,也就是,DHCP Relay,没有起作用;或者说虽然到达了,DHCP,服务器,但用户,PC,优先选用本,VLAN,的,DHCP Server,分配的,IP,地址这说明本,VLAN,内有非法的,DHCP,服务器由于在单个,S2403F,下的各个用户已经隔离开来,但,L,区,S2403F,下的用户、,C,区,S2403F,下的用户和,S3026,下接的用户都同属于一个,VLAN,他们之间并不能实现隔离当,C,区有用户私自配置了,DHCP,服务器时,,L,、,G,区下的用户就会从,C,区本,VLAN,的,DHCP,服务器获得不正常的,IP,,而导致不能正常上网。
C,区下面的其他用户却因为自身和,C,区的,DHCP,服务器之间作到了隔离而按三层设备所指向,DHCP Relay,指定的,DHCP,服务器获得正确的,IP,地址网络用户私自安装配置,DHCP,服务器导致其它用户上网不正常,处理过程,,在,G,区下获取错误的配置信息,查看此时的,DHCP,服务器地址该地址即为该单元中一用户地址向该用户计算机发一个,ping,包,同时用抓包工具进行抓包在抓取的信息中获得该用户计算机的,MAC,地址登陆,G,区,S3026,查看该,MAC,地址与端口的对应关系确定出该用户为来自,C,区,S2403F,下的用户再登陆,C,区,S2403F,,确定在,S2403F,上该,MAC,地址与端口的对应关系查看端口连线,确定用户为接于,C,区,S2403F,下某一用户关闭该用户的,DHCP,服务后网络正常物理层问题,,端口协商以及自环问题,,VLAN,问题,,集群管理和网络管理问题,,设备兼容问题,,其他问题,目录,集群故障排除综述,,集群故障排除的关键在于清楚掌握集群的原理,,集群是网络管理的一种重要手段和方法,,集群故障绝大多数为全网设备不能够同时进行正常管理,,不同的集群实现方法采用不同的机制,由于理解不深刻导致集群管理失败的可能性较大。
集群简介,,H3C,系列交换机提供的集群管理,目前主要有两个版本HGMP V1,:采用,Server/Client,的方式进行管理,,HGMP V2,:包含命令交换机,成员交换机和候选交换机三种角色,,HGMP,协议的功能:,,对交换机实现集中管理,,交换机的注册,,软件的升级,,配置查询和设定,,重启动等操作,,支持交换机的级联工作方式,,HGMP V1,简介,,HGMP V1,:采用,Client/Server,的方式进行管理,,HGMP Client,主要要求根据管理设备下发的维护和查询命令作出相应的处理,同时保证与管理设备之间的通信可以担当,HGMP Client,的以太网交换机有:,,S2008B,,,S2016B,,,S2026B,、,S2403F,等,,HGMP Server,主要是提供人机命令输入接口,控制维护命令的显示,同时提供一定的数据结构以存储其下挂的多台以太网交换机的相关信息既可以担当,HGMP Client,也可以担当,HGMP Server,的以太网交换机有:,,S2008,,,S2016,,,S2026,,,S2403H,,,S3026,等,HGMP V2,简介,,HGMP V2,:包含命令交换机,成员交换机和候选交换机三种角色,,管理交换机:,,提供管理接口,发现邻接信息、收集整个网络的拓扑结构、管理集群、维护集群状态、支持各种代理,,成员交换机,,发现邻接信息、接受管理设备的管理、执行代理发过来的命令、故障,/,日志上报,,候选交换机,,没有加入任何集群中但具有集群能力、能够成为集群成员的交换机,,HGMP V2,还利用,NDP,和,NTDP,协议提供了网络拓扑发现功能和网络拓扑收集功能,网络管理故障排除综述,,网络管理故障排除主要有如下两种:,,网络设备和网管之间的通信故障,,网络设备的网管配置错误,,网络设备和网管之间的通信故障,,此种故障应该属于网络连通性的问题。
其具体故障排除过程参见其他部分但是在网络管理故障排除时,我们首先应该确认是否属于此类问题,,网络设备的网管配置错误,,网络管理协议,SNMP,版本不匹配,,SNMP,的团体属性不匹配,,SNMP,的用户名和密码不匹配,HGMP V1&V2,配合解决方案,,现象描述,,无法通过单一的集中管理方式同时实现,S6506,、,S3026,、,S2016B,的集中管理原因分析,,S6506,只支持,HGMP V2,;,,2016B,只支持,HGMP V1 Client,;,,S3026,支持,HGMP V1 Server,和,Client,,也支持,HGMP V2,;,,HGMP V1,和,HGMP V2,不能直接互通HGMP V1&V2,配合解决方案,,,HGMP V1,S2403F,S2026B,S2008B,S2016B,中低端系列等以太网交换机构成的网络,它们之间以,HGMP V2,进行管理,S6506,S2403H,S3026,S6506,HGMP V1&V2,配合解决方案,,处理过程,,S3026,作集群命令交换机;,,,S2403H,作集群的成员交换机和,HGMPV1.0,的,Server,;,,S2016B,作,HGMPV1.0,的,Client,;,,,,解决办法,,在,S3026,上可以实现对,S2403H,的管理,可以使用命令,Cluster switch-to,登录,S2403H,,在,S2403H,上可以实现对,S2016B,的管理。
设备重启后导致集群管理失败,,现象描述,,,S3026E,作为,Cluster,的命令交换机,,S3026,作为成员交换机组网如图所示:,,,,,,,配置集群成功后,能够看到成员交换机,S3026,,重启,S3026,以后,发现通过集群命令无法登录成员,S3026,,使用命令查看发现能够看到成员交换机,。