工业以太网通讯疑难杂症之五

上传人:汽*** 文档编号:464480450 上传时间:2024-02-03 格式:DOCX 页数:9 大小:61.77KB
返回 下载 相关 举报
工业以太网通讯疑难杂症之五_第1页
第1页 / 共9页
工业以太网通讯疑难杂症之五_第2页
第2页 / 共9页
工业以太网通讯疑难杂症之五_第3页
第3页 / 共9页
工业以太网通讯疑难杂症之五_第4页
第4页 / 共9页
工业以太网通讯疑难杂症之五_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《工业以太网通讯疑难杂症之五》由会员分享,可在线阅读,更多相关《工业以太网通讯疑难杂症之五(9页珍藏版)》请在金锄头文库上搜索。

1、工业以太网通讯疑难杂症之五:网络数据风暴问题 随着工业4.0大数据应用规模的迅速增长,我们会遇到越来越多的数据风暴问题。 【问题描述】 某F&B行业大客户的生产线控制系统采用Ethernet-IP工业以太网通讯。稳定运营两年后的某一天,现场设备与PLC主站之间的Ethernet-IP数据互换,忽然间所有断线了!为什么会这样? 【常规诊断】 检查硬件:从宏观与细节两方面观测测试,该Ethernet网络构造架设都是正常的; 检查软件:Rockwell上位机控制的Logix程序与现场设备的参数设定都未发生过改动; 检查固件:PLC上位机、现场设备、互换机的固件版本也都没有改动。似乎一切都是OK的?

2、【进一步诊断】 请注意故障现象是大批量以太网设备同步断线。这就仿佛一种网吧里所有电脑忽然所有断网,那么有经验的网管就懂得了,问题一定出在这个网吧的互换机上,需要逐个排查互换机柜内的所有网络端口。工业现场也是如此,这种问题也是锁定在现场互换机上,并且网络端口数量比计算机房互换机柜内的少诸多,排查工作量更小。 但是这并不意味着状况就更简朴:由于仔细观测现场的互换机,我们发现端口上不仅连接了工业现场设备,并且还连接了公司管理ERP数据网线。拔下ERP数据网线后再观测,所有这些工业现场设备的Ethernet-IP通讯立即恢复正常,由此可断定IT以太网域对工业以太网域导致了干扰,引起了网络风暴。 【进一

3、步分析】 那为什么之前的两年内没有浮现这样的状况?这就要用发展的眼光看问题了。 两年前该项目刚设计出来并调试的时候,基于成本控制的考虑,以及现场网络简朴的实际状况,一种互换机混合两种性质网络进行数据互换的做法,那时候看起来是可行能用的。然而这种网络构建方案其实是不规范的,由于正规的做法是配备两个Ethernet-IP主站模块,一种连接公司管理ERP互换机拓扑,另一种连接现场工业以太网设备互换机拓扑。 而设备投产两年后发生网络风暴的因素,很也许是由于:1、工业以太网比IT以太网规定更高的实时性能,对于Ethernet数据波动更加敏感;2、公司管理ERP系统发生变动而变复杂后,发送到生产现场的数据

4、量增长,超过了该台现场互换机的数据流量极限,导致数据波动,而实时性规定更高的Ethernet-IP通讯自然更早地受此影响而中断了通讯。 【解决方案】 短期措施:由于公司管理ERP数据不参与生产系统的具体控制,为了应急可以先脱开ERP网线,进行离线生产,先保证产品可以正常生产并出货。 长期措施:1、升级现场互换机,换成更大容量的、Ethernet-IP专用的管理型互换机;2、在上位机PLC模组内再增长Ethernet-IP通讯模块,把控制网络分为外网与内网,外网用于公司级数据互换,内网用于实时工业以太网通讯。这样能彻底隔开ERP信息网对现场工业以太网设备的影响。但是成本较高。 尚有一种方案三有待

5、实验,如下图所示,以 PROFINET IO 合同为例,常规以太网设备与工业以太网设备,不能接入同一种互换机上的端口;我们需要两个管理型PROFINET专用互换机,并且将常规的以太网设备集中连接到接近PLC的那个互换机端口上: 【更多思考】 目前工业4.0大数据网络概念大热,但是在实际应用中,我们必须注重对路由器互换机的选择与拓扑设计。 具体来讲就是选择更大的互换机网关数据解决流量,设计更多分层的局域网将不同性质的域分离开避免数据干扰。该类设计规则已经为各个大项目所采用,并形成了既有的规范:所有以太网工控层都要用独立互换机,每个PLC从站配备的层级不同就配备一种互换机,层级相似的可以共用一种互

6、换机(合同也要相似),绝不能与其她网络公用。 因此我推崇分散式控制系统。由于只有真正做到,将复杂控制大程序分散化到现场层的组件与部件上,才也许真正意义上的减少整个网络中的数据负载。 工业4.0控制系统的理念也是如此,并且它规定不仅仅是万物互联,并且是万物都能独立思考,也就是每一种组件内部都要有自己的独立大脑,例如嵌入式PLC或解决器。 由此可以预见,工业智能元件智能硬件在不久的将来会迎来爆发性发展的黄金机遇。 【题外话】 据说有些工业机器人大型项目的编程高手,前一份工作是开网吧的,目前看来真不是开玩笑的。 【技术附录1】IT行业内部对网络风暴的描述与解决对策1、定义 一种数据帧或包被传播到本地

7、网段(由广播域定义)上的每个节点就是广播;由于网络拓扑的设计和连接问题,或其她因素导致广播在网段内大量复制,传播数据帧,导致网络性能下降,甚至网络瘫痪。这就是广播风暴。 2、因素分析 网络设备因素:我们常常会有这样一种误解:互换机是点对点转发,不会产生广播风暴。其实,在我们购买网络设备时,购买的互换机一般是智能型的集线器(Hub),却被奸商当做互换机来卖。这样,在网络稍微繁忙的时候,肯定会产生广播风暴了。 网卡损坏因素:如果网络机器的网卡损坏,也同样会产生广播风暴。损坏的网卡不断向互换机发送大量的数据包,就会产生大量无用的数据包,最后导致广播风暴。由于网卡物理损坏引起的广播风暴比较难排除,并且

8、损坏的网卡一般还能上网,我们一般借用Sniffer局域网管理软件,查看网络数据流量,来判断故障点的位置。 网络环路(不是冗余)因素:曾经在一次网络故障排除中,发现一种很可笑的错误:一条双绞线的两端插在同一种互换机的不同端口上,导致了网络性能骤然下降,打开网页都非常困难。这种故障,就是典型的网络环路。网络环路的产生,一般是由一条物理网络线路的两端同步接在了一台网络设备中所致。但是,现今的互换机(不是HUB)一般都带有环路检测功能。 网络病毒因素:某些比较流行的网络病毒,如Funlove、震荡波、RPC等病毒,一旦有机器中毒后,它们便会立即通过网络进行传播。网络病毒的传播,就会占据大量的网络带宽,

9、引起网络堵塞,进而引起广播风暴。 黑客软件的使用:某些上网者常常运用网络执法官、网络剪刀手等黑客软件,对网吧的内部网络进行袭击,这些软件的使用,也也许产生广播风暴。 3、避免对策(以CISCO catalyst switch为例) 一方面使用网管分析你网络的baseline,这样可以明确你的网络当中正常状况下的广播包比例是多少。绝大多数互换机都支持广播风暴克制特性,配备了这个特性后来,你可以控制每个端口的广播包维持在特定的比例之下,这样可以保存带宽给必须的应用。 配备:(以CISCO catalyst switch为例) Int XX storm-control broadcast level

10、 20.00 switch#sh storm Interface Filter State Level Current - - - - Fa1/0/1 Forwarding 20.00% 0.00% 针对缺省STP配备无法排除的网络环路问题,运用STP的BPDUguard特性来避免广播风暴。 此种环路状况示意图如下: switchhub(portAportB) Switch启用了STP,而hub则被人故意无意的用一根网线联起来,导致引起了环路。SWITCH的端口不会收到 其她互换机或本互换机其她端口的 BPDU,不会触发该端口的STP决策过程,也就不也许blocking该端口,这样就会引起广播

11、风暴。我们可以运用CISCO STP的BPDUguard特性来避免这一点。 int xxx spanning-tree bpduguard enable 值得注意的是bpduguard可以在全局下配备,也可以在每端口的基本上配备。如果在全局下配备,则只对配备了portfast的端口起作用,如果在端口下配备,则不用配备portfast。 4、故障排障(以CISCO catalyst switch为例) 如果网络中已经产生了网络风暴(现象一般为网络丢包、响应缓慢、时断时通等),则可以运用如下措施排障: 1)、一方面确认与否是网络风暴或其她异常流量引起的网络异常,在核心互换机上如果互换机的CPU运用

12、率较高,且大部分的资源都被“IP Input”进程占用,则基本可以拟定网络中有大流量的数据; 2)、查找异常流量是从互换机的那一种端口来的: switch #sh int | i protocol|rate|broadcasts FastEthernet1/0/1 is up, line protocol is up (connected) Queueing strategy: fifo 5 minute input rate 0 bits/sec, 0 packets/sec 5 minute output rate bits/sec, 3 packets/sec Received 2416

13、76 broadcasts (0 multicast) 如果找到一种端口的input rate非常高,且接受到的广播包也非常多,则基本可以找到来源,如果该端口下联的也是可管理的互换机,则再次执行此过程,直到找到一种连接PC或者HUB的端口 3)、shutdown该端口 int xx shutdown 4)、查找产生异常流量的本源 如果是HUB环路,则拆掉环;如果是病毒,则做杀毒解决;如果是网卡异常,则更换网卡。此部分不详述。 5)、确认互换机的CEF功能与否启用,如果没有,则需要启用,可以加速流量的转发 配备CEF: switchsh ip cef 全局模式下输入 ip cef 【技术附录2】

14、注重互换机工作原理 目前采用的互换式互换机,第一次获取mac表是采用洪范式学习也就是广播了如果这台互换机不存在,就向她的级联互换机继续广播学习;如果互换机存在环路,就会导致广播包来回循环导致风暴导致网络不稳定;目前,某些比较流行的网络病毒,如Funlove、震荡波、RPC等病毒,一旦有机器中毒后,它们便会立即通过网络进行传播。网络病毒的传播,就会占据大量的网络带宽,引起网络堵塞,进而引起广播风暴。 在IT领域,只有广播帧才会形广播风暴,单播帧一般不会,但是如果是未知单播,也就是互换机内没有相应的单播地址,往往会引起互换机的洪范式广播学习。一般来说,更换备件不会浮现网络风暴。 网络风暴的因素来源

15、于数据包的泛洪,一般来说,组播包、广播包、DLF包(未知目的)包会引起网络风暴。网络风暴的大部分因素在于互换机有环路,我们懂得互换机是工作于数据链路层上,是基于MAC地址进行通信,它的转发和互换基于一张MAC地址表,用它标记MAC地址和互换机端口的相应关系,由于MAC地址表的建立是靠互换机的MAC地址学习来实现的,因此如果MAC地址浮现被反复学习的时候就会浮现网络风暴。 避免网络风暴可以采用如下思路: 1、隔离冲突域,把大环改成小环,把风暴隔离于小范畴内。 2、更新MAC地址age时间,如果MAC地址更新速度过快也会导致MAC地址表的不断膨胀,导致广播风暴。 3、采用广播克制技术,对于不断循环的MAC信息进行筛选和过滤,并且克制转发速度,可以将风暴缓和在一定区域。【技术附录3】检查线路连接有无错误的通俗做法 网线的两端与否插到同一台互换机上?线路连接没错误的话,一种端

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号