05-第5章 系统支持的故障分析与定位

上传人:ni****g 文档编号:561511368 上传时间:2023-02-04 格式:DOC 页数:11 大小:246.50KB
返回 下载 相关 举报
05-第5章 系统支持的故障分析与定位_第1页
第1页 / 共11页
05-第5章 系统支持的故障分析与定位_第2页
第2页 / 共11页
05-第5章 系统支持的故障分析与定位_第3页
第3页 / 共11页
05-第5章 系统支持的故障分析与定位_第4页
第4页 / 共11页
05-第5章 系统支持的故障分析与定位_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《05-第5章 系统支持的故障分析与定位》由会员分享,可在线阅读,更多相关《05-第5章 系统支持的故障分析与定位(11页珍藏版)》请在金锄头文库上搜索。

1、HUAWEI MSOFTX3000 移动软交换中心 维护手册故障处理分册目 录目 录第5章 系统支撑的故障分析与定位5-15.1 常见的故障现象5-15.2 单板硬件故障和端口故障的分析与定位5-15.2.1 预备知识5-15.2.2 单板硬件故障和端口故障的常见原因5-25.2.3 单板硬件故障和端口故障的基本处理步骤5-25.3 CPU过载的故障分析与定位5-45.3.1 CPU过载的常见原因5-45.3.2 CPU过载的处理步骤5-55.4 单板加载不成功的故障分析与定位5-75.4.1 预备知识5-75.4.2 单板加载故障的解决思路5-75.4.3 相关案例5-85.5 倒换异常的故

2、障分析与定位5-95.5.1 常见原因5-95.5.2 倒换异常的故障定位5-10iHUAWEI MSOFTX3000 移动软交换中心 维护手册故障处理分册第5章 系统支撑的故障分析与定位第5章 系统支撑的故障分析与定位5.1 常见的故障现象系统支撑是MSOFTX3000中起支撑、管理和控制作用的单板和交换机主机软件的总称,是交换机业务实现的底层部分,它的故障将直接影响交换机的业务实现。本章将介绍与系统支撑有关的故障处理。系统支撑的常见故障如表5-1所示。表5-1 系统支撑常见故障现象故障分类故障现象的具体表现形式单板硬件故障和端口故障告警台上报某块单板故障告警或者某块单板的端口故障告警且告警

3、不能恢复。CPU过载交换机或某个模块的呼叫出现大范围的阻塞现象,接通率急剧下降,CPU的占用率超过过载阈值,出现CPU过载告警。单板倒换异常不能倒换、倒换后主用异常、倒换后影响其他单板单板加载异常不能加载、反复加载、加载超时、加载后前后台版本不一致5.2 单板硬件故障和端口故障的分析与定位5.2.1 预备知识MSOFTX3000系统中单板通过如下三种方式与WSMU板通信:l 前插板通过共享资源总线向WSMU板上报单板状态;l 无处理器的后插板的状态由对应的前插板采集后通过共享资源总线上报WSMU板;l 有处理器的后插板的状态则经背板的串口总线直接上报给WSMU板。WSMU板依据单板状态的正常与

4、否产生相关的硬件故障告警或者恢复告警。扩容框的WSMU板通过基本框的WSMU板向BAM发送告警。硬件异常和告警信息上报路径如图5-1所示。图5-2 单板硬件告警信息上报路径5.2.2 单板硬件故障和端口故障的常见原因单板硬件故障和端口故障的常见原因有:l 告警单板自身硬件故障l 告警单板的上级单板故障l 单板与槽位接触不良l 母板故障l 单板端口连接故障l 桥板WHSC故障l LAN Switch故障5.2.3 单板硬件故障和端口故障的基本处理步骤各种单板硬件故障和端口故障的处理步骤基本上都很相似,如图5-2所示。图5-3 单板硬件故障的基本处理步骤在处理单板硬件故障和端口故障的操作中需要注意

5、以下几点:(1) 复位、更换、倒换、拔插单板将对系统造成一定的影响,应当在华为技术支持人员的指导下方可进行;(2) 对于主备用单板,只有在故障单板处于备用状态下,才可进行单板的拔插和更换;(3) 拔插和更换单板应严格按照更换单板的操作规范进行,其要点包括:l 更换单板必须在凌晨等话务量小时进行;l 拔插和更换单板前需要将单板上的中继、信令、资源通道等进行闭塞、隔离操作;l 拔插和更换单板后,单板完成加载,维护人员注意查询加载后的单板的软硬件版本是否正确;l 单板运行正常后需将单板资源进行解闭塞、激活操作,并对单板功能进行一定的测试。(4) 在不确定哪些单板与故障有关联时,不要轻易进行操作,应首

6、先通知华为技术支持人员。(5) 对于端口故障,请首先确认所有端口连接的正确性,其次应该注意桥板和母板的状态是否正常,LAN Switch是否有问题。5.3 CPU过载的故障分析与定位CPU过载是MSOFTX3000的严重故障,当CPU占用率过高时,MSOFTX3000会对话务量进行流量控制,从而导致呼损上升,接通率下降。5.3.1 CPU过载的常见原因CPU过载的常见原因有:(1) 话务量过大;(2) 话务统计任务周期过短;(3) 位置区设置不合理;(4) 维护操作不规范;(5) 数据设置不正确;(6) CPU过载阈值设置不正确。5.3.2 CPU过载的处理步骤CPU过载的基本处理步骤如下:1

7、. 检查维护操作是否合适大量的操作维护任务会占用大量的CPU资源,从而容易使CPU过载,为了避免在话务忙时因维护操作而导致CPU过载,应注意以下几点:(1) 忙时不要运行大批量的修改命令。(2) 忙时不要执行显示结果过多的显示命令。(3) 忙时不要将统计输出到终端。(4) 忙时不要对链路进行过多的动态跟踪。 注意:由于向大量用户发送广播短消息时,会对MSC Server造成很大的冲击,因而在发送广播短消息时,需避开话务高峰的时间,而且尽可能分批发送广播短消息,每一批的人数要尽量少一些。对于话务量已经非常高的地区,建议不要发送广播短消息。2. 检查话务量交换机某一时段的实时话务量,可通过以下几种

8、途径了解:(1) 查询近段时期的话务统计报告。分析“试呼次数、接通次数、平均占用时长”等与呼损、话务量有关的关键信息,了解系统的话务量。(2) 查询中继电路的占用情况。若中继电路的占用率超过70%,说明系统的局间话务量很大。对于话务量很大导致的CPU过载,一般是以观察为主,对于长期的因话务量而导致过载可以和其他局协商,采用话务分流的方法减少话务量,或考虑进行适当的设备升级。3. 检查话务统计任务的统计周期话务统计任务的统计周期设定对CPU占用率也有这重要的影响。由于绝大多数话务统计任务与呼叫关系紧密,因此,当任务的统计周期过短的时候,会造成CPU的负荷加重。目前比较合理的周期设置是1小时,这一

9、信息可以通过维护命令查询和修改:(1) 查询命令字:LST TRFINF,填入相应的任务ID,按即可列出该务的所有信息,其中就包含了改任务的统计周期信息。(2) 修改任务周期命令字:MOD TRFTM,填入相应的任务ID,并且在Period下拉菜单中选择对应的时间参数,按即可进行修改。需要注意的是,修改话务统计任务的统计周期对话务统计结果有一定的影响,那就是修改后的第一个统计周期将不会有话务统计的结果,请谨慎使用。4. 检查数据配置是否正常对于MSC Server而言,数据配置错误导致的CPU过载主要有两个方面,一个方面是关于信令链路、中继的负荷分担配置不均衡,导致某些信令链路负荷过大,以致负

10、责处理该部分的业务处理板过载,这种情况应该调整数据链路配置。另一类数据配置错误是MAP功能配置错误,如将周期性位置更新时间设置过短(一般情况下,周期性位置更新时间应设置为BSC/RNC设置的周期性位置更新时间的1.53倍),可能导致A/Iu-CS接口链路负荷过高。5. 对设置不合理的位置区考虑位置区分裂由于在VLR中保存的用户位置信息,都是以位置区形式的存储的。因而当MSC Server对用户进行寻呼时,是按照位置区向相应的BSC/RNC发寻呼消息。因此如果一个MSC Server下带有N个BSC/RNC,但是只有一个位置区,此时对用户的寻呼消息将发送给所有的BSC/RNC,这样相对于一个BS

11、C/RNC一个位置区来说,寻呼消息将增加N倍。因此对于一个位置区包含了多个BSC/RNC的情况而该位置区话务量居高不下时,应该考虑适当进行位置区分裂,以减少系统的负荷,保证系统安全的渡过话务高峰期。(至于到底一个位置区多少个BSC/RNC合适,没有明确的定论,但是一般认为一个位置区超过4个BSC/RNC,就应该进行位置区分裂。)6. 检查CPU过载阈值的设置CPU过载阈值的设置将直接影响CPU过载故障的告警与恢复,因此需要直接确认该阈值是否设置正确,如果设置错误,一定要立即修改。该信息可以通过如下命令查询和修改:LST CPUTHD(1) 查询CPU过载阈值命令字:LST CPUTHD,填入相

12、应的模块号,按即可列出该模块的所有四级CPU过载阈值和恢复阈值。(2) 修改CPU过载阈值命令字:SET CPUTHD,填入相应的模块号以及各个级别的过载阈值和恢复阈值,即可进行相应的设置。(3) 目前默认的CPU过载阈值信息如下:阈值Overload Level 1Overload Level 2Overload Level 3Overload Level 4Resume Level 1Resume Level 2Resume Level 3Resume Level 4默认数值80859095758085905.4 单板加载不成功的故障分析与定位5.4.1 预备知识在MSOFTX3000中,

13、所有的加载工作都是通过WSMU板来完成的,所有的业务处理板的单板程序和相应的数据都是从BAM经过该框上的WSMU来加载到单板上的,而WCPC单板则是由BAM通过WSMU板再通过业务处理板来加载的。对于单板加载不成功的原因往往是单板加载的某段路径出现异常,常见的加载路径故障有:(1) BAM上Exchange进程和主机通信中断;(2) 单板硬件版本与软件版本不配套;(3) 某些单板的关键数据没有配置;(4) 加载文件丢失或异常;(5) 标识WSMU板所在框号的拨码开关设置错误。5.4.2 单板加载故障的解决思路单板加载故障的基本思路为:1. 检查BAM和主机通信是否正常当BAM和WSMU通信故障

14、时,整个系统无法加载成功,当BAM和其它单板通信故障时,则该板加载不能成功。2. 检查WSMU板拨码开关设置是否错误通过维护命令字LST BRD可以查询指定框的单板配置,可以检查一下该框的WSMU是否正确配置,如果未能查到,则需要检查WSMU背板(WSIU板)拨码开关设置是否错误。3. 检查是否是某些重要数据没有配置当没有配置MAP功能信息、本局信息、WCDB功能配置时,会造成WCCU板重复加载;当没有配置位置区小区时,WCDP板也会重复加载。4. 检查软件版本是否正确使用MML命令“DSP BVER”查询软件版本与是否与软件版本描述表中内容一致。单板加载后软件版本与要加载的版本不一致一般是因

15、为单板超时保护引起的。单板超时保护是指WSMU、WCDP、WCCU等主控板,在单板上电后一段时间内得不到加载响应,就会使用本板FLASH内的程序数据。因此,如果FLASH内的程序与加载的程序不一致,就会造成版本不一致的现象。另外加载软开关设置不正确也会造成软件版本不一致的情况。(正确的软件开关设置应该是:加载前为程序、数据不可用,程序、数据可写;加载完成后正常运行时为程序、数据可用,程序不可写、数据可写。)5. 检查加载文件是否异常如果单板都可以完成加载,但单板状态为故障,则有可能是加载文件异常造成的。出现这种情况,可以首先查询加载软件的大小、日期是否正确,再使用对比法,用一个已验证过的加载文件进行加载。5.4.3 相关案例1. 加载文件不对导致单板不能正常加载【故障现象】某MSOFTX3000局升级,发现单板长时间没有反应,根本无法加载相应的文件。【故障分析】在BAM安装完毕后

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号