zxg10-scv3.0)短消息中心故障应急指导书

上传人:千****8 文档编号:116331693 上传时间:2019-11-16 格式:DOC 页数:20 大小:420KB
返回 下载 相关 举报
zxg10-scv3.0)短消息中心故障应急指导书_第1页
第1页 / 共20页
zxg10-scv3.0)短消息中心故障应急指导书_第2页
第2页 / 共20页
zxg10-scv3.0)短消息中心故障应急指导书_第3页
第3页 / 共20页
zxg10-scv3.0)短消息中心故障应急指导书_第4页
第4页 / 共20页
zxg10-scv3.0)短消息中心故障应急指导书_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《zxg10-scv3.0)短消息中心故障应急指导书》由会员分享,可在线阅读,更多相关《zxg10-scv3.0)短消息中心故障应急指导书(20页珍藏版)》请在金锄头文库上搜索。

1、ZXG10-SC(V3.0)短消息中心故障应急指导书深圳市中兴通讯股份有限公司ZXG10-SC(V3.0)短消息中心故障应急指导书本资料著作权属深圳市中兴通讯股份有限公司所有。未经著作权人书面许可,任何单位或个人不得以任何方式摘录、复制或翻译。侵权必究。Copyright 2002 ZTE Corporation Shenzhen P. R. ChinaAll rights reserved.No part of this documentation may be excerpted, reproduced, translated, annotated or duplicated, in an

2、y form or by any means without the prior written permission of ZTE Corporation.策 划 移动用服部编 著 朱权力责任编辑 江月军* * * *深圳市中兴通讯股份有限公司地址:深圳市高新技术产业园科技南路中兴通讯大厦客户支持中心热线:(+86755)26770800 800-830-1118传真:(+86755)26770801E-mail:网址:http:/邮编:518057* * * *版次:2002年12月第1版前 言声明:由于产品和技术的不断更新、完善,本资料中的内容可能与实际产品不完全相符,敬请谅解。如需查询

3、产品的更新情况,请联系当地办事处。目 录1 概述21.1 目的21.2 使用对象21.3 适用场合22 设备故障预防措施32.1 设备巡检32.2 数据备份33 应急处理流程说明44 系统掉电的应急处理65 硬件故障应急处理76 软件故障的应急处理86.1 系统监控86.2 系统测试86.3 系统拥塞的应急处理86.3.1 减少系统的负荷86.3.2 操作引起的故障96.4 网络风暴或恶意攻击应急处理96.4.1 网络风暴的判断106.4.2 网络风暴应急处理107 节日应急处理118 附件一紧急维护记录139 附件二重试配置141 概述1.1 目的ZXG10-SC(V3.0)故障应急处理指导

4、书,是针对中兴通讯网上短消息设备在运行过程中或者操作过程中可能出现的紧急问题,如告警异常、CPU占用过高、瘫机、系统功能异常、大话务量等而制定的操作指导,其目的是在设备发生故障时,提供紧急维护的手段,以便快速恢复业务,从而把损失和影响降低到最低程度。1.2 使用对象中兴通讯ZXG10-SC(V3.0)维护工程师1.3 适用场合设备运行过程中出现重大故障。操作设备(如扩容、升级等)过程中出现重大故障。2 设备故障预防措施2.1 设备巡检要求定期对设备进行巡检,了解设备的运行情况,特别注意告警、性能统计等是否有异常现象,主要检查内容概要如下,具体的检查项目请见附件ZXG10-SC日常检查手册1告警

5、箱2前台交换机检查3业务处理机检查4SMPP AGENT检查5计费服务器检查6129服务器检查7信息台实体检查8催缴费台检查9人工台检查10排队机检查11CTI SERVER服务器检查12排队机129服务器检查13语音信箱功能检查2.2 数据备份备份系统是为了防止意外情况发生,ZXG10-SC维护工程师一定要有良好的备份习惯。备份一定要全面,作好标识,由专人保管。要保证有2份以上完全同样的备份保存,建议备份到硬盘,有条件还可以备份到MO,不能备份在同一台计算机里。备份方式:1最小备份:进入基本配置管理和SC配置管理,进行业务的最小备份。2业务备份:将ZXG10-SC系统的运行文件和接口进行备份

6、。3最大备份:将操作系统和数据库进行完全备份。3 应急处理流程说明故障发生后,请第一时间上报给中兴公司ZXG10-SC维护工程师。在中兴公司工程师指导下或者根据以下流程完成系统应急处理。短消息设备应急流程说明如下:1短消息系统工作环境较复杂,涉及IW/G网关、短消息中心、网络设备等,分布区域较大,因为异常原因引起掉电的可能性较大,因此在短消息系统出现故障时,应首先关注电源问题。如果发生大规模的电源故障,请尽快将所有的磁盘阵列、服务器、交换机等设备的电源依次关闭。等待电源供电稳定后重新开电,开电顺序和关电顺序相反。2网络设备的正常工作是短消息系统稳定运行的保证,可以使用PING命令检查各计算机、

7、排队机MP板、短信网关MP等是否能连通,保证基本的网络环境正常。常见的原因如:网线松动、网线断、网络交换机掉电等硬件故障和配置改动等软件故障。如果出现短信中心所有的设备网络都不正常的情况,请检查网络中的HUB等设备。如果故障出现在某个模块,检查该模块的网络配置情况。3短消息网关或排队机的MP出现不正常时,可能会影响短信业务,此时可以采取数据同步、复位网关MP、复位机架等进行尝试。故障若出现在前台时,请在前台交换机的前面观察MP和其他单板上的各个指示灯的运行情况,若MP和其他单板通过反复复位都无法启动时,请尽快更换MP,或加显卡进行故障的定位。4业务处理机是否运行正常,可以通过维护终端进行监视,

8、如果有问题可以采取复位业务处理机等来尝试解决,如果不能恢复,请观察业务处理机的上电调试信息,观察数据库是否破坏或接口改变和客户端连接协议改变等如果数据库损坏,倒换双机或在其他服务器上建立对应的数据库,然后在SC配置和本地配置中将参数指向相应的节点和数据库。5如果出现计费问题,请先进行判断是否为短信中心问题、传输问题、计费中心问题等,然后进行有关处理。如果为短信中心问题请观察130上的业务程序是否启动、分解程序是否启动、140等业务处理机上的BIL目录下是否产生了积压文件等。出现问题,可以查看告警箱有无告警,如有告警,可以在短信中心或排队机的应用服务器或维护台上的故障管理系统中查看有关告警记录信

9、息,然后做出响应的处理。6上面的方法如果不能解决现场故障,请与中兴公司ZXG10-SC维护工程师或者中兴公司移动用服部联系。备注:在故障管理系统中告警信息,可以知道当前告警的具体信息,如设备单板故障、网络链路故障、7号链路故障等,比较方便现场及时定位问题原因。4 系统掉电的应急处理需要的注意点:系统在掉电瘫痪后,不能马上重启,必须查明事故原因,以防止电源短路等更严重的后果发生。重启步骤:检查系统掉电原因并确认系统是否允许重启。检查交换机、服务器、小型机等关键硬件设备是否全部掉电,如果有个别机器没有掉电,那么就应该全部将还在运行的软件退出。在检查工作完成之后,开始上电启动短消息及其业务系统。1交

10、换机上电,观察没有问题的情况下,进行系统加载。2上电短消息中心各服务器或小型机等主机的磁盘阵列或磁带机等外设。3上电启动短消息中心各服务器或小型机等主机设备,启动操作系统。4启动短消息中心应用程序。请根据ZXG10-SC操作维护说明来进行。5进行点对点短消息测试,确认短消息中心系统运行已经恢复正常。注意:对于双机系统,如果带有磁阵,请先启动磁阵,然后在启动主机,再启动备机(主备机不要同时重起)。5 硬件故障应急处理短信网关和排队交换机出现硬件故障,排查起来比较容易,并且上述设备的关键单板硬件都配置成主备方式,一旦出现故障,在坏板没有及时替换之前,系统基本还能够正常运行。然而,有些单板与对端局相

11、连,出现硬件故障后将会对系统造成不同程度的影响,但是这在系统配置中是可以补救的。如在系统配置和工程安装中,考虑到与中继相关联单板的可靠性,对于每个局向可以采取负荷分担的两条链路和两个中继路由。另外,对于处理7号信令板,在配置中肯定是负荷分担的,如果有一块单板出现硬件故障,可以马上将损坏单板需处理信令的链路,通过有关数据管理台的数据配置到其它好的信令板上,保证系统仍然安全运行。目前ZXG10-SC在前台交换机配置上通常采用64K中心机架组网和8K外围模块组网两种方式,在这两种方式下,设备1、2号模块MP主要承担消息交换和OMC功能,因此必须确保1、2号模块的正常。在极端情况下,如果1或2号模块的

12、左右MP同时出现故障无法正常启动的情况,则必须从其他模块MP上拔下一块MP,将其C:DATAV0100、C:DATATEMP两个目录下的文件删除,然后将MP主板上的模块跳线跳到1或者2号模块的位置,重新插到1或者2号模块位置,最后重起重传3次数据。如果正在运行中上述业务平台出现硬件故障,就应该采取相应的补救措施,以保证系统尽快恢复运行。如果工程中配置有备用机器,那么在安装的过程中必须将该硬件也安装起来,并且与主用机器安装配置成双机系统,这样在主用机器硬件出现故障时,马上启动备用机器进行接管,保证系统运行不受影响。如果工程中没有配置有备用机器,一但出现故障,应该紧急找出一台计算机进行恢复安装,使

13、系统尽快恢复。有关业务模块的安装请参照ZXG10-SC短消息中心安装手册来进行安装调试。6 软件故障的应急处理系统业务软件的应急处理是建立在良好的日常维护和备份的基础之上的,因此在系统的运行中,需要作好备份工作。6.1 系统监控在节假日尤其是春节期间,短消息使用一般会是平时运行的好几倍,所以在这期间,定期对系统进行检查,可以及早发现系统是否出现拥塞等问题。在节假日对短消息中心系统维护,建议每1个小时左右就进行一次系统的监控,春节除夕晚上建议半小时进行一次系统的监控。监控的对象主要是:1短消息中心当前的处理消息数,注意是否已经接近系统设计的最大容量。2短消息中心所在机器的系统资源,跟踪系统占用资

14、源是否已经接近系统设计的最大容量。3数据库/话单文件等是否还有足够空间和资源。4当前的告警有无任何负荷告警等。6.2 系统测试在节假日对短消息中心系统维护,建议每1个小时左右就进行一次系统的测试,春节除夕晚上建议每半小时进行一次系统的测试。测试的方法主要是:1进行本局之内点对点的短消息的发送,注意观察短消息是否能成功的提交和接收、以及整个短消息过程的时延情况。2进行本省之内点对点的短消息的发送,注意观察短消息是否能成功的提交和接收、以及整个短消息过程的时延情况。3进行省间点对点短消息的发送,注意观察短消息是否能成功的提交和接收、以及整个短消息过程的时延情况。4针对各个局所开展的不同的短消息业务

15、,进行相应的业务短消息的测试,注意观察短消息是否能成功的提交和接收、以及整个短消息过程的时延情况。6.3 系统拥塞的应急处理6.3.1 减少系统的负荷在节假日话务量增大的情况下,我们短消息中心有一套限制流量、自我保护的机制。这主要是通过对短信系统的安全变量的参数进行设置实现。当业务量增大并超过某个门限值时,系统将会产生不同级别(16级)的告警,同时系统将按不同级别告警对当前短消息业务进行不同级别的丢包限制处理,以保证系统能正常运行。如果再加上适当的人工调节,将使短信系统运行更加稳定可靠,使有限的业务处理能力得到更加合理的利用。同时在监控的过程中如果发现已经出现业务量不断增大、短消息中心开始拥塞、资源快占用尽的情况,局方维测人员应该采

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号