IBS系统应急维护手册v1.12011年5月目录1 系统概述 3 系统主机列表 3 系统拓扑图 42 应急预案的触发条件 53 应急预案启动的管理决策流程 64 故障场景 7 计费模块 7 主机硬件故障 7 数据库故障 8 中间件故障 15 帐务模块 16 主机硬件故障 16 数据库故障 18 中间件故障 18 收费模块 18 主机硬件故障 18 中间件故障 19 汇集模块 19场景1 IBSHJDB1主机故障 19场景2 IBSHJDB2主机故障 19 OD模块 20 主机硬件故障 20 数据库故障 21 中间件故障 21 集团接口模块 21 存储硬件故障 22场景1 数据保护DS8100存储故障 22场景2 网络智能DS8300存储故障 225 附录 AIX操作系统日常维护 22 AIX日常检查 22 AIX日常维护 24 AIX HACMP维护 25 存储设备日常检查 28 存储设备日常维护 291 系统概述1.1 系统主机列表序号主机名主机型号IP地址业务功能1ncs2busiIBM pSeries / 9117-MMA营业、帐务前置机2ncs2bankIBM pSeries / 9117-MMA银行前置机3NCSZF1IBM pSeries / 9131-52A固网支付业务14NCSZF2IBM pSeries / 9131-52A固网支付业务25NCSweblogic1IBM pSeries / 9131-52AWeblogic服务器16ncsweblogic3IBM pSeries / 9133-55AWeblogic服务器37NCSweblogic2IBM pSeries / 9131-52AWeblogic服务器28IBSJFAPP1IBM pSeries / 9133-55A计费应用服务器19IBSJFAPP2IBM pSeries / 9133-55A.162计费应用服务器210IBSJFDB1IBM pSeries / 9119-595计费数据库111IBSJFDB2IBM pSeries / 9119-595计费数据库212IBSJFRAC1IBM pSeries / 9119-595计费RAC数据库113IBSJFRAC2IBM pSeries / 9119-595计费RAC数据库214BCCJZ_BILLIBM pSeries / 9119-595帐务数据库115BCCJZ_ACCOUNT IBM pSeries / 9119-595帐务数据库216IBSweb1IBM pSeries / 9133-55AWeblogic应用服务器317IBSweb2IBM pSeries / 9133-55AWeblogic应用服务器418IBSweb3IBM pSeries / 7038-6M2Weblogic应用服务器319IBSweb4IBM pSeries / 7038-6M2Weblogic应用服务器420IBStuxedo1IBM pSeries / 9117-MMATUXEDO服务器121IBStuxedo2IBM pSeries / 9117-MMATUXEDO服务器222IBSDSGD1IBM pSeries / 7028-6C4欠费、停复处理、定时工单123IBSDSGD2IBM pSeries / 7028-6C4欠费、停复处理、定时工单224p630_1IBM pSeries / 7028-6C4接口服务器1备25p630_2IBM pSeries / 7028-6C4接口服务器1主26BCCJZ_HISTIBM pSeries / 9117-570备份服务器长话、市话、合一历史数据库27BCCJZ_STATISTICSIBM pSeries / 9117-570统计分析数据库28CSP-1IBM pSeries / 9133-55ACSP计费模块129CSP-2IBM pSeries / 9133-55ACSP计费模块230IBSjtjk1IBM pSeries / 9117-MMAIBS综合接口服务器131IBSjtjk2IBM pSeries / 9117-MMAIBS综合接口服务器232IBSODweb1IBM pSeries / 9133-55AOD接口及查询服务器133IBSODweb2IBM pSeries / 9133-55AOD接口及查询服务器134IBSOD3IBM pSeries / 9133-55ADB数据库服务器135IBSOD4IBM pSeries / 9133-55ADB数据库服务器236IBSHJDB1IBM pSeries / 9133-55A汇集数据库服务器137IBSHJDB2IBM pSeries / 9133-55A汇集数据库服务器21.2 系统拓扑图2 应急预案的触发条件当IBS系统出现以下紧急状况时,十分钟之内无法恢复业务,启动紧急预案:1. 主机硬件、网络(包括主机CPU、系统板、内存、本地硬盘、各种IO板卡、网络交换机)导致业务中断2. 中间件出现配置错误或程序逻辑错误,导致业务中断3. 数据库配置错误或程序逻辑错误,导致业务中断4. 存储设备中出现数据块损坏导致数据库无法正常运转,导致业务中断3 应急预案启动的管理决策流程应急预案的启动需经历“信息收集→故障判断→故障定位或处理→升级上报→启动预案”四个阶段。
当故障发生后,维护责任人及时收集汇总相关信息;经过维护小组组长判断即可确认故障的范围、种类、性质、等级或恢复难度及所需资源;为准确而快速的定位,提高故障处理的时效,避免因盲目操作设备而导致故障扩大化等人为事故,部门经理可对故障或处理措施提出指导性意见故障发生后5分钟内仍未恢复,维护责任人必须升级上报部门经理,联系方式附后(包括特殊情况下的越级上报);故障发生10分钟后仍未恢复的情况下,经部门经理同意,维护责任人可以启动应急预案4 故障场景4.1 计费模块4.1.1 主机硬件故障4.1.1.1 数据库主机场景1 IBSJFDB1主机故障现象1:IBSJFDB1主机宕机不可用IBSJFDB1与IBSJFDB2主机为内存库主备模式,IBSJFDB2主机为主,IBSJFDB1主机为备用主机,内存库同步中断处理方法:1. 当IBSJFDB1主机故障宕机不可用,将IBSJFDB1主机HA切换到IBSJFDB2主机a) IBSJFDB1主机HA切换至IBSJFDB2主机,以root用户执行以下命令smit clstop 选择菜单 Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车b) 在IBSJFDB2主机上查看serverip(132.77.116.52)是否切换在IBSJFDB2主机上执行netstat –i 命令查看地址是否已切换2. 上报维护组长,进行维修3. 维修完后,内存库重新同步现象2:内存库运行会产生大量的日志文件,当Alti所使用的文件磁盘目录满或者损坏时,内存库同步中断。
处理方法:1、 查看alti所使用的文件系统状态执行df –g|grep altibase命令2、 当日志文件满时,通知计费中心处理或更改配置,当日志是不能删除时需要扩容需要扩容日志目录空间3、 查看alti所用磁盘状态执行lsvg –o 命令查看ALTI_BASE1卷组是否为激活状态4、 当ALTI_BASE1卷组为不可活状态执行errpt |more 命令查看系统日志是否有磁盘硬件报错5、 当系统日志有磁盘硬件报错上报维护组长,进行维修场景2 IBSJFDB2主机故障现象IBSJFDB2宕机不可用或使用磁盘损坏不可用,计费内存库不可用处理方法1. 查看alti所使用的文件系统状态执行df -g |grep alti命令查看文件系统状态2. 查看alti的使用的磁盘状态 执行 lsvg –o命令查看ALTI_BASE2卷组激活状态 3. 当IBSJFDB2主机故障宕机不可用,将IBSJFDB2主机HA切换到IBSJFDB1主机c) IBSJFDB2主机HA切换至IBSJFDB1主机,以root用户执行以下命令smit clstop 选择菜单 Select an Action on Resource Groups按键盘ESC+4选择Move Resource Groups 最后敲回车d) 在IBSJFDB1主机上查看serverip(132.77.116.54)是否切换在IBSJFDB1主机上执行netstat –i 命令查看地址是否已切换场景3 IBSJFRAC1主机故障现象 计费RAC库实例一不可用,IBSJFRAC1主机宕机不可用,IBSJFRAC2主机业务支撑生产处理方法1. 查看ibsbill1实例监听进程 执行ps -ef|grep LISTENER 命令查看监听进程 用IBSJFDB用户执行 lsnrctl status LISTENER 命令查看监听状态2. 如监听状态异常或不存在重启监听用IBSJFDB用户执行 lsnrctl start LISTENER 命令启动实例监听3. 查看ibsbill1实例数据库后前进程执行ps -ef|grep ora_ 命令查看实例后台进程用IBSJFDB用户登录到sqlplus执行以下命令, 查看实例启动状态SQL> select instance_name,status from v$instance;4. 如数据状态异常或未启动用IBSJFDB用户登录到sqlplus执行以下命令, 关闭数据库SQL> shutdown immediate用IBSJFDB用户登录到sqlplus执行以下命令,启动数据库SQL> startup5. 查看Oracle数据库后台日志Cd到 /IBSJFDB/admin/ibsbill/bdump 目录查看文件6. IBSJFRAC1主机宕机不可用时,ibsbill1实例不可用,所有业务在IBSJFRAC2主机 ibsbill2实例支撑生产,上报系统维护人员修复主机并启动数据库场景4 IBSJFRAC2主机故障现象 计费RAC库实例二不可用,IBSJFRAC2主机宕机不可用,IBS。