npm应急处理手册

上传人:自*** 文档编号:78882230 上传时间:2019-02-15 格式:DOC 页数:13 大小:829.87KB
返回 下载 相关 举报
npm应急处理手册_第1页
第1页 / 共13页
npm应急处理手册_第2页
第2页 / 共13页
npm应急处理手册_第3页
第3页 / 共13页
npm应急处理手册_第4页
第4页 / 共13页
npm应急处理手册_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《npm应急处理手册》由会员分享,可在线阅读,更多相关《npm应急处理手册(13页珍藏版)》请在金锄头文库上搜索。

1、 Npm应急处理手册npm应急处理手册NPM应急处理手册项目资料 严禁外传2目录1 总则11.1 适用范围12 突发事件分级分类12.1 突发事件分类(示例)12.2 突发事件分级(示例)22.3 突发事件升级23 系统重建23.1 备份情况23.2 主机系统恢复与重建34 附件:44.1 通讯联络清单44.1.1 事件快速响应电话45 技术相关应急场景与应急处理(示例)55.1 NPM应急预案55.1.1 Dp应急预案55.1.2 SP应急预案55.1.3 Mongo迁移应急预案65.1.4 MongoDb重启应急预案85.1.5 NPM软件重装应急预案85.1.6 License安装应急预

2、案95.1.7 临时文件清理应急预案105.1.8 配置文件恢复应急预案115.1.9 数据积压应急预案11101 总则1.1 适用范围本预案适用于预防和处置NPM网络性能监控的突发事件。本预案所称突发事件,指NPM网络性能监控出现异常,影响业务的持续开展,需要采取应急处置措施的事件。2 突发事件分级分类2.1 突发事件分类(示例)NPM网络性能监控突发事件按事件现象分为六类:操作系统故障、应用系统故障、通讯故障、自然灾害、人为破坏、外部服务中断。(1) 主机及操作系统故障类:指由于系统硬件、系统软件、通讯链路、基础设施等故障导致系统中断、系统性能大幅下降的突发事件。(2) 应用系统故障:指由

3、于应用软件故障等导致业务中断或无法正常开展的突发事件。(3) 通讯故障:指由于通讯网络中断、网络攻击、计算机病毒爆发等原因造成系统与外围系统通讯异常,导致业务中断或无法正常开展的突发事件。(4) 自然灾害类:指由于火灾、雷击、海啸、地震、重大疫情等自然灾害引起线路中断、设备损坏等事故,导致业务中断或无法服务的突发事件。(5) 治安事件类:指由于黑客攻击、恐怖袭击等违法犯罪对生产设备造成损坏,导致系统无法正常服务的突发事件。(6) 外部服务中断:指由于第三方系统因故障或其他原因停止服务,导致系统无法正常服务的突发事件。2.2 突发事件分级(示例)NPM网络性能监控突发事件依照影响业务类别及持续时

4、间等因素,分为三级:IV级(特别重大事件)和V级(重大事件)和VI级(较大突发事件)。(1) 特别重大运营中断事件(IV级)1) NPM网络性能监控数据包泄露,导致银行客户账号信息泄露,从而对银行以及客户造成名誉和经济上的损失。(2) 重大运营中断事件(V级)1) NPM网络性能监控服务器宕机不能够正常进行登录,同时不能够对业务系统的交易进行实时监控。 2) NPM网络性能监控服务器因为硬件损坏或操作系统升级补丁,产生不兼容,导致服务器不能正常运行(3) 较大运营中断事件(VI级)1) NPM网络性能监控应用程序因为产品缺陷导致不能驱使应用程序正常运行,同时不能够实时监管交易系统的响应时间。2

5、) 因为人员操作失误原因导致NPM网络性能监控系统不能够正常运行,同时不能够实时监管交易系统的响应时间。2.3 突发事件升级NPM网络性能监控突发事件发生后,应依据事件影响的范围、时间等因素的变化,按上述定义进行事件级别升级。3 系统重建3.1 备份情况(1) 数据库备份情况:由于NPM网络性能监控产品的数据库为内嵌式数据库以配置文件形式存在,数据分两部分,一部分是监控数据,另一部分是信息数据,针对监控数据采取定期清理自动清理的模式。(2) 配置文件备份情况:导出/导入视图登录NPM web所在服务器执行以下命令进行操作,所有命令适用于lcv,dcv,spv。1、 导出视图Mongoexpor

6、t -d npmweb -c spv -o /tmp/spv.json2、 导出指定视图Mongoexport -d npmweb -c spv -q “name”:”spv1”-o /tmp/spv1.json3、 导入视图Mongoimport -d npmweb -c lcv -file /tmp/spv1.json3.2 主机系统恢复与重建NPM网络性能监控的重建分主机操作系统、数据库、应用程序的重建。重建情况分析如下:1. 数据库与应用程序未做HA,不能实现系统故障自动切换;2. 数据库或应用程序出现故障,可将相关备份数据放至一台预备机器上,修改配置后即可在短时间内迅速搭建起服务;3

7、. 数据库和应用程序同时出现异常,可将相关备份数据放至一台预备机器上,修改配置后即可在短时间内迅速搭建起服务;4. 如果网络出现异常,由于采用的是双网卡绑定ip机制,如果有一个网卡能用,可以自动切换。重建步骤如下:1、 安装操作系统进行常规配置如:“规划磁盘阵列进行文件系统划分,IP地址配置、防火墙配置、服务器主从配置等”2、 安装应用程序并对应用程序进行基础信息配置。包含如下数据a) npm服务配置:/opt/npm/backup,/opt/npm/etcb) 探针配置:/opt/smartprobe/etc3、 恢复数据,取系统最后一次的备份数据,进行恢复。4、 对恢复后的业务系统,进行访

8、问、业务处理、数据校验等操作。4 附件:4.1 通讯联络清单说明:列出和本预案有关各类组织和人员的联系方式。各类组织和人员包括但不限于由应急领导小组办公室、突发事件领导小组、应急执行小组和应急保障小组组成的民生银行科技开发部应急响应及恢复团队,外部为民生银行科技开发部提供有关灾备服务的第三方服务商,相关的上级监管机构、相关的新闻媒体、相关员工的家属、提供各类水、电、通讯服务的运营商和供应商、提供相关设备或服务的厂商等。联系方式包括但不限于固定电话、移动电话、家庭或办公地址、电子邮件等。4.1.1 事件快速响应电话序号电话名称单位电话1报警电话公安分局1102火警电话消防中队1193紧急救护电话

9、急救中心120,9994夏金金相孚177717803175Kevin天旦150210065546孙莹冰神州新桥135858517165 技术相关应急场景与应急处理(示例)5.1 NPM应急预案5.1.1 Dp应急预案场景 1:NPM由于数据包处理出现异常,进程down掉,Service dashboard多个视图出现超过10分钟的延迟:应急处理:在探针服务器任意目录下执行smartprobe console,重启restart _dp:*,如下截图所示:结果验证查看该smartprobe_dp进程第二列是否处在running状态5.1.2 SP应急预案场景 1:SP由于数据包乱序等异常导致sp

10、程序出现异常停止,该页面涉及到的SP抓包系统至少会出现5条以上灰色进度。应急处理:在smartprobe服务器任意目录下执行smartprobe console,重启restart pktminer*:结果验证1、 查看该pktminer的进程是否出入RUNNING状态5.1.3 Mongo迁移应急预案场景 1 Mongodb空间导致存储磁盘满应急处理:一、查看当前数据库目录和大小当前Mongo目录为/opt/npm/npm/mongo, 大小为778GB二、外挂1TB存储挂载到本地/mnt/backupdisk三、导出备份当前的路径图及相关表执行/opt/python27/bin/pytho

11、n /opt/npm/scripts/backup.py -t /opt/npm/backup/ -mongodb=npm -sqliteroot=/opt/npm/var/db/ -i会提示成功备份类似这样的log:2013-12-17 10:26:03 level=INFO type=backup start backup 20131217102603这时候就备份到/opt/npm/backup/20131217102603.backup目录。四、停止npm进程 执行 npm stop all五、停止mongo,执行/etc/init.d/mongod stop六、新建一个Mongo数据库

12、的文件夹a)重命名数据库,将/opt/lib 重命名为 /opt/lib_backmv /opt/lib /opt/lib_backb)创建一个新的Mongo文件夹: mkdir p /opt/lib/mongoc)给Mongo文件夹赋予权限: chown mongod:mongod /opt/lib/mongo七、启动mongo, /etc/init.d/mongod start八、还原配置文件和表空间结构执行脚本,把/opt/npm/backup/20131217102603.backup里面的文件还原回来:/opt/python27/bin/python mongorestore.py

13、/opt/npm/backup/20131217102603.backup/九、启动npm,执行npm start all,(17:45,从停止到启动20分钟。) 十、把/opt/lib_back中的数据dump到备份磁盘上(备份盘挂载/mnt/backupdisk),共导出180GB数据(实际1小时50分钟)。1、mkidr /mnt/backupdisk/mongoback2、nohup mongodump -dbpath /opt/lib_back/mongo/ -o /mnt/backupdisk /mongoback/ &输出log如下:Tue Dec 17 18:32:03 too

14、ls all dbsTue Dec 17 18:32:04 tools command admin.$cmd command: listDatabases: 1 ntoreturn:1 keyUpdates:0 locks(micros) R:3 W:723779 r:28 reslen:174 727msTue Dec 17 18:32:04 tools DATABASE: npm to /mnt/backupdisk/mongoback/npmTue Dec 17 18:32:04 tools npm.seq_gen to /mnt/backupdisk/mongoback/npm/seq_gen.bsonTue Dec 17 18:32:04 tools 2 objectsTue Dec 17 18:32:04 tools Metadata for npm.seq_gen to /mnt/backupdisk/mongoback/npm/seq_gen.metadata.jsonTue Dec 17 18:32:04 tools npm.main_app_datapath to /mnt/backupdisk/mongoback/npm/main_app_datapath.bsonTue Dec 17 18:32:04

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号