互联网金融_张春林_应急标准化方法论

上传人:蜀歌 文档编号:146021380 上传时间:2020-09-25 格式:PDF 页数:26 大小:2.81MB
返回 下载 相关 举报
互联网金融_张春林_应急标准化方法论_第1页
第1页 / 共26页
互联网金融_张春林_应急标准化方法论_第2页
第2页 / 共26页
互联网金融_张春林_应急标准化方法论_第3页
第3页 / 共26页
互联网金融_张春林_应急标准化方法论_第4页
第4页 / 共26页
互联网金融_张春林_应急标准化方法论_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《互联网金融_张春林_应急标准化方法论》由会员分享,可在线阅读,更多相关《互联网金融_张春林_应急标准化方法论(26页珍藏版)》请在金锄头文库上搜索。

1、 大型商业银行故障处理实践 应急标准化方法论 张春林 2015年7月18日 大纲 4 第一部分 哲学思辩 黑天鹅事件,总是在我们自以为是的时刻发生。 5 脆弱性理论 金融体系的脆弱性理论告诉我们,金融危机的发生是由金 融体系的脆弱性内生决定的。同理,信息科技风险也是由 信息系统的脆弱性内生决定的。 硬盘的坏盘率 软件代码的BUG率 人员更替 以已知对抗未知 6 应对之策 纳西姆尼古拉斯塔勒布在 黑天鹅中给出的建议: 1、不要预测。 2、谨慎预防。 3、保持充足冗余。 7 大纲 8 9 故障处理的思考点 故障恢复时长(RTO)是衡量一个业务连续性的关键指标,它的长短决定了业务影响。 从故障发生开

2、始到故障恢复截止,整个过程包括发现、定位、恢复三阶段。 发生 发现 确诊 时间 恢复 加快发现速度 提升故障处理速度 降低发生率 目标 过程 第二部分 理性分析 故障预防 故障发现 故障定位 故障恢复 定位 应急处置过程 恢复 Time 恢复正常 恢复阶段 响应阶段 Length of Time = RTO T0 T1 T2 发现 RPO 现状: T0 =10分钟 T1 =30分钟 T2 =20分钟 目标: T0 =0分钟 T1 =0分钟 T2=5分钟 应急效率提升RTO分析 RTO=T0 + T1 + T2 善后 T3 11 分析方法: 精益六西格玛 现状概览: 1、很多故障的处理时长超过3

3、0分钟; 2、很多故障无法通过切换来解决,平均每月 2起。 应急效率提升现状分析 (已剔除超长时间) 大量的事件处理时长超过30分钟 12 1.出现故障后不知道如 何处理,找不到适当 的应急预案 2.不知道找谁处理 3.现场人员混乱 1.缺少通用故障处理流 程,过亍依赖A角; 2.演练不到位,处理不 够熟练 3.应急环境(ECC、工 具)缺少规范化管理 1.应急通讯手段落后 2.无统一指挥和标准化 流程 3.30分钟以上故障必须 报银监会 VOC (客户之声) VOP (流程之声) VOB (管理之声) 搜集用户的声音、流程的问题、管理者的声音 VOC-Voice Of Customer;VO

4、P-Voice Of Procces;VOB-Voice Of Business 应急效率提升VOC/P/B 13 应急效率提升改进评估标准 定义:故障恢复时长RTO, 故障开始时间至故障恢复时间。 测量:提取2010年至今的所有故障影响时长, 取平均值。 定义:具备电子化工具,包括监控工具、 恢复工具和通讯工具 测量:通过多个项目同步建设工具幵联劢,实现 操作一致化。 定义:具备流程,包括通用应急指挥流程 和通用故障处理流程 测量:通过各种不定时演练抽查提高熟练度 X2:流程的范围与熟练度 X1:工具保障操作一致化 Y:故障恢复时长 Y=F(X) 应急效率提升具体改进措施 14 快速诊断 快

5、速恢复 应急预案 监控平台 应急平台 故障自愈进程 一键恢复工具 业务补账工具 流量清洗服务 故障定位时间 故障修复时间 大纲 15 第三部分:成果分享 16 应急标准化 故障诊断 标准化 3 故障场景 标准化 监控KPI 标准化 2 1 预构建 基础架构 与客户的最初接 触 0 应用系统 发布/变更 故障恢复 自动化 4 架构标准化 网络 双设备+双机房+双中心 服务器 负载均衡/HA 数据库 HA+HADR/RAC+DataGuard 应用 负载均衡/HA KPI标准化 小型机监控KPI WIN监控KPI DB监控KPI 应用监控KPI 网络监控KPI 场景标准化 KPI组合,定义故障场景

6、 基础架构故障场景标准化 应用故障场景部分标准化,特 色部分单独梳理 诊断标准化 标准化诊断流程(诊断树) 定时抽取监控告警,自劢匹配场景 一键诊断脚本辅劣确诊 恢复标准化 梳理快速处置策略,部 署快速恢复脚本 架构标准化 17 应急预案 工具化 故障诊断 标准化 3 故障场景 标准化 监控KPI 标准化 2 1 预构建 基础架构 与客户的最初 接触 0 应用系统 发布/变更 故障恢复 自动化 4 BLOCK 预构建、可伸缩的基础架构单元 一组计算、存储和网络资源 标准化硬件配置和部署方式 网络双路双区接入 标准化同时考虑高可用性 组建服务器集群 监控指标标准化 18 应急预案 工具化 故障诊

7、断 标准化 3 故障场景 标准化 监控KPI 标准化 2 1 预构建 基础架 构 与客户的 最初接触 0 应用系统 发布/变更 故障恢 复自动 化 4 Switch System CPU memory fan power sensor interface protocol 硬件 软件 Cisco Mib 节点: ciscoMemoryPool(.1.3.6.1.4.1.9.9.48) Cisco Mib 节点: ciscoEnvMonFanStatusTable (.1.3.6.1.4.1.9.9.13.1.4) Cisco Mib 节点: ciscoEnvMonSupplyStatusTab

8、le (.1.3.6.1.4.1.9.9.13.1.5) ciscoEnvMonVoltageStatusTable (.1.3.6.1.4.1.9.9.13.1.2) Cisco Mib 节点: ciscoEnvMonTemperatureStatusTable (.1.3.6.1.4.1.9.9.13.1.3) Cisco Mib 节点: interfaces (.1.3.6.1.2.1.2) linterfaces (.1.3.6.1.4.1.9.2.2) Syslog告警组: C6KENV,BRIMUX CFGMGR,L2,IFS CLIENT_CLOCK_SYNC CONTROLLE

9、R ENT_ALARM ENTITY_ALARM ENVM,ENT_API ESWMOD,FDM PLATFORM RSC,SBETH SPANTREE SYS,SYSLOGD SYSTEM_HM Syslog告警组: VPNSM L2PT static HSRP SLB SNMP VSS IPSEC OSPF REDUNDANCY SNMP Cisco Mib 节点: ciscoProcess(.1.3.6.1.4.1.9.9.109) Cisco Mib 节点: system(.1.3.6.1.2.1.1) entity(.1.3.6.1.2.1.47) lsystem(.1.3.6.1.

10、4.1.9.2.1) lflash(.1.3.6.1.4.1.9.2.10) ciscoRttMon(.1.3.6.1.4.1.9.9.42) ciscoDspMgmt(.1.3.6.1.4.1.9.9.86) ciscoModules(.1.3.6.1.4.1.9.12) ciscoAdmin(.1.3.6.1.4.1.9.11) ciscoAal5(.1.3.6.1.4.1.9.9.66) Cisco Mib 节点: ip(.1.3.6.1.2.1.4) tcp(.1.3.6.1.2.1.6) snmp(.1.3.6.1.2.1.11) ospf(.1.3.6.1.2.1.14) vrrp

11、MIB(.1.3.6.1.2.1.68) lip(.1.3.6.1.4.1.9.2.4) licmp(.1.3.6.1.4.1.9.2.5) ltcp(.1.3.6.1.4.1.9.2.6) ludp(.1.3.6.1.4.1.9.2.7) ciscoCdp(.1.3.6.1.4.1.9.9.23) ciscoVtp(.1.3.6.1.4.1.9.9.46) ciscoIpSecFlow (.1.3.6.1.4.1.9.9.171) ciscoNbarProtocolDiscovery (.1.3.6.1.4.1.9.9.244) ciscoCBQoS(.1.3.6.1.4.1.9.9.166

12、) ciscoCcm(.1.3.6.1.4.1.9.9.156) 故障场景标准化标准故障场景库 19 应 用 系 统 小型机 Windows DB Network 应用 服务器 应用 服务器 数据库 服务器 外联线路 防火墙 负载均衡 服务器 服务器集群 业务应用 性能 存储 服务器 服务器集群 业务数据库 性能 存储 服务器硬件故障 操作系统故障 心跳中断 进程故障 仲裁盘故障 应用进程故障 应用逻辑故障 主机Down 应用进程异常 主机HA异常 服务端口异常 网上支付短信验证码队列堵塞 二代支付MQ应用进程某个通道异常 二代支付MQ应用进程某个队列深度异常 DB连接故障 DB引擎故障 数据

13、库故障 数据库逻辑故障 某应用系统清算异常 标准场景库标准场景库 故障场景分类体系 运营商线路异常或者对端异常 外联路由器端口异常 外联路由设备异常 防火墙策略有异常 防火墙HA状态异常 应用状态异常 负载均衡设备/HA/路由异常 应用故应用故 障场景障场景 部分标部分标 准化,准化, 特色部特色部 分单独分单独 梳理梳理 基础架基础架 构构场景场景 标准化标准化 应急预案 工具化 故障诊断 标准化 3 故障场景 标准化 监控KPI 标准化 2 1 预构建 基础架构 与客户的最初接 触 0 应用系统 发布/变更 故障恢复 自动化 4 诊断标准化监控告警自动定位故障场景 20 应急预案 工具化

14、故障诊断 标准化 3 故障场景 标准化 监控KPI 标准化 2 1 预构建 基础架构 与客户的最 初接触 0 应用系统 发布/变更 故障恢 复自动 化 4 场景1 场景2 场景3 场景4 场景n KPI1 KPI2 KPI3 KPI4 KPI m 监控平台 小型机监控点 DB监控点 WIN监控点 网络监控点 AS400监控点 一键诊断脚本 (小型机) 一键诊断脚本 (WIN) 一键诊断脚本 (DB) 一键诊断脚本 (Network) 一键诊断脚本 (应用) 确诊 自动诊断 一键诊断 通用流程 专家诊断 诊断标准化一键诊断脚本及手工诊断方案 21 应急预案 工具化 故障诊断 标准化 3 故障场景

15、 标准化 监控KPI 标准化 2 1 预构建 基础架构 与客户的最 初接触 0 应用系统 发布/变更 故障恢 复自动 化 4 业务报障 可能的故障系统/平台 确诊 手工诊 断方案 未知场景 一键诊断脚本 (小型机) 一键诊断脚本 (WIN) 一键诊断脚本 (DB) 一键诊断脚本 (Network) 一键诊断脚本 (应用) 已知场景 查看监控 小型机监控 DB监控 WIN监控 网管监控 400监控 自动诊断 一键诊断 通用流程 专家诊断 恢复标准化 22 应急预案 工具化 故障诊断 标准化 3 故障场景 标准化 监控KPI 标准化 2 1 预构建 基础架构 与客户的最 初接触 0 应用系统 发布/变更 故障恢 复自动 化 4 70% 手工恢复 未知风险 负载均衡/双活/ 热备/双线 切换/重启 /隔离脚本 60%以上故障通过 高可用架构解决 5%未知风险 25%故

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号