同城灾备中心建设情况及业务持续性演练方案汇报

上传人:第*** 文档编号:49677585 上传时间:2018-08-01 格式:PPT 页数:39 大小:4.96MB
返回 下载 相关 举报
同城灾备中心建设情况及业务持续性演练方案汇报_第1页
第1页 / 共39页
同城灾备中心建设情况及业务持续性演练方案汇报_第2页
第2页 / 共39页
同城灾备中心建设情况及业务持续性演练方案汇报_第3页
第3页 / 共39页
同城灾备中心建设情况及业务持续性演练方案汇报_第4页
第4页 / 共39页
同城灾备中心建设情况及业务持续性演练方案汇报_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《同城灾备中心建设情况及业务持续性演练方案汇报》由会员分享,可在线阅读,更多相关《同城灾备中心建设情况及业务持续性演练方案汇报(39页珍藏版)》请在金锄头文库上搜索。

1、同城灾备中心建设情况及业务持续性演练方案汇报汇报内容 同城灾备中心建设情况简介 业务持续性计划演练方案简介灾备体系建设的必要性满足国家及行业监管要求重要信息系统灾难恢复指南GB/T 20988-2007 保险业信息系统灾难恢复管理指引 2008年20号文公司业务及IT发展到一定阶段的内生性需求适应保险行业服务水平日益提高的要求应对突发灾难的最后一道防线业内主流的灾备复制技术的对比基于存储盘阵的灾备复制技术基于数据库的灾备复制技术网络支持同步传输异步传输底层硬件必须同构支持异购产品目标端不可用可用双活状态支持模式多对一一对多级联双向多对一一对多级联双向是否支持按需复制全量同步支持数据丢失量零丢失

2、分钟级CaptureReadExportImportPostCapture QueueExport QueuePost QueueSQLRedo-Logs源系统目标系统灾备软件复制原理业务系统分类容灾A类业务系统B类支持支撑系统C类业务系统RTO=2小时,RPO=30分钟 RTO=2小时,RPO=8小时 RTO=24小时,RPO=8小时核心业务系统/银保互连互通域控ADCALL CENTER系统财务系统/OFSA准入系统EAD核心报表/MIS收付系统域名解析系统DNS稽核系统保险卡系统企业服务总线ESB偿付能力系统ILOG统一认证中心AC保监上报投资系统补丁分发系统WSUS反洗钱银企直连防病毒

3、系统审计系统DM系统SVN系统工会系统网销系统OA系统邮件代理理赔影像系统ITS人力资源系统自主查询飞天诚信令牌认证系统准备金自助机 A、B两类系统为应用级容灾,C类系统为数据级容灾我司同城灾备中心建设的方法论及路线图我司灾备中心与国家标准对标 同城灾备中心建设情况简介 业务持续性计划演练方案简介监管要求 保监会2008年第20号文 第二十九条 保险机构所制定的灾难恢复预案,应按照由模拟到实际、 从易到难、从局部到整体的原则进行测试和演练,及时总结评估,完善 灾难恢复预案,通过演练使得相关人员熟练灾难恢复操作及流程。 灾难恢复预案的演练包括但不限于桌面演练、模拟演练、实战演练、部分演 练和全面

4、演练。保险机构应定期组织开展灾难恢复预案的演练工作。灾 难恢复预案每年至少演练一次,演练类型可以是模拟演练、实战演练、 部分演练和全面演练。演练目的 验证业务持续计划的完整性、易用性、明确性、有效性和 兼容性; 验证灾难恢复管理组织架构的领导、决策与指挥能力; 验证公司灾难恢复管理组织架构中各相关部门的协同工作 能力; 使灾难恢复相关的技术人员与业务人员能够熟悉业务持续 计划,提高员工的 灾难备份和业务持续意识,提高恢复 团队的实际操作技能; 验证灾备技术的有效性,确认灾难恢复水平是否满足中银 保险灾难恢复目 标(RTO、RPO)的要求。本次演练的形式桌面演练 桌面演练是所有参演人员根据预设的

5、场景,采用会议的方式,以角色 扮演为基础,就应急响应和恢复流程中的管理与指挥协调方面问题进 行桌面推演。 模拟演练 模拟演练(实际测试演练)是利用备用或测试系统进行模拟的系统切 换和进行业务恢复操作,不涉及真实的业务交易,不影响生产正常运 行。实战演练 实战演练是指对灾难备份系统进行真实切换和真实业务交流,由于系 统切换的复杂性,在进行系统切换和业务恢复时,可能会存在一定的 风险因素,并且带来短时间 的服务中断。通过实战演练,可以最大 程度地检验灾难备份系统和业务持续计划的有效性和恢复能力。演练的范围 涉及的信息系统 保险卡系统 演练的时间 六月二十一日 参演机构 全辖保险卡系统拓扑演练对系统

6、产生影响情况分析对前台服务的影响用户只能访问前台应用首页,不能进行其他任何操作,与其他系统的交互也就不能进行了。短信数据 提取不到,发送不了短信。保单不能传送到后台。对后台服务的影响由于登录调用的是AC的接口校验,所以用户可以登录系统,点击左边应用菜单,但是不能进行其他任 何功能性的操作。对代理服务的影响由于登录调用的是AC的接口校验,所以用户可以登录系统,点击左边应用菜单,但是不能进行其他任 何功能性的操作,同时由于代理系统为银保通系统提供了服务,代理系统不能进行数据操作,银保通 系统也就不能进行其他操作。对SFTP服务的影响数据不能正常提取、传送。对电子签章服务的影响由于电子签章服务不连接

7、数据库,所以不会对该服务造成影响。AC系统使用的不是保险卡的数据库,所以保险卡数据库宕机不会对AC造成影响。演练对系统产生的影响分析技术层指挥层决策层演练组织架构相关职责灾难恢复领导组 领导突发事件的应急处置,负责应急资源的协调和调度,对参与演习的各工作 组进行监督管理和组织,并做出重大应急处置的决策;灾难宣告,负责与董事 会沟通等。灾难恢复指挥组 现场指挥应急处置、损害评估、灾难恢复;向演练领导小组汇报应急处置情 况、损害评估情况、提供处置决策建议;灾难预警;监督、检查和总结灾难 恢复工作。技术恢复组 在指挥组的指挥下实施应急处置、灾难恢复操作;现场评估灾难损害程度; 负责灾难恢复过程的记录

8、、报告和通讯联络;分析和总结灾难恢复工作。业务恢复组 负责业务功能核查,追补数据等业务恢复职责;协助技术恢复组进行突发事 件和灾难恢复的处置;完成业务测试案例;负责业务恢复确认。相关职责后勤保障组 负责突发事件的设备、场地、人员、工具、后勤等资源保障的管理和 协调工作;负责保障人力、物力、电力、通讯、安全保卫等工作;与 分支机构及合作伙伴通讯联络;负责突发事件前的资源统一准备和事 件后的资源回收;负责与总行、行业协会、监管机构等相关部门的沟 通,确保信息通常,避免灾难的影响扩大。 厂商支持组 根据双方的约定提供灾难恢复所需设备等相关资源; 根据双方签订的服务合同、服务等级协议(SLA)、以及备

9、忘录等材 料提供技术支持。 客户投诉支持组 负责公司公共关系处理,包括对外的解释、媒体公关等事宜,减少公 司由于灾难带来的负面影响。演练场景约定 本次演练的场景 北京西单生产中心的保险卡系统数据库系统应用和数据库分别出 现宕机 北京亦庄的同城灾备中心启动对应应用和数据库服务接管保险卡 系统 后北京西单生产中心的保险卡系统恢复正常,系统由亦庄灾备中 心回切西单生产中心 应急、切换、回切的全过程本次演练涉及系统示意图一(正常应用)生产WEB+APP灾备WEB+APP生产数据库灾备数据库INTERNET IPsec VPN连接池连接池本次演练涉及系统示意图二(应用切换)生产WEB+APP灾备WEB+

10、APP生产数据库灾备数据库INTERNET IPsec VPN连接池连接池场景一场景一步骤执行人操作话述中午14点,监 控系统短信告 警:保险卡系 统3台应用服 务器中的两台 已经宕机,无 法对外提供服 务。 汇 报系统管理员看到告警短信后,向技 术恢复组组长汇报报告领导,目前保险卡系统3台应用服务器中的两台停机对外提供 服务,目前保险卡系统仍可用,但服务响应将会减慢,我们将会尽 快修复,预计修复时间为30分钟。汇 报技术组组长接到保险卡系统两台应 用服务器停止服务报告 后,向指挥组汇报报告领导,保险卡系统3台应用服务器中的两台出现故障,无法对 外提供服务,目前保险卡系统仍有一台应用服务器可用

11、,但服务响 应将会减慢。现在已经组织人员进行修复,预计修复时间为30分钟 。指 示指挥组组长收到报告后,进行修复 工作安排知道了,一定要尽快修复。另外,安排数据库、网络相关人员随时 监控保险卡系统的业务,出现问题及时汇报。修 复系统管理员系统管理员在紧急修复 ,进展比较顺利汇 报系统管理员修复应用服务器后,向 技术恢复组组长汇报报告,保险卡系统停止服务的两台应用服务器已经修复,并开始对 外提供服务汇 报技术组组长接到应用服务器恢复正 常报告后,向指挥组组 长汇报报告领导,目前保险卡系统停止服务的两台应用服务器已经修复, 并开始对外提供服务,保险卡系统对外服务已经恢复正常。本次演练涉及系统示意图

12、三(数据库切换)生产WEB+APP灾备WEB+APP生产数据库灾备数据库INTERNET IPsec VPN连接池连接池场景二场景二步骤执行人操作话述15点,监控 系统短信告 警:保险卡 系统数据库 服务器已经 宕机,无法 对外提供服 务汇报 系统管理员看到告警短信后,向技术恢复组组长汇报报告,保险卡系统数据库服务器出现故障,目前保险卡系统不可用 ,我们将会尽快修复,预计修复时间为30分钟。汇报 技术组组长接到保险卡系统数据库服务器停止服务报告后 ,向指挥组组长汇报报告领导,保险卡系统数据库服务器出现故障,无法对外提供服务 ,目前保险卡系统不可用。现在已经组织人员进行修复,预计修复 时间为30

13、分钟。指示 指挥组组长收到报告后,进行修复工作安排知道了,一定要尽快修复。另外,安排数据库、网络相关人员随时 准备,一旦系统启动,立刻恢复业务,出现问题及时汇报。修复 系统管理员系统管理员在紧急修复,进展不是很顺利 汇报 系统管理员数据库服务器无法在预计时间内进行修复,后 续修复时间预计为3小时,向技术恢复组组长 汇报报告,保险卡系统数据库服务器出现硬件故障,需要向厂家调取备 件后才能恢复,暂时无法恢复业务,预计备件到场时间为2小时, 后续1小时进行修复,因此建议启动灾难恢复预案。汇报 技术组组长接到数据库服务器无法在RTO内恢复正常报告 后,向指挥组组长汇报报告领导,保险卡系统数据库服务器的

14、修复预计还需要3小时,已 经超出了我们设计的RTO,后续该如何操作,请指示。指示 指挥组组长接到数据库服务器无法在RTO内恢复正常报告 后进行后续工作指示你们尽量在RTO规定时间内恢复,同时我将请示灾难恢复领导组进 行灾难恢复准备工作请示 指挥组组长向灾难恢复领导组汇报报告领导,保险卡系统数据库服务器30分钟前出现硬件故障,无法 对外提供服务。备件到场及修复时间预计还需要3小时,超过RTO 。已经责成相关人员尽快修复,目前是否开始进行灾难恢复准备工 作?指示 领导组组长 可以。你先通知相关人员,进行人员集结,开始进行相关应急指挥 工作。场景三场景三步骤执行人操作话述 下午16 点,应 急指挥

15、中心成 立、人 员集结 完毕应急指挥准备工作 指挥组组长 开始灾难准备工作请后勤保障组进行后勤保障及危机公关工作,请客户投诉支持组准备问题应答准备,请技术恢 复组和业务恢复组对此次事件可能造成的影响进行初步评估 初步影响评估技术组组长进行初步影响评估,并向灾难 恢复指挥组汇报报告领导,根据指示,技术恢复组和业务恢复组人员已完成初步评估,数据库服务器备件不到 场,服务器无法恢复正常。根据与厂商的协调,备件已经发出,但到场最快还需要半小时,另 外修复的时间也需要最少半小时,且尚存在其他不可预估的风险,建议灾难预警。灾难预警指挥组组长 决定灾难预警立即向中金灾备中心预警,请技术组准备好系统切换前的准

16、备工作进行灾难预警技术组执行 人进行灾难预警中金灾备中心,我是中银保险XXX,现通知你们进入预警状态,做好相应的保障准备工作技术组组长 汇报准备工作进展报告领导,现在一切技术准备工作已经就绪,灾备系统状态正常,可以准备进行切换。损害及影响评估指挥组组长 再次进行损害及影响评估请技术恢复组和业务恢复组再次进行损害及影响评估 报告损害及影响评 估结果指定的灾难 评估人员填写灾害评估表及灾难宣告表 第一栏报告领导,与厂家联系,由于道路拥堵,备件还在路上,具体恢复时间尚无法估计。损害评 估表、灾难宣告表已经填写完毕,建议进行灾难宣告,请指示向领导组汇报损害 及影响评估结果指挥组组长填写灾难宣告表第二栏, 向领导组报告损害评估结果, 建议灾难宣告 报告领导,根据现损害及影响评估结果,由于备件具体到场时间无法估计,业务停止时间过长 ,建议领导组进行灾难宣告,另保险卡系统切换时间为15分钟,请指示。答复领导组组长 就灾难宣告事宜进行答复领

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号