《业务连续性与灾难恢复计划.doc》由会员分享,可在线阅读,更多相关《业务连续性与灾难恢复计划.doc(4页珍藏版)》请在金锄头文库上搜索。
1、1. 业务连续性计划包括灾难恢复计划:用来恢复不可用的设备,包括重新再新的地点安装操作系统作业计划:恢复发生的同时业务单位应所进行的作业重建计划:用来将运营恢复正常,无论是旧设备修复还是采购新设备业务连续性计划的第一步要进行风险与业务影响分析(BIA),它可以揭示每一种风险可能对业务造成的损失,风险要首先被确定,然后再进行业务影响分析。风险与资产的价值和威胁发生的可能性成正比。一个好的BCP,应当综合考虑关键信息系统处理设施和终端用户的业务功能两方面的内容。BCP按其生命周期分为以下几个阶段:l 业务不间断和灾难恢复计划的创建BCP意外管理:微小事件,小事件,大事件,重大事件小、大和重大事件应
2、该被记录、分类、跟踪直到被纠正或解决。事件的变化可以是突然的,一个大事件可以迅速的消失了,也可以演变成为重大的事件l 业务影响分析(BIA)执行BIA有许多方法,比较流行问卷调查法、拜访关键用户、把IT人员和终端用户召集在一起,讨论得到结论,确定各种级别的中断对业务的影响程度。在BIA中应该注意以下问题:a) 组织的主要业务流程是什么一个流程是否是关键流程,还取决于运行时间和运行模式。b) 与组织关键业务流程相关的关键信息资源是什么可能存在于以下几个方面:接受客户支付的系统、生产系统、支付员工工资系统、成品分发系统。c) 关键恢复时间周期是多长l 运行分类和重要性分析分类一般包括:关键的:可忍
3、耐的时间为几个小时到一天重要的:通常一天到五天敏感的:允许一周以上不敏感的:对业务流程没有什么影响,几乎没有什么恢复成本。恢复战略的参数:a) 恢复点目标(RPO):通过业务运行中断的情况下可接受的数据损失来决定,指出了最早可接受的数据恢复时间点。例如,如果业务流程在灾难发生前最多能忍受4个小时的数据损失,那么,在灾难发生前,最近的可用备份在时间上不超过四个小时就可以了。b) 恢复时间目标(RTO):要通过业务运行中断的情况下可接受的停机时间来决定,它指明了灾难发生后必须对业务进行恢复的最早时间点。c) 中断时间窗(Interruption window):组织可以等待的自失效点时刻到关键服务
4、/应用恢复的时刻。该时间窗之后,如果未能恢复运转的损失会越来越大。d) 服务实现目标(SDO,Service Delivery Objective):直到正常的生产系统恢复运转,由替代流程/程序实现的服务水平e) 最大可容忍损耗(Maximum tolerable outages):组织使用替代方式支持生产处理的最长时间。超过了这个时间会出现各种问题,尤其是当替代SDO低于正常的SDO时,信息的更新不及时会造成无法管理的后果。恢复策略(将作为组织进一步开发详细的BCP的基础)最有效的行动:a) 恢复的同时,去除威胁来源b) 最小化灾难发生的可能性c) 最小化灾难的影响恢复策略的选择基于下列因素
5、:a) 业务流程及支持此流程的应用系统的重要性b) 成本(恢复成本不应该大于停机成本)c) 组织要求的恢复时间d) 安全对于大型主机系统和重要网络设施的运行而言,可供选择的恢复类型如下:a) 热站:提供机房、网络、主机、操作系统、数据库、通讯等各方面的全部配置,一般几个小时就可以使业务系统恢复运行。b) 温站:只提供部分设备,通常没有主机,只提供网络连接和一些外部设备。使用温站要基于如下前提:计算机很容易获得,并可以快速安装使用。安装计算机和其他缺少的设备可能需要几天时间,但是一旦所需组建安装完毕,温站可以在几个小时内提供服务。c) 冷站:为降低成本,冷站只提供基本环境,如电线,空调,场地等。
6、故障恢复时间会比较长,可能需要几周。d) 冗余信息处理设施:组织自己配备的、专用的恢复站点。前提是两套系统的软硬件不能存在兼容性与可用性问题。主要形式有:(一) 建立可单独运行的热站方式(二) 与其他组织签订互惠协议,使双方应用系统互为备份。e) 移动站点:一种特别设计的拖车式计算设备,可以快速的转移到业务部门或到恢复站点。如果在附近区域没有其他恢复设备,移动站点可以作为非常有效的、能取代主系统的恢复站点使用,而且成本很低,适用于具有多个业务部门的组织。f) 组织之间签订互惠协议:指具有相同设备与应用系统的两个组织或多个组织之间互相为对方建立备份的方法。优点是成本低;在热站不可用的情况下,这可
7、能是唯一选择;缺点是缺乏约束力,经常无法执行;由于设备配置上存在差异,需要对应用程序进行修改才能运行;当系统的负载和配置变化时,一般不能及时通知对方,使协议实际无法执行。l 制定业务连续性计划和灾难恢复计划对通讯网络进行保护的方法如下a) 冗余(一) 规划通讯能力时留有富余,比如设计双路电缆(二) 在路由器之间提供多条路径(三) 动态路由协议,例如开放路径最短协议(OSPF)和增强内部网关路由协议(EIGRP)(四) 提供容错设施,以避免路由器交换机和防火墙的单点故障(五) 把网络设备的配置信息拷贝出来保存,通过TFTP协议,以备恢复时使用。b) 替换式通讯线路:通过一个替换线路来传送信息的方
8、法。比如许多电信运营商都部署了双向光纤环路以增加容错能力,即把两路光纤安装在不同的线缆盒里,信息在两路光纤中以不同的方式传输,一旦一个环路中断,网络可正常运行。c) 分集式通讯线路:分集式电缆应当 处于不同的电缆护套中,而且不能铺设在同一管道,应当有不同的物理路径,以避免同样的灾难事件。d) 分集式长途网络系统:许多提供恢复服务的供应商利用T1线路在多个长途运营商之间建立分集式长途网络连接,以保证某一电信运营商的线路出现故障后,不会影响长途网络连接的畅通e) 最后一公里的电路保护:f) 语音恢复:许多服务行业日常需要通过电话进行联系,应当为语音通讯建立冗余连接或替换式通讯线路 廉价冗余磁盘阵列
9、 当软件的RAID0和RAID1性能较好,而硬件的RAID3,5,6运行更快。硬件的RAID2很耗费资源,因此很少使用。其他级别或者采购成本高或者升级费用高。 保险事物:需要保险的信息系统有以下各方面a) 信息系统设备和设施(审核保险策略,大部分保险只用高质量设备替换故障设备,没有指定这些设备需要选用同一个供应商的相同新设备以保证兼容性和可用性)b) 软件存储介质重建:对软件和存储介质进行保险,针对办公场所内、办公场所外以及运输途中三种状态有不同的保险类型。保险要考虑资产的各种重建成本,包括编程成本、备份费用、存储介质饿购置费用等。c) 额外费用:信息系统处理设施发生故障后,对恢复其运行时发生
10、的费用进行保险。对额外费用的保险额度取决于备份设施和备份操作的可用性和成本;额外费用还可涉及由于计算机存储介质损坏而造成的净利润的损失。当设备或存储介质发生故障,造成业务中断和财务损失时,这种保险可以使组织获得一定的资金补偿。例如,如果信息处理设备设施位于第六层,第五层发生了火灾被烧毁,虽然信息处理设施没有被损坏,但是正常运行被中断了,这种情况适用于这种保险。d) 业务中断:由于信息系统发生故障,组织业务活动被中断,造成利润损失。e) 有价值的文件和记录:由于有价值的文件和记录被丢失或者物理破坏而造成的资金损失f) 错误与疏忽:由于专业人员的错误与疏忽,给客户造成了经济损失,为减轻专业人员因承
11、受法律责任而造成的损失而设立的保险项目。这种保险原本是为服务中心而设计,但现在已有保险公司将保险范围扩展到保护系统 分析员、软件设计人员、编程人员、咨询顾问和其他信息系统人员。g) 诚实保险:针对由于员工的不诚实行为和舞弊行为造成的损失而设定的保险项目,通常采用银行业综合保证保险、员工诚实保证保险、商业综合保险的方式,这种类型的保险在金融机构比较流行。h) 存储介质的运输:对运送存储介质到异地备份站点的过程中可能造成的潜在损失进行保险。这类保险通常在保险条文中强调所有文档必须拷贝或影印,如果发现保险条文中没有明确规定在运输前要对哪些数据进行影印,哪些工作不需要影印,管理层应当要求保险公司出具文
12、件详细描述保险公司的相关规定与保险范围。l 培训与意识教育程序l 测试与实施计划对BCP进行测试是有效实现BCP的重要环节。对BCP实施测试的各个阶段:a) 预测试阶段:为正式测试做准备工作的一系列必要的活动。b) 测试阶段:通过实际的运行来测试BCP的特定目标,测试特定的BCP内容时,评估人员审核相关人员的操作活动。测试的目的就是衡量组织是否可以对可能出现的紧急情况进行有效响应。c) 测试后续阶段:对参与测试的各个团队的活动进行清理。比如把所有资源归还到原有位置,拆装设备,人员返回,删除第三方系统的数据等等。还要对BCP计划进行正式的总体评价,并提出进一步完善的建议。此外,还可能进行以下类型
13、的测试:(一) 基于桌面的评价/纸上推演:对BCP计划进行纸上推演,所有相关者都参与进来,讨论服务发生中断后会有什么后果以及采取的对策。纸上推演一般在预备性测试前进行。(二) 预备性测试:是全局测试的局部版本。通过模拟一次灾难发生,在局部范围内测试所涉及的BCP资源。要经常对BCP计划的各个方面进行这种测试,这是逐步获得证据,以验证BCP效率与效果的一种成本有效的方法。(三) 全面运行测试:这种测试离实际服务中断的情况只差一步了。在完全关闭业务运行、实施全部测试前,组织应当已经详细地进行了纸上推演和预备性测试,为BCP测试目的而中断业务是一种人为制造的灾难,要精心准备,确保万无一失。备份轮换的方式祖-父-子备份介质轮换策略:由日备份,周备份和月备份组成。日备份为增量备份,周备份和月备份为完全备份l 监测