业务支撑系统容灾经验谈

上传人:j****9 文档编号:46017760 上传时间:2018-06-21 格式:DOC 页数:3 大小:30KB
返回 下载 相关 举报
业务支撑系统容灾经验谈_第1页
第1页 / 共3页
业务支撑系统容灾经验谈_第2页
第2页 / 共3页
业务支撑系统容灾经验谈_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《业务支撑系统容灾经验谈》由会员分享,可在线阅读,更多相关《业务支撑系统容灾经验谈(3页珍藏版)》请在金锄头文库上搜索。

1、业务支撑系统容灾经验谈业务支撑系统容灾经验谈 中国移动山东公司 崔可升 赵建福 朱祥磊 临沂大学 王玉春山东移动的 BOSS 容灾系统主要是分为规划、业务技术分析、组织结构建立、实施、演练等步骤。双中心容灾方式在以前主备容灾方式基础上进行演进的,对部分流程进行了优化,采用的技术方式基本沿用主备方式采用的技术方式。系统规划在规划阶段,从一开始就坚持和 BOSS 系统一同规划,避免二者的脱节。按照我省实际情况,建设目标定位为关键业务主备降级容灾,同时 RTO、RPO 达到或超出集团公司规定的指标要求。关键业务的指标考虑:确定对除结算外的业务:营业、帐务、计费、二批信控、查询等业务进行容灾建设,其中

2、营业系统对客户感知度最大,要求 RTO 达到 30 分钟,各系统的规划指标如下表所示: 业务 RPO RTO营业系统 0 30 分钟帐务系统 0 3 小时批价信控系统 0 4 小时计费系统 0 1 小时统计查询系统 0 2 小时采集系统 0 30 分钟所有业务均要求无数据丢失。容灾复制技术的选择:因为两个机房相距 10 公里之内,目前基于此距离的同步技术的可选择性较多,有基于操作系统的、基于存储的、基于数据库日志等。根据业务的特点、技术的测试验证情况、投资成本的综合考虑,并参考了其他省份的技术方案选择,最终选定了如下技术:营业系统采用成熟的 EMC 公司的 SRDF 同步智能存储复制方案,在阵

3、列间通过光纤连接同步,保证了营业客户资料等数据的实时保护。帐务、信用等系统采用 oracle 公司的物理 dataguard 方案,该技术主要通过数据库的日志重做来进行数据同步,为保证效率和生产系统的稳定性,选定通过 log buffer 异步传输的方式,最大限度地获得实时性和稳定性。采集、计费、查询系统是完全通过应用业务重做方式来实现容灾。接入技术是分公司终端接入部分通过域名解析技术来进行接入的切换。接入主机上配置 BOSS 系统的域名解析服务,分公司终端不直接通过 IP 地址访问 BOSS 系统主机,而是通过域名访问,当 BOSS 系统切换到容灾中心时,域名主机自动或手动将此域名指向容灾中

4、心主机,分公司终端不需要更改任何配置。主机、存储的规划:按照选择的同步技术,采用智能存储复制和物理 Dataguard 方案都需要主备中心的可用存储相同,而采用应用方式的业务可以不完全相同。另外,采用智能存储要求 2 个阵列必须是相同厂商的,而 Dataguard 方案则无此限制,因此我们在规划中进行了针对性的划分,并对每个阵列都有部分合理预留,以应对需要紧急扩容的情况出现。网络的规划:容灾中心将来需要能够承载我省 BOSS 系统的核心应用,网络系统必须在性能、可靠性、安全性、管理性、扩展性等方面满足应用的需求。 因此,中心局域网采用千兆以太网设计,核心交换机和核心路由器都支持千兆联接。服务器

5、和核心交换机之间也采用千兆联接。另外,所有核心设备都采用双机热备,互为冗余的方式,防止单点故障的发生。交换机和交换机之间、服务器和交换机之间均采用双链路联接,防止单条链路或设备故障的发生。核心设备的关键部件都必须具备冗余,以提高设备的可靠性。同时,网络系统还必须具备足够的安全性,核心设备通过设置访问控制权限进行保护。光纤网:主要由光纤交换机和大容量存储设备(包含磁盘阵列和磁带库)组成,为服务器群提供稳定、高速、可靠的存储网络。同时还包含生产中心与灾备中心之间进行数据复制的光纤链路。由于 BOSS 系统对存储资源的需求往往是一个动态的过程。业务是不断迅速增长的,对磁盘阵列在线存储的需求无法非常准

6、确预测,不可能事先对所有不同类型的业务种类都分配永远足够的磁盘容量,这样就要求不仅能够在线动态分配存储,而且能够在线进行整个磁盘阵列的容量扩展。 我们在生产中心和容灾中心各建立独立的 SAN 网,同时 2 个中心间通过独立的光纤交换机建立连接,用于数据的同步,最大限度降低 2 个中心间的相互访问。 光纤网设计同样需要考虑设备、链路双冗余,提高系统安全性。另外我省 BOSS 系统的网络流量主要可以分为五类:第一类型是采集系统,原始话单抽取;第二类型是客户服务系统,前台业务受理(营业前台/客服前台/代理商前台);第三类型是经营分析系统,数据提供;第四类型是集团公司系统,数据上传/接收;第五类型是阵

7、列间数据同步。在进行宽带测算时,是根据不同类型的业务特点,分析提取带宽测算要素,然后根据目前 BOSS 系统的实际信息提取要素值。容灾组织结构和职责容灾建设需要建立相应的组织结构,其职责主要是:该机构是常设虚拟机构,同现有的组织机构不冲突;所有人员的变更必须经过灾难恢复管理小组领导的同意;定期进行例会对灾难恢复计划进行通报;定期对灾难恢复计划进行维护和更新;定期进行灾难恢复计划的培训;定期进行灾难恢复的演练;随时准备进行灾难恢复;我们按照集团公司制定的容灾规范,结合我省实际,制定了如下的组织结构:系统实施进入实施阶段后,面临着任务繁多的情况,鉴于此,我们对任务进行了拆分,最大限度节约了工期,主

8、要有:集成工作:主要完成机房、主机、网络、存储、数据库的施工和数据同步等工作。应用软件开发和改造:主要完成必要的软件改造工作、对现有应用软件的改造等工作并完成软件上线和测试、部署等工作。流程开发:对切换和回切的各步骤进行整理,结合容灾组织结构的人员分配,使人员和工作相结合。由于灾难发生的场景很多,所以需要存在各种组合的流程,任务非常繁重。导航流程软件的开发:有了详细的切换流程,还需要有一种流程软件,使之能够配置流程,将流程固化,用以指引操作人员相互协作进行容灾的切换和回切。针对这种情况,我们专门开发了导航流程软件,可以灵活地将流程配置进去,操作人员只需按照导航软件提示的流程一步步进行操作即可实

9、现整个切换过程。该流程还提供演习、培训、系统管理等功能,使操作人员可以熟悉、维护流程。通过实施导航流程软件,可以将复杂多变的任务关系通过友好的界面展现出来,供多人协同操作,并可实现流程动态配置。领导组成员和流程负责人可以多维度的监控整个流程,全面掌控切换过程。容灾演练容灾系统建立,仅仅是一个开始,为了确保 BOSS 容灾系统的可用性和灾难恢复流程的有效性,在启动容灾中心接管业务时,需验证容灾系统是否可达到预定的指标;同时为了培训相关维护人员,优化容灾相关流程,需要对容灾系统定期和不定期进行演练,演练主要分为如下几种:桌面演练:也称模拟演练,主要是为了检验在发生实际灾难后,参与灾难恢复的相关人员

10、是否能够根据规划好的灾难恢复流程,有序可控地进行灾难恢复工作。需要不定期地进行,以使参与者能够熟悉流程。在演练过程中发现的问题应尽可能详细地记录。真实演练:真实演习不仅要检验灾难恢复流程的有效性,而且要验证容灾系统是否能够实现正常的切换和回切。我省在完成 BOSS 容灾系统建设后,立即进行了大量的桌面演练和一次真实演练。其中桌面演练对每个业务都至少进行了一个演练,初步达到了使参与人员能够按照切换流程进行切换的目的。为了检查灾难备份系统的真实有效和灾难恢复计划的正确完整性,我省对 BOSS 灾难备份系统营业子系统进行了业务连续性的真实演习。山东省 17 个地市的业务部门、客户服务部门(包括 18

11、60)、市场部门等参与了此次真实演习。真实演习将营业 1 区的业务(包括淄博、烟台、泰安、菏泽、枣庄、潍坊、德州、济宁、东营 9 地市)从生产中心切换到备份中心,并在备份中心运行了 1 个小时的测试业务后回切至生产中心。参与演习人员超过了 150 个,整个演习共花 4 小时的时间,演习验证了灾难恢复计划切换流程完全正确、灾难备份系统达到预先设计目标(RTO=2 小时)、整个演习过程无数据丢失。目标双中心容灾经过主备容灾方式的技术验证,以及在运行维护管理中的经营积累,我们将主备容灾方式演进到双中心容灾方式。双中心继续沿用了主备方式的技术实现方式,但在部署上,需要进行进行组织,以到达资源动态管理的目的,即一个中心出现重大灾难需要进行切换时,另一个中心的业务不停顿,但将一部分资源进行动态腾出来,来接管对方中心的业务,使业务影响面大大降低。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号