广东金融科学技术进步奖励申报书高可用2

上传人:鲁** 文档编号:504907722 上传时间:2023-10-13 格式:DOC 页数:28 大小:165KB
返回 下载 相关 举报
广东金融科学技术进步奖励申报书高可用2_第1页
第1页 / 共28页
广东金融科学技术进步奖励申报书高可用2_第2页
第2页 / 共28页
广东金融科学技术进步奖励申报书高可用2_第3页
第3页 / 共28页
广东金融科学技术进步奖励申报书高可用2_第4页
第4页 / 共28页
广东金融科学技术进步奖励申报书高可用2_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《广东金融科学技术进步奖励申报书高可用2》由会员分享,可在线阅读,更多相关《广东金融科学技术进步奖励申报书高可用2(28页珍藏版)》请在金锄头文库上搜索。

1、. .金融科学技术进步奖励申报书一、项目基本情况项目名称中文中国工商银行广东省分行开放平台高可用项目英文High Availability Project of ICBC Guangdong branch主要完成人主要完成单位中国工商银行股份XX省分行信息科技部任务来源A国家级攻关、B其它国家计划、C总行公司、局、 D一级分行、E其它单位委托、F中外合作、G自选、H非职务、I其它。计划名称和编号研制起止时间20XX4月-20XX1月成果用于生产时间20XX1月成果进度A阶段性成果B最终成果C可否转让基 层申报单位中国工商银行股份XX省分行信息科技部组织鉴定单位和时间申报部门中国工商银行股份XX

2、省分行信息科技部申报日期20XX11月25日申报等级二级审定或推荐等级建议密级A绝密BXXC秘密批准密级A绝密BXXC秘密XX编号可否公布可市级成果登记号省部级成果登记号国家级成果登记号图书资料分类号社会/经济目标A陆地海洋大气、B民用宇航、C农林牧渔、D工业、E能源、F交通通信、G教育、H卫生医药、I社会经济发展、J生态环保、K知识全面发展、L其它民用目标、M国防奖励类别A 新成果、B推广、C采用新技术、D消化吸收、E标准、F计量、G情报、H软科学、I其它应用行业A农林牧渔水、B工业、C地址、勘探、D建筑业、E交通、邮电、通讯业、F商业、饮食、供销、仓储、G房地产、公共服务、H卫生、体育、社

3、会福利、I文教、广播电视、J科研技术服务、K金融、保险、L党政机关团体、M国防专用、N公安、安全、O其它行业本项目主题词高可用,负载均衡,数据保护。内容摘要:大家改由于现代社会对于金融业务连续性的要求日益提高,尤其是直接面对银行客户的业务服务,业务中断带来的直接经济损失和社会声誉损失日益增大,因此,提升信息系统的可用性能获得巨大的效益。随着IT技术的迅速发展,PC服务器和各种Unix服务器性能也飞速提高,使得这些服务器能够承载以前只有高端设备才能完成的计算任务,与此同时,这些服务器的性价比较好,使得能够采用各种高可用技术以提高其性能和可靠性。省分行从20XX实施开放平台高可用项目,根据应用系统

4、的重要性分为5个级别,针对26套系统采用统一的技术要求进行了项目实施,目前应用系统关联较为复杂,方案以服务器为节点采用各种技术提升可用性,主要实施内容包含单台网卡聚合、光纤卡冗余,对应用服务器实施负载均衡和多点接入,对oracle数据库进行数据保护,这些技术综合起来都是以消除单点风险来提升可用性的。26套系统中,直接面向客户的柜面交易、自助设备等系统属于高级别应用,还在同城机房实施多点接入,实现了单点机房故障时的业务连续性功能。20XX下半年逐步完成各应用系统实施以来,未发生过因部件故障而影响业务的情况,为信息系统的连续性提供了强力的保障。 / 二、当前国省内外同类先进技术概况黄俊对于银行系统

5、来说,业务连续性要高于很多行业,上网查。未有系统性地进行相关项目建设。我也去上网查,。三、申报项目的详细情况及申报理由1、项目的主要技术内容A.采用的技术原理罗绵川1、应用服务器负载均衡2、网卡聚合3、数据库数据保护4、自动切换脚本B.关键技术及创新点邓忠京高可用模型的建立:据不完全统计,造成非计划宕机的原因主要有硬件问题40%、软件问题30%、人为因素20%、环境因素10%,因此,高可用模型的建立充分的考虑了上述因素。该模型主要涉及主机、数据、存储、网络等多部份内容,高可用模型为项目规划设计提供了整体框架,可以通过某个环节的可用性指标对整体可用率的影响程度进行分析,反之,将整体可用率也可分解

6、为各关键环节的可用率指标例如应用可用率、系统可用率,对各环节的高可用规划设计提出具体建设要求,这种从局部到全局,再从全局分解到局部的双向可逆模型,为我行高可用建设提供了整体框架及具体实施依据。高可用模型建立的关键因素包括:应用级别、灾备等级、设备冗余、数据冗余、网络冗余、RTO目标及操作风险控制等,具体说明如下:应用级别分为A/B/C/D四类,其中A/B类为7*24小时不中断业务,对RTO及冗余度要求最高。灾备等级分为1-5级,数字越大级别越高,例如综合前置类应用灾备等级为5,表示既需要在本地中心机房部署主备机,又同时在灾备机房也部署该类应用。设备冗余主要分为负载均衡、主备模式、HA自动切换,

7、其中主备模式又细分为热备、冷备或N+1冷备。数据冗余包括是否接入SAN存储,采用何种数据冗余方式例如RAID1、RAID5,如果是数据库,还需要指定是否实施Oracle dataguard、Oracle RAC等数据保护技术。网络冗余主要包括是否实施多网卡聚合技术,以及光纤连接方式,例如双服务器、双交换机和双通信通路,实现交叉互联。RTO目标及操作风险控制,主要说明该套应用可以容忍的最大RTO,例如综合前置为30min,操作风险控制手段主要为是否投产我行自研发的主备切换脚本。以综合前置应用为例,建立了高可用模型树,见图表二。高可用项目全过程的风险控制:采用ITSM对高可用项目进行全过程的风险控

8、制,从被动审计变主动的风控体系建设,控制过程贯穿包括从立项、开发、测试到最后实施及验收阶段。对高可用架构实施的每个过程进行风险识别、风险评估,并定义了KPI对项目进行风险控制,以确保项目建设与总行规划、全行经营战略目标保持高度一致。通过实施ITSM,将高可用架构规划过程、IT资源、经营策略及目标联系起来,形成一个三维体系结构。IT资源主要包括项目人力、应用系统、技术、设备、数据等在内的相关资源;高可用架构规划过程则是在企业经营策略及目标的指导下,对系统从立项、开发、测试到最后实施及验收阶段确定的多个处理过程,每个处理过程包括更加详细的控制目标、项目是否符合企业要求的评估。高可用项目风险定量评估

9、模型的建立:(1) 应用系统类型,包括应用等级、系统RTO。以中间业务平台为例,中间业务为B类应用,对外服务RTO为30分钟。2重大风险识别重大风险包括:系统或数据库服务异常、关键进程宕、网络故障、外部环境原因、操作失误等,总体上可概括为系统风险、技术风险、操作风险等。3高可用结构对可用率影响的风险评估以中间业务为例,设备冗余包括3台应用服务器F5负载均衡、1台数据库服务器、1台数据库standby备机;网络冗余包括所有服务器均实施了双网卡聚合技术,双光纤卡4通道技术;数据冗余包括实施了数据库物理standby技术;操作风险控制手段包括实施主备切换半自动化脚本,减少人工操作带来的失误率。应用可

10、用率计算为:n:表示某个应用发生的告警事件的数量 Ptime:表示报警的持续时间,单位:秒 Weighti:某一种告警事件对整个应用的影响度;关键进程宕对应用影响度为100%Mi:表示应用节点的台数 ,例如中间平台系统有5台,则Mi=5Stime:表示某应用对外服务的时间,单位:秒 ;以一周为例,Stime=60*60*24*7=604800秒由上可见,采用上述高可用架构的情况下,当数据库服务器主机宕机的应用可用率影响是最大的,而应用服务器由于做了负载均衡,应用服务器关键进程宕对高可用服务的整体影响为0。而由于采用了oracle standby的数据保护结构,当数据库服务出现异常情况下,高可用

11、架构仍能保证RTO不超过最大容忍度。相反,如果不采用应用服务器负载均衡方式,甚至应用服务器和数据库服务器部署在同一台机器,那么关键进程宕对应用影响度将达100%,风险大大增加。图表一说明了项目全过程控制中的各个KPI数据。4风险重复计算及补偿性控制由于中间业务平台数据库保护实施了oracle standby技术,在发生数据库服务异常情况下将对业务连续性产生影响,虽然采用oracle standby技术能确保数据库服务及时切换至备机,但系统风险、操作风险也随切换过程伴随而来,因此,有必要实施风险的补偿性控制,例如,建立ITSM流程控制,对应急方案、变更方案进行流程化审核;实施主备切换半自动化脚本

12、,减少人工操作带来的失误率,控制操作风险。 研发高可用架构半自动化切换脚本,有效降低人为操作风险,减少RTO:由于高可用架构应用主备间切换涉及关联关系复杂,主备可能是Oracle dataguard结构、冷备N+1结构,人为操作上的失误可能带来极其严重的后果和不可估计的经济损失,基于此,我行自行研发了高可用架构半自动化切换脚本。该脚本减少了主备切换时人为干预的操作,自动进行应用进程启停、存储切换、网络服务接管,有效降低了人为操作风险,并大大缩短了RTO,明显提升了我行高可用架构可用率指标。C.必要的图表图表一:高可用项目过程目标KPI过程目标KPI项计算依据实际KPI计算结果符合服务级别协议的

13、交易响应时间交易超时率M:表示交易种类个数,例如综合前置共分为POS、ATM、自助终端三类X:表示某种交易超时数Y:表示某种交易的交易量最小化交易故障应用可用率n:表示某个置应用发生的告警事件的数量 Ptime:表示报警的持续时间,单位:秒 Weighti:某一种告警事件对整个应用的影响度;关键进程宕对应用影响度为100%Mi:表示某一种应用节点的台数 ,例如综合前置系统有2台,则Mi=2Stime:表示某应用对外服务的时间,单位:秒 ;以一周为例,Stime=60*60*24*7=604800秒只要Ptime为0,应用可用率即为100%。最小化停机时间系统可用率m:表示应用节点类型的数量 ;我行综合前置节点数为2Ptime:表示报警的持续时间,单位:秒Ni:表示某一种应用节点的台数;我行综合前置节点数为2 Stime:表示某应用对外服务的时间,单位:秒;以一周为例,Stime=60*60*24*7=604800秒只要Ptime为0,系统可用率即为100%。最小的RTO主备切换时间RTO是反映业务恢复及时性指标,表示业务从中断到恢复正常所需要时间。图表二:高可用模型树以综合前置应用的高可用模型为例,2、项目与国省内外已有同类先进技术全面对比情况项目水平:A国际首创、B国际先进、C接近国际先进、D国内首创、E国内先进、F省内首创、G省内先进综合评述:邓忠京工行高可用架构

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号