《计算机中心机房运行风险分析及应对》由会员分享,可在线阅读,更多相关《计算机中心机房运行风险分析及应对(7页珍藏版)》请在金锄头文库上搜索。
1、计算机中心机房运行风险分析及应对为了满足业务或管理的需要,保障计算机核心系统和网络系统的正常运行环境,越来越多的计算机中心机房(以下简称机房)投入使用。 机房以及各种各样的机房保障系统的安全运行水平, 决定了核心业务系统和网络系统的可靠性和可用性。计算机应用系统和网络系统越重要,对机房的保障要求就越高,确保机房的安全可靠运行,是每个机房管理者追求的目标。然而, 各种各样的计算机系统,庞大的信息通讯网络,众多的机房保障系统,连续不间断的长期运转,注定了机房运行风险的客观存在。一、机房运行风险分析1、机房的运行风险机房中连续运行着各种各样的设备和系统,对设备(系统)的可用性是人们关注的重点。假设一
2、台设备(系统)的可用性达到99.9,那么它一年中就可能有8.76 小时不能用,即使设备(系统)的可用性达到99.99,其一年仍然可能有0.876 小时不能用。一个机房内成百上千台套的运行设备(系统),可以说时刻都孕育着运行失效的风险,因此防范运行风险必须引起足够的重视。风险防范须建立在对风险的清楚认知的基础之上。比较简单的方法是通过风险列表,按照分类等级尽可能详尽地罗列出相关机房可能存在的各种运行风险,用以进一步的分析。 一般可以按照机房环境、 运行设备、 机房管理等方面进行机房风险分类,然后尽可能详尽地列出相应的风险事件和因素,并进行分级。以下是一个机房风险列表示例(见下表)。其中,一级风险
3、为无法承受的运行风险,因为一旦发生, 无法在短时间内恢复正常的运行状态,必然会给所属单位造成严重的经济、社会损失。二、三级风险虽然严重危及运行安全,但是大部分可能造成局部运行异常或只是运行安全隐患, 基本属于可承受和可控制的运行风险。当然不同类型用途的机房, 其风险等级的认定会不同。值得注意得是,机房运行风险不是一成不变的,会随着机房内相关要素的各种变化而改变,或者影响其风险等级,或者会产生新的风险因素。机房运行风险分析列表风险风险等级分类一级二级三级机房发生火灾机房部分设备发生火险机房大面积漏水主要机房地面积水机房局部漏水机房建筑物发生塌毁机房建筑物局部损毁机房建筑物险情机房消防系统失控消防
4、系统异常安全空调系统失效或失控温度或湿度超范围门禁系统失控门禁系统异常机房照明失效照明异常场地监控系统失效场地监控系统异常运行核心设备故障停机主要设备故障停机个别设备故障停机安全机房大面积停电供电异常接地异常系统异常或程序混乱系统异常程序错误运行数据丢失无法恢复数据丢失但可以恢复数据错误可以恢复核心网络中断备份无效主/ 备网络故障部分网络故障人为破坏事故严重操作失误一般操作失误管理及人员安管理机构或责任缺失全规章制度不健全管理松懈人员伤亡人员受伤财产重要设备损毁局部设备损毁设备故障安全重要设备(数据)丢失设备丢失设备配件丢失雷击导致供电或网络通讯中断发生雷击入侵防雷设施失效其他鼠害毁坏线缆发现
5、老鼠发生虫害发生严重电磁干扰发生一般电磁干扰2、机房运行风险分析机房风险的来源是多方面的。首先,机房风险的存在是客观的。任何长期运行的机房,不可避免会发生各种各样的异常,从而导致运行风险,如设备故障、网络通讯异常、计算机系统失效等。从运行安全的容忍程度,可以分为可承受风险和不可承受风险; 从风险发生的角度, 可分为可控制风险及不可控风险。机房管理的目标是最大限度地避免发生无法承受的不可控制的运行风险, 及时排除可承受风险发生的隐患,避免可控制风险的发生。其次,机房风险来源于机房设计、施工缺陷。机房的设计、施工及验收,国家都有相关的标准,但是由于经费投入、设计施工单位资质、机房管理部门要求等因素
6、,使得有些机房在开始设计建设时就在使用功能、安全标准、 配套设施、 材料用品等方面存在很多缺陷, 特别是在机房的安全性、可维性、可扩展性方面留下严重隐患。第三, 机房风险来源于低水平的管理。由于机房用途的特殊性,决定了其管理的重要性。由于目前没有标准的机房管理规范, 各行各业各家的机房管理都是自行其是, 问题是相当多的机房运行风险正是由管理不到位造成的。如规章制度不健全或形同虚设、安全管理不到位、检测检查制度不严格、技术维护制度不落实等等。第四, 机房风险来源于不严谨的运维。 机房运行维护是维持长期可靠运行的必要手段, 高度的责任心、 精通的运维技术和严谨的工作态度, 对实现安全运维目标缺一不
7、可。 往往一时的疏忽, 一个随意的操作, 一次不到位的检查, 一次不经意的失误等等, 就会导致一场运行风险甚至灾难。二、防范机房运行风险的对策机房管理者应该在机房运行风险没有发生时就制定好严密的应对对策。的对策主要应该体现在以下一些方面。为此,针对机房风险1、真实可行的风险分析应用科学的方法,针对确定的对象,进行认真仔细的风险分析,同时进行合理的风险判断。尽管机房运行风险的基本情况如前表的罗列, 但是具体的机房必须进行具体的风险分析, 才可以制定出切合实际的防范对策。其方法可以参照本文的列表进行分类分级,在此基础上,进行风险承受性和风险控制性分析。下面以对某机房的消防保障情况分析,说明机房火灾
8、风险分析的方法。1)火险火源:电源(老化、过载、短路、电弧等)。人为(用火失误、放火破坏等)。2)控制能力:首先,机房所有建筑材料,全部为不可燃物品或难燃物品,即使发生火险,其燃烧蔓延速度和范围有限。 其次,电源设施全部按照国家标准施工建设和验收, 其中开关、线缆等配件均为合格产品;机房线缆全部实现金属穿管布线。第三,机房安排 24 小时双人同时值班, 严格执行定期检查检测制度, 认真落实供配电系统定期检测制度, 所有供电回路没有满载使用情况。 第四, 机房安装了合格的自动检测消防系统, 包括自动温感和烟感报警及自动扑灭装置,机房内合理布置了适量的手提灭火器。 第五,机房内严禁用火, 工作人员
9、严禁在机房内吸烟。 第五, 机房有健全的门径控制系统和严格的人员进出管理制度, 工作人员的业务素质较高,职业操守良好。3)风险承受力:局部火险的影响可以承受,一旦发生火灾就将会导致非常严重的后果和不可控制的影响4)结论:可控性高,发生率低,风险较小。2、风险预置理念通过对机房运行风险的分析,运行风险预先处置的理念。少二、三级风险的发生。就会发现, 机房风险可以进行适当的分别对待, 因此提出机房即通过科学的防范措施, 尽可能避免一级风险的发生, 尽可能减1)风险转移。将一些可以预见但可能发生概率较低的风险,通过购买保险、设备维修外包等形式,转移到保险公司和机房设备服务商。如购买财产保险,将机房风
10、险(机房建筑物风险、火灾风险等)转移到保险公司;通过机房设备外包的方式,将UPS、精密空调等设备故障风险转移到设备维修服务公司等。特别是对重要的设备以外包方式实现风险转移,是非常理智的选择。同时强调,选择风险转移的主要目的在于通过借助相关部门的管理、技术、资金来最大限度地降低机房发生相关风险的可能性。2)科学监控。 事实上, 机房保障系统的运行故障,大部分是有一个从量变到质变的过程的,机房设备的使用寿命也有一定的规律可循,而且所有机房设备的运行故障必定有其特定的原因。据此, 通过健全科学的实时监控措施,对发生故障随机性强的机房保障系统进行长期实时检测, 经过对采集的运行参数的有机分析,及时采取
11、有效的规避风险的措施。由实时监控系统建立的预警系统, 可以达到对其监控设备的运行状态检测、运行异常警告、 运行故障原因分析,从而达到运行故障防范和及时处置的目的。3)应急方案。应对运行风险的目标,是尽可能避免发生运行风险,一旦发生风险就要做到快速反应, 快速恢复。既然机房运行风险是客观存在的,同时必须承认,有些机房运行风险发生的时间是无法预控和预知的。对此,理想的选择是建立一整套科学有效的“机房运行风险应急方案 ”。包括启动运行危机处置的报告体系、负责人力资源调动和现场协调指挥的组织机构, 负责执行风险处置的各方面专业技术人员及联络体系,指导具体操作的完善详尽的异常处置应对方案。“机房运行应急
12、方案”, 特别重要的是可用性,即实用、能用、会用。其基本原则是制定方案分门别类,描述内容直观明晰,处置方法准确详尽,应急效果可靠稳妥。必须关注整个应急处置过程的所有细节,包括异常分析判断、启动联系协调手段、应急人员备份、处置工具器材等; 应急方案必须具备多种级别的应对措施,任何情况下, 避免出现无所作为或无法应对的局面。 同时特别重要的是对应急方案的应用能力,平时认真组织模拟演练的方法,可以提高应急处置水平。总之, 高度重视机房运行保障的重要性,客观地认知机房运行规律,科学地应对机房运行风险,不断探索和掌握机房运行维护技术,不断提高机房保障管理水平,就能最大限度地规避机房运行风险,为各种计算机应用业务提供可靠保证。