WP196_R1_数据中心设施运行的关键要素

上传人:l****6 文档编号:38959984 上传时间:2018-05-09 格式:PDF 页数:11 大小:729KB
返回 下载 相关 举报
WP196_R1_数据中心设施运行的关键要素_第1页
第1页 / 共11页
WP196_R1_数据中心设施运行的关键要素_第2页
第2页 / 共11页
WP196_R1_数据中心设施运行的关键要素_第3页
第3页 / 共11页
WP196_R1_数据中心设施运行的关键要素_第4页
第4页 / 共11页
WP196_R1_数据中心设施运行的关键要素_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《WP196_R1_数据中心设施运行的关键要素》由会员分享,可在线阅读,更多相关《WP196_R1_数据中心设施运行的关键要素(11页珍藏版)》请在金锄头文库上搜索。

1、 数据中心设施运行的关键要素 版本 1 作者:Robert Woolley 和 Patrick Donovan 第 196 号白皮书 根据我们的经验,大多数设施运行中断可归咎于人为 (如运维人员)失误或机械故障,其中大部分由不良 运行和维护操作导致1。这一情况强调了配备有效的运维(O&M)方案的重大意义。本白皮书阐述了别出心裁 的管理原则,从高层视角梳理了在整个生命周期内高 效可靠地运行关键任务设施必需的关键要素,并提供 切实可行的管理技巧和建议。 摘要 施耐德电气旗下 的白皮书现收录于施耐德电气白皮书资料库 由施耐德电气数据中心科研中心数据中心科研中心发表 DCSCSchneider-E 数

2、据中心设施运行的关键要素 施耐德电气 数据中心科研中心 版本 1 2 运维(O&M)方案如果设计合理,实施有力,并得到很好地支持,不但可以将风险降到最低,减少 成本,甚至可以为数据中心效力的整体业务带来竞争优势;反之,组织无序的方案将背离设计初 衷,置相关人员、IT 系统和业务本身于伤害或中断的风险之下。考虑以下几点因素,一个切实有 效的数据中心运维方案的重要性更加突显: 许多设施运行中断可归咎于人为(即操作人员)失误1,其中大部分由不良运行和维护操作导致 大部分数据中心设施的总拥有成本(TCO)源于运营成本,而不是初始投入,而运营成本正 是成本节约的主要潜力所在 能源成本在运营成本中所占比例

3、最大,且能源价格还在不断攀升 对提高能效的苛求往往降低了对容量安全系数和系统冗余度,主动性维护和数据中心基础 设施管理(DCIM)的重要性随之增加 高度设施自动化和高水平的设备性能,若加以妥善管理,在降低成本的同时,使可靠性得 以提高 本白皮书通过 12 个项目关键要素,论述了一个兼顾各方的关键设施管理方案和理念体系,并同 时提供各种实用技巧和建议。数据中心设施管理人员和操作人员可以应用这些信息来制定运维方 案,或对某个已有方案进行补充。第 197 号白皮书数据中心设施运行管理成熟度模型对数据 中心运维方案的制定和评估提供了详细的框架,并且认识到并不存在一个万能解决方案适用于所 有数据中心。

4、本文基于“关键要素”的白皮书旨在论述行之有效的数据中心运维方案的主要构成 要素,而关于“成熟度模型”的白皮书提供了根据特定业务的特定要求和发展阶段实施和衡量这些 方案的框架。应用这些工具机构管理人员可以根据其独特需求和可用资源,来确定在某特定时间 成熟度等级,并衡量和规划实施进度。请注意,本白皮书覆盖的主题并未包含关键设施运维涉及 的所有流程、任务、程序或系统,而是针对制定或评估全新或现有数据中心运维方案时应予以考 量的关键要素,提供一种思维视角。 数据中心中关键设施的运行和管理与商务写字楼或工厂的设施管理迥然不同。对于大多数数据中 心来说,故障是不允许的。有人将之比喻为在飞行途中对飞机进行维

5、护。时至今日,企业通常完 全依赖于数据中心,或者更甚,数据中心就是他们的业务。数据中心的复杂性和更换速度远甚于 其他类型的设施。日见增加的软件定义的数据中心(即虚拟机、虚拟存储和虚拟网络)加上 IT 更新周期短带来的负载迁移,使管理环境愈发具有挑战性。战胜这些挑战,有赖于设施团队周密 协调和全面规划。每一步都可能对系统可用性产生重要的潜在影响,因而每个操作任务都必须根 据该任务对可用性的实际影响加以谨慎评估。此外,还需应对外部形形色色的压力。为满足政府 法规和客户审计要求,必须妥善记录和切实遵循详细的过程和程序。企业高级管理层(CxO)通 常会密切关注数据中心运行的高风险和高成本。 设施管理人

6、员及其员工要在这种环境中有效地运行和管理设施,必须树立一种“关键任务意识”, 专注于降低风险,掌握设施和 IT 系统之间的相互关系。这种运营理念为卓有成效的运维方案奠 定了根基。表表 1 描述了其核心法则和影响。 1 http:/ 简介 “关键任务 意识”原则 数据中心设施运行的关键要素 施耐德电气 数据中心科研中心 版本 1 3 秉承这种理念体系,设施团队将处于更加有利的地位,能够顺利实施和管理基于 12 个关键要素 的有效运维方案。这 12 个关键要素是:环境健康与安全、人事管理、应急准备和响应、维护管 理、变更管理、文档管理、培训、基础设施管理、质量管理、能源管理、财务管理、绩效监控和

7、评估。下文将逐一论述各个要素。 环境健康与安全 每一个数据中心设施都存在电气、化学和机械安全危害,如果不及时发现并消除,可能会导致伤 害、疾病或甚至死亡。因此,一个周全的工作场所安全方案是任何数据中心运维方案的关键组成 部分。安全方案的关键任务包括伤害和疾病预防、电气安全、危险品分析,以及危险品使用。一 个有效的方案不仅保护工作人员免受伤害,耽误工时,还能规避政府部门的罚款和传票,减少设 备损坏和系统中断(这些问题往往都是由发生的事故引起)。表表 2 列出了有效的安全方案的关键 措施,并做出了说明。 “关键任务意识”法则 影响 聚焦于降低运维活动、工作流程和步骤中的风险 主动应对对系统可用性和

8、工人/业主安全构成的潜在威胁 周密计划,全面准备,可确保自信从容应对 避免风险成为真正问题; 如果确实出现问题,确保快速响应,减少出错 通过分析和过程驱动的方法避免风险和解决问题 帮助识别和降低复杂环境中的风险; 确保运行的可预测性和安全性 全面理解设施系统和组件的功能和相互间的联系 快速识别和解决潜在威胁或实际问题; 避免或减少系统宕机 致力于持续学习和过程改进 提高技能和运行效率从而在不断变化的环境中保持优势 12 个 关键要素 表 1 关键任务行为准则及其对数据中心运营的影响 数据中心设施运行的关键要素 施耐德电气 数据中心科研中心 版本 1 4 人事管理 数据中心设施系统的安装、维护和

9、操作仍然需要人来完成。人为失误是导致系统中断的首要原 因,消除人为失误需要招聘和培养有能力、有团队精神、能够体现上述“关键任务意识”的人才。 一个全面发展的团队由以下领域的专家组成:电气、机械、控制、火灾探测/扑救、质量管理、 培训,以及数字化维护管理系统(CMMS)和其他运营支撑系统,比如数据中心基础设施管理 (DCIM)和楼宇管理系统(BMS)。设施团队需要经过各种初期培训和持续培训,本白皮书后 续部分将围绕培训展开详细讨论。 除招聘和培训外,人事管理的另一个主要任务是针对组织的设施系统、业务职能部门和运营授权 来制定人员配备模型。确定人员编制的重要因素包括工作时间要求(例如,仅工作日、2

10、4x7)、 应急响应要求、维护工作量、项目监督需求,以及运营收支。此外,必须对设施维护范围进行分 析,确定需要维护工时,这需要考虑到人事变动管理和培训任务所需的行政时间。人员编制的目 的是确定正常运营所需的人员数量,并在维护和项目工作量高峰期由分包商人员予以增援。 基本上,工作时间要求取决于任务关键程度和系统宕机的感知成本。为确保最高水平的应急响应 能力,每班必须有至少两名具备电气和机械专业知识的技术员,提供 7x24 响应。有些风险状况 和/或预算允许更加宽松的人员配置,晚班和周末最少只需要一名技术员。有些则可能希望比 7x24 响应时间低的服务,即在下班后随时待命,尽管这样做风险会高些。所

11、有这些模型对于一 定的风险状况均有效,关键是让人员配置与风险状况相匹配。 最后,除清晰界定团队和组织使命外,明确每一个岗位的职能和职责同样至关重要。定义明确的 岗位描述为评估技能以及设定发展和培训需求的目标提供基准。因此,工作满意度和员工流失率主要方案措施 说明 安全计划和培训 必须制定书面安全计划,说明所有工作人员需要遵守 的安全工作条例和程序。此外,必须定期进行安全要 素方面的培训。 风险分析 所有操作流程必须从对涉及的潜在风险进行分析开 始。必须识别风险,并制定安全措施。 上锁挂牌流程 在运行或维修设备的时候,必须遵循正确的程序,防 止意外通电或启动(或导致储能释放的行为)。 个人防护装

12、备(PPE) 必须提供相应的防护装备,应确保尺寸合适,并根据 要求存放、保养和使用,以消减已经被识别的安全风 险 。 危险品处理 必须遵照制造商要求、当地法律和条例,正确识别、 标记、存储、保管和使用危险品。 危险品使用程序 包括有有害化学物质清单、遵照 GHS 全球化学品统 一分类和标签制度的安全说明书的使用说明、所有 危险品容器的正确标记,以及危险品使用和危害防范 方面的员工培训。 遵守所有适用的健康与安全法律法规 具体要求可能根据地区和政府级别不同而异(例如地 方政府、州政府、联邦政府)。 表 2 环境健康与安全的关键措施 数据中心设施运行的关键要素 施耐德电气 数据中心科研中心 版本

13、1 5 将会得到改进。一个成功的关键任务运营和维护计划必须建立在受过良好培训、适应能力强、承 担共同使命的团队基础之上。 应急准备和响应 无论基础设施设计和人员能力如何优秀,都不可能消除意外系统中断带来的所有风险。充分的应 急准备不仅是最好的预防,而且有助于确保应急响应及时、有效、无误。应急准备首先从根据高 风险故障情景(比如制冷设备失灵、发电机不能启动等情景)制定应急操作流程(EOP)开始。 EOP 制定了详细行动方案用于安全隔离故障,并在可能情况下恢复运行或启用备用设施。这些 程序应张贴在可能会实施应急响应的区域。而且,还需要不断地完善程序并进行演练,以确保指 挥系统知悉这些程序,并且可实

14、施应急响应时可调动充分的资源。此外,必须定期进行模拟情景 演习,以便演练和评估团队和个人的应急响应能力。在突发事件得到处理且其影响减轻后,应跟 进分析确定造成该事件的根本原因,以及了解处理问题过程中的应急响应能力。对重大的设施事 件进行的正式故障分析是整体持续改善流程的基础,用来降低未来的故障率和提高响应能力。 如需了解应急准备和响应方面的更多详细说明,包括紧急操作流程模板和应急演习程序,请参见 第 217 号白皮书 数据中心应急准备和应急响应。 维护管理 设施维护方案有助于确保电力和制冷系统在数据中心的整个生命周期内持续正常运行。好的资产 配置,结合主动式、预防性及预测性的维护计划,可以显著改善设备可靠性和系统可用性。由此 催生更加精准的维护预算,并从而缩减总拥有成本和宕机时间。反之,如果方案管理不善,由于 高故障率导致的高昂维修费用以及宕机时间的延长,则会使得运营成本增加。维护管理包含三大 任务:资产管理、工单管理和备件管理。资产管理、工单管理和备件管理。 资产管理资产管理 为所有关键设施提供准确一致的数据跟踪是良好维护方案的基础

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号