WP4 v0数据中心文件和培训的重要性

举报
资源描述
数据中心文件和培训的重要性 对关键任务环境宕机事件的所有研究结果都得出了一个相同的结论:即人为失误是罪魁祸首。消除对您的业务的这一威胁最有效的方法在于利用好文件和培训这把双刃剑。培训到位的员工了解整个数据中心的运营状况,知道如何对其进行安全操作和维护,他们也懂得如何应对出现的异常状况。详尽、准确且易于获取的文件既是员工的这些知识的基础,也为这些知识的运用提供了方法。建立全面的文件和培训计划对数据中心是至关重要的,但往往很少能实现这一目标。本白皮书描述了建立一个有效的计划的方法论,以满足关键任务环境的特殊需求。施耐德电气旗下 的白皮书现收录于施耐德电气白皮书资料库 由施耐德电气数据中心科研中心数据中心科研中心发表 DCSCSchneider-E 第 4 号白皮书 版本 0 作者 Bob Woolley 摘要 数据中心文件和培训的重要性 施耐德电气 数据中心科研中心 版本 0 2 所有任务关键型企业的主要目标之一就是正常运行时间。根据定义,如果任务很关键,服务中出现的任何中断都是一件糟糕的事情。IT 和设施管理人员花费了大量的时间来专注于如何提高业务的正常运行时间。影响正常运行时间的因素众多,但其中最难控制,而且被许多研究结果视为造成服务中断罪魁祸首的,是人为失误。无论在基础设施设计方面投入多少资金都无法根除这一因素。事实上,努力建造一个傻瓜系统可能适得其反,因为自动化系统太过于复杂,以至于一旦发生意外,很难对其进行手动控制。尽管人为失误无法根除,但通过使用适当的工具可大大降低其发生的几率。最重要的两个工具就是文件和培训。多少才是够了?首先,应该要注意到的是几乎在所有的数据中心管理中都制定了某种形式的文件和培训计划。毕竟,只要看看设施办公室书架上堆积如山的图纸、手册以及供应商报告便可一目了然。难道设施技术员们被招入公司时不曾接受过某些类型的培训吗?但实际情况是,公司在文件和培训方面总是敷衍了事,毕竟做起来既困难又需要资金,而且你如何能确定什么就是足够了呢?不是任何文件和培训计划都能达到降低宕机风险的目的,仅仅依靠施工移交文件加上在职培训也不能胜任这一任务,并且在这方面大把投入资源也不会解决问题。真正需要的是一系列经过验证、而且能够以最佳成本效益的方式实施的最佳实践和方法论。供应商移交文件可能数量异常庞大,虽然也是数据中心运营的重要组成部分,但要实现有效的可持续运营,这些文件还远远不够。通常缺失的是关键环境团队需要用来执行每日巡视、常规操作、预防性维护、纠正性维护和应急响应等任务时所需的详细的程序和报告。各种程序 实际上,发生在数据中心的每一件事情都应该有一个书面的程序。一个合理构建的程序可以实现多个重要目标:过程规范化 编写一份程序就迫使编写人员要极其仔细的检查所写内容的详细程度,确保不可能产生歧义。这包括严谨的逻辑思考,而且能让编写人员有短暂的歇息来深思程序的细微差别。如果整个程序能够遵循一个确立的结构(模板-译者注),让程序的重要内容,如安全、工具和材料库存以及退出计划等等,都能自动包括在内,则效果更佳。同事评审 有了书面的程序便于同事评审和其他类型的监督。允许他人来评审程序制造了一个过程改进的机会。单知道工作会受到评审就可以帮助把程序带到一个更高的水平。正确执行 一份良好结构化的文件不仅要提供用来执行一个完整的、标准的程序所需要的信息,它还要提供按正确顺序进行作业的框架、授权员工在出现偏离预期的异常情况时能够停止作业、和创建一份谁在什么时候做了什么的书面记录。培训 简介 建立文件计划 数据中心文件和培训的重要性 施耐德电气 数据中心科研中心 版本 0 3 书面的程序大大简化了培训过程。它节省了培训材料的开发时间、有助于确保涵盖所有的主题、同时还提供了测评的框架。持续过程改进 书面的程序是珍贵的参考工具,并且通过系统性地在每次执行后对他们进行检查来将任何反馈整合入到过程中去,使原本已经很出色的程序不断得到改进。记录保存 完成的程序是一份对实际执行情况的重要记录。它不仅对技术团队具有价值,同时也提供了一份符合内部和外部法规的可审计的记录。程序的使用方式很多,专门针对特定任务的程序具有专门的格式。最常使用的程序是:标准操作程序(SOP)标准操作程序可以是功能性的,也可以是管理性的。它详细地描述了一个常用的操作程序,并且在任何需要的时侯进行参考和引用。譬如,如何利用楼宇管理系统轮换设备属于功能性的标准操作程序,而如何创建一个工单就属于管理性的标准操作程序(即 ASOP)。作业指导书(MOP)作业指导书是一份详细的、一步一步的程序,在任何能够直接或者间接影响到关键负载的设备上及其周围作业时使用。数据中心应该有针对有计划的维护操作的作业指导书库,并且还应该为纠正性维护和安装活动制订相应的作业指导书。作业指导书可以引用需要在程序过程中执行的标准操作程序。紧急操作程序(EOP)一份紧急操作程序就是一个对一种已经预测的或者以前经历过的故障模型的响应程序。它包括如何实现一种安全的状态、恢复冗余、和隔离故障。紧急操作程序也可以包括灾难的恢复方案。各种报告 另一组重要的文件就是各种需要用于跟踪设施状态与状况的报告。现场巡视报告 现场巡视报告是一份每个班次在现场巡视期间填写的检查表,它确认已经完成的活动并记录设备的状态。阅读巡视报告可以补充和/或验证现场监视系统。值班报告 值班报告是各班人员记录当值期间设施中发生的所有重大活动的报告。其内容形成了连续的记事,可以由接班人员用来确定自他们上次值班以来按顺序已经发生的一切事情。缺陷报告 缺陷报告是对一个特定的缺陷的详细说明,连同任何可用的度量、风险评估、建议的补救措施和成本估算。它用于记录各种问题,并且对向决策者证明所有相关开支的合理性是非常有用的。事故报告 事故报告是一份对特定事故的详细说明,包括一步一步的时间表,跟踪发生了什么、谁参与了、什么时候发出了通知、采取了什么紧急措施和哪里发生了状态的变化。故障分析报告 故障分析报告是根据事故报告所做的根本原因分析,其目的是确定事故发生的根本原因,以防类似事件再次发生。经验教训报告 经验教训报告是记录设施操作或维护过程中获得重要的经验教训的方法,让技术人员和操作人员从其他人的经验中受益。经验教训是持续的过程改进计划的重要组成部分。设施周报 数据中心文件和培训的重要性 施耐德电气 数据中心科研中心 版本 0 4 设施周报是对设施状态所做的每周总结,通常包括系统容量、已完成的维护、即将要实施的维护、当前正在进行中的项目以及各种问题,等等。建立一个文件过程 识别和创建文件模板仅仅是建立文件过程的第一步,还需要制定文件使用的标准政策,包括从填写各种表格到进行文件审核、执行程序以及利用反馈进行过程改进。程序程序开发开发 程序开发有一个合乎逻辑的过程,包括如下的步骤:确定所有可用的设备 确定可能的故障模式情景 创建紧急操作程序 创建标准操作程序 制定有计划的维护方案 创建预防性维护的作业指导书 o 首先创建使用频率高、近期就要用的程序 o 接着创建使用频率低、很久以后才用的程序 o 制定纠正性维护程序(根据需要)要使作业指导书之类的文件可用作有效的风险管理工具,则创建过程需要遵循一个严谨的方法。以下为一些需要考虑的细节:时间表信息 现场和联系人信息 程序概述 预计对设施产生的影响 支持性文件 安全要求 工具和材料的要求 风险和假设 一步一步的工作细节 故障恢复程序 批准 完工签收 程序反馈 质量保证质量保证 一旦一份程序编写完成后,它应该接受某种形式的质量保证控制。最有效的方法就是进行一次正式的工程审核。若无法做工程审核,可以由同事审核或者管理层审核来代替。每次要执行一份程序时均应对其进行审核,直至经过多次审核,至少一次以上无需修改为止。至此,该程序成为了一份成熟的程序,可以按照需要使用。最好对此类标准化的程序定期进行评审,以确保所有已知的最佳实践都在其中得到了利用。数据中心文件和培训的重要性 施耐德电气 数据中心科研中心 版本 0 5 过程改进过程改进 零停机时间是大多数数据中心运营的目标,但真正实现起来并非易事。没有任何一个过程或一份程序可以堪称完美,尤其是在它们的早期阶段。制定一个持续过程改进计划,来提供一个微调过程和程序的机制,是至关重要的。例如,所有作业指导书均应包含反馈部分,用以记录实际执行程序过程中发现的与书面程序的差异。改进建议可以立即写入新版本的程序并通过质量保证过程。重要经验教训可以记录入经验教训报告,然后发送至公司各个相关部门。文文件件管理管理 最后,必须建立一个文件管理系统。理想情况下,这是一个自动化系统,可存储文件的数字化版本,用于存储、检索和归档。文件管理系统甚至可内置具有质量保证功能的工作流程。这可能并不完全适合每个预算。更手动化的过程可能较不方便,功能也不够丰富,不过,如果包含了以下要素,则仍然可以符合要求:一份目录,分类列出每份文件并且列出其位置;版本控制系统,它显示文件作者、当前版本号、文件的所有者、各版本的变更日期和变更内容、以及下次计划的评审时间;一个质量保证程序,用于对文件添加、更改和删除进行同事审核和/或管理层审核。数据中心建成后,培训通常是由参与现场施工的供应商和承包商来提供。但是,这种培训的质量参差不齐,并且经常由毫无培训背景的销售人员和技术人员来提供。未参与该轮培训的人员往往由其他技术人员来培训。主要的培训方法就是在职培训,受训者通过观察他人完成他们工作的过程来学习。同样,培训质量也参差不齐,而且不完整,为关键任务环境带来了许多不确定因素和风险。建立一套培训计划是切实所需,为员工提供有效培训,并以确保所有员工逐步提高专业技术水平的模式进行培训。通过培训计划的员工可以获得执行与其培训级别相符的具体任务的资格。培训计划要按以下的几个逻辑进程分级:第 1 级:具备可在监督下进行基本操作的资质;第 2 级:具备可进行日常操作与维护的资质;第 3 级:具备可进行高级操作与维护的资质;第 4 级:主题事物专家。执行培训计划 任何培训计划最困难的一个环节是开发培训材料。缺乏有效的培训计划的一个重大原因就是项目开发的时间和费用。然而,在您考虑有效的培训的好处时,它所带来的延长的正常运行时间、降低的维护成本和降低的员工流失率抵消你的成本和精力的投入绰绰有余。培训开发 创建一个有效的关键任务环境培训课程的必要步骤如下:创建紧急操作程序的演练课程;开发主要设备/系统的运行理论;创建标准操作程序和作业指导书的培训模块;开发各种培训级别的考试。建立培训计划 数据中心文件和培训的重要性 施耐德电气 数据中心科研中心 版本 0 6 培训实施 第第 1 级级 通过本级培训,受训员工应该能够具备“从旁观察“的能力和紧急情况下正确响应的能力。理想情况下,应该至少有一名级别更高的技术人员与受训者一起值班。本级培训涵盖以下主题:行政管理职能 运行理论 日常工作 安防政策 紧急程序 第第 2 级级 本级培训重点是了解关键系统,受训者应能够开始参与日常工作实践。包括以下内容:技术关键系统设备知识 频繁执行的操作程序和/或基本操作程序 频繁执行的维护程序 第第 3 级级 本级培训重点扩大至非关键系统,同时更深入地了解关键系统。培训内容如下:技术非关键系统设备知识 执行频率低的维护程序 执行频率低的操作程序和/或难度适中的操作程序 第第 4 级级 本级培训让受训员工逐渐成长为主题事物专家,培训内容包括:精选出来的高技术难度的程序 专业的外部培训 培训课程开发 培训授课 培训时间表培训时间表 完成该类培训所需时间与培训的复杂程度和培训材料的数量成正比。图图 1 为一座中等规模、中等复杂度的数据中心的培训时间样表:第 1 级:自雇用之日起 30 日内完成 第 2 级:第 1 级培训结束后 3-4 个月内完成 第 3 级:第 2 级培训结束后 4-6 个月内完成 第 4 级:第 3 级培训结束后 4-6 个月内完成 数据中心文件和培训的重要性 施耐德电气 数据中心科研中心 版本 0 7 培训等级培训等级 4 3 2 1 0 1 2 3 4 5 6 7 8
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关搜索

当前位置:首页 > 行业资料 > 能源与动力工程


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号