服务器机房和远程网络配线间中的人为错误

上传人:ldj****22 文档编号:45877147 上传时间:2018-06-19 格式:PDF 页数:11 大小:1.24MB
返回 下载 相关 举报
服务器机房和远程网络配线间中的人为错误_第1页
第1页 / 共11页
服务器机房和远程网络配线间中的人为错误_第2页
第2页 / 共11页
服务器机房和远程网络配线间中的人为错误_第3页
第3页 / 共11页
服务器机房和远程网络配线间中的人为错误_第4页
第4页 / 共11页
服务器机房和远程网络配线间中的人为错误_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《服务器机房和远程网络配线间中的人为错误》由会员分享,可在线阅读,更多相关《服务器机房和远程网络配线间中的人为错误(11页珍藏版)》请在金锄头文库上搜索。

1、 监测系统如何降低分布式 服务器机房和远程网络 配线间中的人为错误 作者 Dennis Bouley 服务器机房和远程网络配线间发生的意外事件令许多 IT 经理们彻夜难眠。他们中的大多数人都能历数一些惊险 的事件,由于运气不济、人为失误或仅仅是因为对系统 不够熟悉,而无奈地导致服务器机房宕机。本白皮书将 透过对此类意外事件的分析,就基本的监测系统如何帮 助降低这些意外事件的发生可能性方面提出一些建议。 简介 2 简单还是复杂? 2 导致宕机的人为错误的性质 4 意外事件 4 监测系统组件 5 其它意外事件 8 结论 8 资源 9 版本 0 点击内容即可跳转至具体章节 目录 第 103 号白皮书

2、 摘要 白皮书现收录于施耐德电气白皮书资料库 由施耐德电气数据中心科研中心数据中心科研中心发表, DCSCSchneider-E 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 0 2 许多 IT 经理抱怨他们的分布式服务器机房和远程网络配线间常常会发生意外宕机。对这些意外 事件分析后,不难发现存在一个共性:信息匮乏。这种信息掌握上的资源匮乏使得时常会出现一 些人为失误从而导致宕机。这是因为,操作人员和管理员没有获得可供其使用的实时数据,这会 带给他们很大的压力,导致人为失误不可避免。 请看下面这两个统计数据: 据估计,仅

3、在美国地区1,就有 290 万个服务器机房和网络配线间 在上报的数据中心停电事件中,有 70%以上是由人为失误2直接导致的 本白皮书将详细介绍分布式服务器机房和远程网络配线间中常见的宕机事件,并就整合录像监控 和传感器的监测与自动化软件如何降低小型分布式环境中因人为失误引起的故障可能性方面提出 一些建议(见图图 1)。 每当计划在网络配线间和服务器机房等小型远程计算环境中应用监控系统时,总会涉及两大问题。 第一个是安装方面的问题。即考虑安装监测系统的工作有多复杂?换言之,收集受监测设备的属 性信息以及输入这些信息需要多长时间?(假设在多个地方安装了数百台设备)?系统如何对摄 像头、空调、UPS

4、 和热传感器等设备加以识别以及如何生成 IP 地址信息以便于将这些设备的状1 IDC,新一代数据中心的构建、规划和运营,Michelle Bailey, 2008 年 2 Uptime 协会,数据中心物理基础设施的 Tier 标准:运营的可持续性,2010 年 简介 简单还是复杂? 图 1 可通过多层智能监控 减少人为错误 液体探测器闭路电视摄像头干接点摄像头湿度传感器门禁传感器管理设备管理设备 远程管理控制台温度传感器摄像头UPS颗粒物 传感器监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 0 3 态信息进行回传?第二个

5、问题涉及的是未知工作量的确定,即偏远地点中的供电、制冷和环境监 测设备何时需要更换的问题。例如,如何对升级至新的固件以及如何更改温度阈值? 在过去的几年间,监测软件包发展迅速,目前,用户可以选择自行安装软件或申请协外协服务, 以获得安装协助。通常情况下,用户注册外协服务并成功运行需要 1-2 天的时间。 监测软件包的交付形式可以是分配/下载代码或包含预装软件的机架式服务器。该系统可以安装 在远程地点或中央数据中心内(例如,对数十个或数百个网络配线间进行管理)。管理服务器通 电后,客户端会下载到笔记本电脑中,如此一来,操作人员便可以开始确定供电、制冷和环境监 测设备以及需要加以监测的人为活动。大

6、多数现代化 UPS、制冷系统和安防摄像机的标准配置 均包括通信所需的网络接口卡(NIC)。操作人员需要确定受监测设备所用的 IP 地址或 IP 地址 范围。相关范例如图图 2 所示。随后,一些系统可以自动搜索网络并确定所有受监测的供电、制冷 和安全设备的位置。“自动识别”设备的功能可以大大简化系统安装和开机时面临的挑战。一旦“发 现”远程设备,该系统将开始进行监测。 此外,一些监测和自动化系统还允许按地点、按地点内的某行或设备类型对设备进行分组(例如, 对所有制冷设备、PDU、仪表、摄像头等设备进行分组)。分组操作使用户能够为该组设置策略 和阈值。通用阈值参数包括温度、湿度、开关状态指示(如机

7、柜门禁控制)。 超出阈值时,将会触发告警。这些告警将通过电子邮件或文本信息发送至系统管理员。必须注意 的是,只有远程环境中发生的重大变化才会触发告警。如果不然,管理员可能会在一小时内收到 数份告警。而这时,管理员可能会对这些告警变得“麻木”并且不予理会。因此,这就牵涉到在这 之间寻求一种微妙的平衡,让系统管理员认为每一份发送给他们的告警都是有意义的或至关重要 的。 部署现代化监测系统后,可以大大简化服务器机房或网络配线间固件更新等的升级工作。数据中 心经理无需再派人员到远程地点进行固件升级的安装工作。许多监测系统均具有执行批量配置的 功能,因此,可通过网络集中发送所需进行的变更。 图 2 设置

8、多台设备IP地址简单地 来说就是输入一串数字(右侧 截图示例来自于施耐德电气旗 下APC的英飞中央管理应用 程序) 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 0 4 与大型关键任务数据中心相比,分布式服务器机房和网络配线间的投资成本与所耗费的精力相对 较少。大型中央数据中心须聘请专家而且通常需要配备最新的安全技术,此外,还须留有充足的 内置冗余。但反观分布式服务器机房和远程网络配线间,其工作人员须身兼数职,其中一项工作 就是负责密切监控网络配线间或服务器机房。这些空间的安防措施一般相对较少,与大型复杂的 空间相比,它

9、们的意外宕机更为频繁。不管如何精心策划服务器机房或网络配线间,这些意外宕 机风险始终难以避免。一些 IT 经理认为他们做好了万全准备。他们对服务器机房的设计引以为 傲。然而,看似无害的技术人员或监控人员由于对现场情况不够了解,可能在不到 5 秒钟的时间 就将您的全盘计划毁于一旦。 在下文中列出的意外事件将说明缺少简单易用的监测和自动化系统可能会导致网络配线间和服务 器机房宕机。在这些环境中,并无工作人员值守,或者现场的工作人员无法向系统管理员发送故 障信息。延迟一小时发现制冷故障对于全面避免停电故障关系重大。快速、实时的告警使管理员 能够监控所发生的变化,以避免服务中断。 人为失误造成的意外事

10、件汇总如下: 负责管理其它分支机构远程服务器机房的系统管理员入内追查机房内服务器发生故障的原 因。他发现,改造工程承办商在施工过程中使用了热缩塑料包包装机架,希望服务器能够 防尘。对于此项举措,承建商并没有通知 IT 人员,因此,所有服务器在运行时均处于被包 裹状态,导致服务器过热并自行关停。 当高级业务经理无法登录互联网时,他决定亲自解决此问题。他走进服务器机房,将网线 从路由器插座中拔出,直接接到他的笔记本电脑上上网,从而绕过了所有防火墙服务和加 密保护程序,如此一来,整个系统可能会受到外界病毒和其它恶意软件的攻击。 作为维修工作的一部分,水暖工直 接在 Exchange 服务器上方的天花

11、板上钻了一个洞,然后草草地修补了导管接头。在半夜, 导管开始漏水。按惯例,水会流向天花板上的洞,滴落至下方的 Exchange 服务器中,导 致服务器永久性损坏。 清洁工被派来清扫服务器机房。他们发现不仅服务器机架粘满灰尘,机架内部也遍布尘埃; 机柜门是半开着的。清洗工按部就班,用玻璃清洗剂清洁机架和服务器的内部。没有人告 诉他们确切的清洁方法。 导致宕机的人为 错误的性质 意外事件 PowerEnergy Waste 图 3 “暗中酝酿的意外”一词被 用来形容小型远程服务器机 房再适当不过了 电力电力 能源能源 浪费浪费 空气污染空气污染 人员人员 烟雾烟雾 泄漏泄漏 温度温度 与湿度与湿度

12、 “分散的”物理威胁“分散的”物理威胁 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 0 5 服务商在卤化烷防护区作业。他在点燃丙烷焊炬之前并未通知任何人,且未关闭卤化烷系 统。 服务商关闭 PDU,以便将断路器添加到 PDU 上。PDU 正在通过分支向关键服务器供电。 许多进入到服务器机房的人甚至不了解机房的操作禁忌。 当设计监控系统主要用作限制远程服务器机房中的人为失误的发生时,必须考虑四个关键组件: 录像监控、传感器、智能机架插座以及监测和自动化软件。表表 1 将提供本节所述的解决方案的概 要。 录像监控与传感器

13、对于上述情形,监测和自动化系统有何作用?可扩展的监控和自动化系统现已推出,这些系统具 有收集、组织和发送关键告警和监控录像的功能。相关范例如图图 4 所示。通过监测供电和制冷设 备、机柜的正面和背面以及环境,这些系统可以即时生成故障通知,快速评估情况,并提供可能 会对 IT 系统的可用性产生不利影响的关键基础设施事件的解决方案。 在以上所列举的沟通不畅的例子中,请思考监控和自动化系统如何发挥作用: 物理基础设施和自动化系统辅助摄像机监控系统,监控行内移动的人为活动,记录运动探 测器被启动的时间。因此,即使没有 IT 人员到场,比如承建商包装服务器的行为,也将被 记录在案并向经授权的管理员发送告

14、警。在查看了相关视频之后,管理员可以发出“终止” 指令,从而避免宕机事故的发生。 此外,监测和自动化系统还可以通过低电流干触点输出开关的开合来开启或关闭设备。可 通过此方式控制机柜的开关(见图图 5)。可手动执行输出继电器动作,或将它配置为自动 告警动作,以对阈值事件或其他告警做出响应。以清洁工进行清洁为例,当得知他们将在 下班后开始清洁之后,对该系统进行编程,以便在下午 6:00 后锁定机柜。可由经授权的 人员手动或远程打开机柜,但是其他人不得打开机柜,直到第二天一早为止。 如果服务器机房支持信用卡交易,那么,摄像系统的意义更加重大。支付卡行业(PCI)规范准 则的合规性成为了一个重要的问题。一些州政府要求,每当资料外泄时,企业应当通知客户。随监测系统组件 图 4 由移动探测器触发的录像 监控示例,用以限制人为 错误的发生(示例屏幕截 自施耐德电气旗下APC的 英飞中央管理应用程序) 监测系统如何降低分布式服务器机房和远程网络配线间中的人为错误 施耐德电气 数据中心科研中心 第 103 号白皮书 版本 0 6 着时间的推移,被认为属于个人信息的数据的定义将扩及信用卡号码。一旦信用卡信息被归类为 个人信息,那么,惩罚性措施将会迫使企业接受被忽视的/不存在的安全做法。在将来,将直接 向被确认为遵守 PCI 规范准则、安全性高的企业颁发财政奖励。录像

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号