《IBM服务器故障诊断及排除》由会员分享,可在线阅读,更多相关《IBM服务器故障诊断及排除(12页珍藏版)》请在金锄头文库上搜索。
1、服务器故障诊断及排除服务器故障诊断及排除服务器故障诊断流程开始诊断是否进行总体的诊断总体诊断流程服务器是否正常加电加电问题诊断服务器是否能够完成自检操作系统是否能够正常启动服务器是否有Insight Management Agent报错或者LED诊断灯报错自检问题诊断操作系统启动诊断服务器诊断流YYYYY总体诊断流程NIBM 服务器故障诊断流程IBM服务器前视图4IBM 服务器故障诊断流程IBM服务器操作员信息面板电源控制按钮和供电指示灯电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器,或唤醒处于省电 状态下的服务器。供电指示灯的状态如下所示: 熄灭:熄灭:未接通交流电,或者电源或指示
2、灯本身出现故障。 快速闪烁(每秒四次):快速闪烁(每秒四次):服务器已关闭,但未准备就绪,无法开启。电源控制按 钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。 缓慢闪烁(每秒一次):缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按 电源控制按钮以开启服务器。 点亮:点亮:服务器开启。 逐渐变暗直至熄灭:逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或 使用IMM Web 界面。注:注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要 切断服务器中的所有电流,必须从电源插座断开电源线。以太以太网图标指示灯:以太以太
3、网图标指示灯:该指示灯点亮以太网图标。以太网活动指示灯:以太网活动指示灯: 如果这些指示灯中任意一个点亮,表示服务器正在向连接到对应 于该指示灯的以太网端口的以太网LAN 发送信号,或正在接收来自该以太网LAN 的信号。IBM 服务器故障诊断流程IBM服务器操作员信息面板 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某 个指示灯也会点亮,以帮助找出错误。系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的 某个指示灯也会点亮,以帮助找出错误。释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板 的后面。定位器按钮和定位器指示灯:
4、使用该指示灯可用肉眼在其他服务器中找到该服务 器。它还可用于证明受信平台模块(Trusted Platform Module,TPM)的物理存在。 按下此按钮可从本地开启或关闭该指示灯。可以使用IBM Systems Director 来远程 点亮该指示灯。IBM 服务器故障诊断流程IBM服务器光通路诊断面板指示灯问题操作无, 但无系统错误指示灯点亮。已发生错误但无法诊断,或IMM 发生故障。光通路诊断指示灯不表示该错误。使用Setup Utility 来查看系统事件日志,获取有关错误的信息。BRD主板上发生错误。 1.检查主板上的指示灯,确定引起错误的组件。在下列情况下, BRD 指示灯可能
5、会点亮: 电池 缺少PCI 转接卡组合件 稳压器发生故障2. 查看系统事件日志,获取有关错误的信息。3. 更换所有发生故障的可更换组件或安装缺少的可更换组件,如 电池或PCI 转接卡组合件。4. 如果稳压器发生故障,请更换主板。IBM 服务器故障诊断流程IBM服务器光通路诊断面板指示灯问题操作CNFG发生硬件配置错误。CPU当只有CPU 指示灯点亮时,才表示微处理器发生故障。当CPU 指示灯和CNFG 指示灯都点亮时,表示微处理器配置无效。1. 确定CNFG 指示灯是否也点亮。如果CNFG 指示灯不亮,表 示微处理器发生故障。2. 如果CNFG 指示灯点亮,表示微处理器配置无效。DASD发生硬
6、盘驱动器错误。硬盘驱动器发生故障或缺失。1. 检查硬盘驱动器上的指示灯以找出状态指示灯点亮的那个驱动 器,然后重新安装该硬盘驱动器。2. 重新安装硬盘驱动器底板。3. 如果该错误仍然存在,请按所示顺序更换以下组件: a. 更换硬盘驱动器。 b. 更换硬盘驱动器底板FAN风扇发生故障,或者是运行过慢,或者是已卸下风扇。TEMP 指示灯可能也会点亮。1. 重新安装由主板上风扇接口附近点亮的指示灯所指示的故障风扇。2. 更换由主板上风扇接口附近点亮的指示灯所指示的故障风扇。LOG已将错误消息写入系统事件日志查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。更换错误日志中指出的所有组件。IB
7、M 服务器故障诊断流程IBM服务器光通路诊断面板指示灯问题操作MEM当只有MEM 指示灯点亮时,才表示发生了内存错误。当MEM 指示灯和CNFG 指示灯都点亮时,表示内存配置无效。1. 确定CNFG 指示灯是否也点亮。如果是,请运行内存测试试验程序以确定问题。a. 如果测试报告有内存错误发生,请更换由主板上点亮的指示灯所指示的故障DIMM。b. 如果测试报告内存配置无效,请将DIMM 重新插入具有受支持配置的插槽中。2. 如果CNFG 指示灯不亮,那么应该出现了以下某种情况:v 服务器未引导且DIMM 故障指示灯点亮。a. 查看系统事件日志(SEL)中是否存在PFA 日志事件。b. 重新安装D
8、IMM。c. 如果问题仍然存在,请将DIMM 移到其他插槽中。1) 如果主板上与这个新DIMM 插槽对应的DIMM 指示灯点亮,请更换DIMM。2) 如果主板上与原DIMM 插槽对应的DIMM 指示灯点亮,请更换主板(仅限经过培训的技术服务人员)。v 服务器已引导,发生故障的DIMM 被禁用且其对应的指示灯点亮。a. 如果两个DIMM 对应的指示灯都点亮,请查看系统事件日志以找出有关其中一个DIMM 的PFA,然后更换该DIMM。否则,请同时更换这两个DIMM。b. 如果只有一个DIMM 对应的指示灯点亮,请更换该DIMM。c. 在服务器固件设置中重新启用DIMM 插槽。NMI发生不可屏蔽的中
9、断,或按下了NMI 按钮。查看系统事件日志,获取有关错误的信息。IBM 服务器故障诊断流程IBM服务器光通路诊断面板指示灯问题操作O V E RSPEC由于某个电源通道上出现电源超负荷情况,所以关闭了服务器。电源功率超过最大额定值。1 .检查电源指示灯以了解是否有错误指示(交流电源指示灯和直流电源指示 灯未同时点亮,或信息指示灯点亮)。更换发生故障的电源。2 .从服务器卸下可选设备。PCIPCI 总线或主板上发生错误。发生故障的PCI 插槽旁的附加指示灯点亮。1. 检查PCI 插槽上的指示灯,确定导致错误的 组件。2. 查看系统事件日志,获取有关错误的信息。3. 如果无法通过指示灯和系统事件日
10、志中的信息确定发生故障的适配器,请 从发生故障的PCI 总线上逐个卸下适配器,并且每卸下一个适配器都重新 启动一次服务器。PS电源发生故障。1.检查电源指示灯以了解是否有错误指示(交 流电源指示灯和直流电源指示 灯未同时点亮)。2. 确保发生故障的电源已正确安装到位。3. 更换发生故障的电源。RAIDRAID卡发生故障卡发生故障RAID卡有错误信息或RAID卡有硬件错误SP服务处理器(IMM)发生故障。1. 切断服务器的电源;然后将服务器重新连接到电源并重新启动服务器。2. 更新IMM 上的固件。TEMP系统温度已超出阈值级别。发生故障的风扇会导致TEMP 指示灯点亮。1.查看错误日志,以确定
11、在哪里测得温度过高情况。如果风扇发生故障,请进行更换。2. 确保室温不会太高。了解温度信息。3. 确保通风孔未堵塞。DELL 服务器故障诊断流程DELL服务器光通路诊断第一行信息每二行信息原因E0000OVRFLW CHECK LOGLCD 过载信息。LCD 上最多可以连续显示三则错误信息。第四则信息显示为标准过载信息。E0119TEMP AMBIENT系统环境温度超出可接受范围。E0119TEMP BP背板温度超出可接受范围。E0119TEMP CPU n n 指定微处理器温度超出可接受范围。E0119TEMP SYSTEM系统板温度超出可接受范围。E0212VOLT 3.3系统电源设备的电
12、压超出可接受范围;系统电源设备出现故障或未正确安装。E0212VOLT 5E0212VOLT 12DELL 服务器故障诊断流程DELL服务器光通路诊断第一行信息每二行信息原因E0212VOLT BATT电池出现故障;系统板出现故障。E0212VOLT BP 12背板电压超出可接受范围。E0212VOLT BP 3.3E0212VOLT BP 5E0212VOLT CPU VRM微处理器 VRM 电压超出可接受范围;微处理器 VRM 出现故障或未正确安装;系统板出现故障。E0212VOLT NIC 1.8V集成 NIC 电压超出可接受范围;电源设备出现故障或未正确安装;系统板出现故障。E0212
13、VOLT NIC 2.5VE0212VOLT PLANAR REG系统板电压超出可接受范围;系统板出现故障或未正确安装。E0276CPU VRM 指定微处理器 VRM 出现故障、不受支持、未正确安装或不存在。E0276MISMATCH VRM E0280MISSING VRM DELL 服务器故障诊断流程DELL服务器光通路诊断第一行信息每二行信息原因E0412RPM FAN 指定冷却风扇出现故障、未正确安装或不存在。E0780MISSING CPU 1插槽 1 中未安装微处理器。E0CPU IERR微处理器出现故障或未正确安装。E0CF1MBE DIMM Bank 指定内存体中安装的内存模块的类型和大小不一致;内存模块出现故障。E8MEM CONTROLLER内存模块出现故障或未正确安装;系统板出现故障。EFFF2BP ERROR背板出现故障或未正确安装。E8CPU MCKERR计算机检测出错;微处理器出现故障或未正确安装;系统板出现故障。