ibm-pc服务器故障诊流程.doc

上传人:F****n 文档编号:98083573 上传时间:2019-09-08 格式:DOCX 页数:9 大小:225.34KB
返回 下载 相关 举报
ibm-pc服务器故障诊流程.doc_第1页
第1页 / 共9页
ibm-pc服务器故障诊流程.doc_第2页
第2页 / 共9页
ibm-pc服务器故障诊流程.doc_第3页
第3页 / 共9页
ibm-pc服务器故障诊流程.doc_第4页
第4页 / 共9页
ibm-pc服务器故障诊流程.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《ibm-pc服务器故障诊流程.doc》由会员分享,可在线阅读,更多相关《ibm-pc服务器故障诊流程.doc(9页珍藏版)》请在金锄头文库上搜索。

1、IBM PC服务器故障诊断流程一、状态确定: 状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有POST蜂鸣声或者报错码,面对这种情况可结合前面板LED,光通诊断板,主板LED,POST阶段的一些现象具体问题具体分析。故障定位侧重于判断坏在哪里;二、故障定位:故障定位的时候,我们用到的手段非常多,下面,利用POST的过程;1、 POST阶段复习:广义的POST过程是指从按下电源开关到开始引

2、导系统,共分为三个过程:电源供电阶段核心部件初始化阶段狭义POST阶段2、 电源供电阶段:从按下电源开关的瞬间开始,设备就开始工作了;电源是动力的源泉,供电系统的良好是设备正常运转的基础; 如果问题出现在电源这边,那么之后的一切都进行不下去了;电源问题:供电系统的良好是设备正常运转的基础;只有供电系统OK了,设备才可以开始自检;故障表象:机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应。诊断方法及过程:供电系统是一条完整的链路,不是单指电源模块;市电及插座电源线电源模块电源分配板主板;首先,要确认市电供电是否正常;包括使用的插座或者PDU(power distribution un

3、it)模块;其次,查看电源线是否接好,电源线本身是否OK;诊断方法:替换法+最小化法+指示灯法+排除法;替换法:拿确认完好的备件去替换故障设备上的相应备件;最小化法:将链路裁减至最小(要保障设备能正常运行),再进行故障排除;IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBMX346(8840)为例,下面为IBM X346(8840)能够启动的最低配置:指示灯法:一般在电源模块上都有相应的指示灯,来表征电源模块的状态;比如AC(交流电)和DC(直流电)。3、 核心部件初始化阶段:核心部件初始化问题:电源OK之后,在真正的POST开始之前,其实要有一个准备

4、过程,即核心部件的初始化过程;如下:电源CPU BIOS CMOS 内存(前64k) I/O总线控制器显卡系统这些部件都是POST要开始的必须条件,POST实际上是由他们来完成的,所以在他们初始化成功之前,POST不会开始;注:核心部件的初始化,只是为了满足POST,他们初始化成功,并不代表他们所有功能都OK;所以,在他们初始化之后,还会有一个对他们自己的POST过程;所以在整个POST过程中,CPU之类的核心部件会被检查两次,一次初始化,一次才是真正的POST;IBM:(1).机器电源风扇转,电源灯常亮,但机器无显示。(2).机器无显示,机器前面板!指示灯和光路诊断板上的LED指示灯亮黄灯或

5、者红灯;(3).机器无显示,但有明显的B-B-CODE报警声。诊断方法及过程IBM:(1).确认机器显示器是否连接正常,并正常工作。(2).确认机器前面板上的LED指示灯是否正常,确认光路诊断板上的指示灯是否正常; 确认主板上的LED指示灯是否正常; Eg:IBM X346(8840)为例: 前面板指示灯:查询手册:Hardware Maintenance Manual and Troubleshooting GuideChapter 1. General informationFront view硬盘: 硬盘驱动器活动指示灯(绿色)该灯闪烁表示硬盘有数据读写操作;硬盘驱动器状态指示灯(绿色)

6、该指示灯点亮,则表示驱动器发生故障。如果服务器中安装了可选的IBM ServeRAID 控制器且该指示灯在缓慢闪烁(每秒闪烁一次),就表示正在重建(rebuild)驱动器。当指示灯快速闪烁(每秒闪烁三次)时,表明控制器正在识别该驱动器。 黄灯点来那个就说明该驱动器发生了故障,频率较高的闪烁表明服务器正在识别该驱动器,频率较低的闪烁说明服务器正在重建驱动器。操作信息面板: 操作员信息面板的含义: 系统错误指示灯如果该指示灯点亮,则表示发生了系统错误。系统错误指示灯还位于服务器背面。系统板上光通路诊断面板上的指示灯也点亮,以帮助隔离错误。该指示灯由BMC 控制。释放滑锁按下操作员信息面板右侧的释放

7、滑锁来将操作员信息面板滑出并查看光通路指示灯和按钮。 电源指示灯 如果此绿色指示灯点亮并不闪烁,则表示服务器打开。如果该指示灯在闪烁,则表示服务器关闭,但是仍连接到交流电源。当此指示灯熄灭时,表明已切断交流电源或者电源或指示灯本身出现了故障。服务器后部也有电源指示灯。注:如果此指示灯熄灭,并不表示服务器没电。此指示灯可能已烧毁。要切断服务器的所有电源,必须从电源插座拔出电源线。电源控制按钮按下该按钮可手动打开和关闭服务器。电源控制按钮护罩与服务器一起提供。您可以安装此磁盘形状的护罩以防止意外关闭服务器。硬盘驱动器活动指示灯如果此绿色指示灯点亮,则表示某个硬盘驱动器正在使用。注:在两个位置显示了

8、SCSI 驱动器的硬盘驱动器活动:硬盘驱动器本身和操作员信息面板上的硬盘驱动器活动指示灯。SATA 驱动器没有硬盘驱动器活动指示灯。SATA 驱动器指示硬盘驱动器活动的唯一位置是在操作员信息面板上位置指示灯如果服务器位于其它服务器中间,此中间(蓝色)指示灯可以帮助您从视觉上区分出该服务器。可以使用IBM Director 来远程点亮该指示灯。该指示灯由BMC 控制。信息指示灯如果此淡黄色指示灯点亮,则表示发生了一般事件。请检查光通路诊断面板光路诊断板指示灯: 查询手册:Hardware Maintenance Manual and Troubleshooting Guide Chapter 3

9、. Diagnostics Light Path Diagnostics 光通诊断板的含义: 光路诊断板点亮,系统错误LED点亮或者系统信息LED点亮含义操作OVERSPEC点亮表示没有足够的电量为系统供电,NONRED和LOG也会点亮1.如果只安装一个了一个电源,请安装另外一个可选电源;2.更换故障的电源PS点亮表示一个电源故障或被卸下;冗余电源中一个电源的DC灯熄灭1.保证电源冗余;2.更换故障电源LINK保留CPU点亮微处理器发生故障;闪烁表示发生了无效的CPU配置确保正确安装处理器;发生了配置错误保证所安装的CPU的各个参数都一致VRM点亮表示微处理器稳压模块发生故障;闪烁表示进行了无

10、效的配置更换故障的VRM,如果问题仍存在请更换主板;保证正确安装VRMLOG点亮表示BMC日志或者系统错误日志中,两个之一已满或者全部几乎已满系统错误日志为75%已满;如果可以保存并清除日志;检查日志可以找到潜在的错误MEM点亮内存故障;闪烁表示进行无效的内存配置更换系统板上点亮LED的故障内存;保证DIMM的正确安装NMI点亮表示出现机器检查错误检查系统错误日志和BMC日志PCI点亮PIC适配器出现故障;PCI-X板上相应的LED也会点亮检查BMC日志或者系统错误日志;更换故障的PCI适配器SP 点亮服务处理器发生故障从服务器上卸下交流电源;然后将服务器重新连接到交流电源并重新启动服务器;如

11、果故障仍存在请更换系统板DASD 点亮出现硬盘驱动器错误;出现错误的硬盘驱动器上的错误指示灯也会点亮检查驱动器上的指示灯并更换指示的驱动器RAID点亮RAID控制器出现故障检查BMC日志系统错误日志;更换故障的RAID卡NONRED点亮表示服务器正在使用非冗余的电源;LOG灯也有可能点亮更换故障电源;TEMP点亮表示温度超出系统阙值确定风扇是否发生故障;保证机房内温度在正常范围内FAN点亮风扇发生故障或者转速过慢;故障的风扇在系统板上的指示灯也会点亮更换故障的风扇PCI BRD点亮表示PCI-X板出现故障重新安装PCI-X板组合件CPU BRD点亮表示微处理器托盘出现故障重新安装微处理器托盘I

12、/O BRDI/O板出现故障重新安装;更换故障I/O板注意:不是所有设备的光路诊断板都可以从前面板上拉出来查看的,一些老设备是将光路诊断板设计在机箱内的,需要开盖查看; 主板指示灯: 查询手册:Hardware Maintenance Manual and Troubleshooting Guide Chapter 4. Customer replaceable units System-board LED locations(3). 确认机器报警声信息。 查询手册:Hardware Maintenance Manual and Troubleshooting Guide Chapter 6.

13、 Symptom-to-FRU index Beep symptoms(4). 最小化测试4、 狭义POST阶段:在显示器开始有显示之后,进入我们所谓的狭义POST阶段,在这个阶段,我们开始告别两眼一抹黑的困境;首先,CPU的基本功能初始化完成,他可以执行POST代码对部件进行全面的自检,并且,显卡POST功能的通过,我们又有了可供CPU反馈POST结果的平台,报错码、诊断工具纷呈出台;所以,在这个阶段,最核心的思想就是:掌握好设备的报错码分析手段和诊断工具的使用;IBM:(1).指示灯法: 和核心部件阶段的方法一样;(2).报错码:Hardware Maintenance Manual an

14、d Troubleshooting Guide Chapter 6. Symptom-to-FRU index Error symptoms和POST error codes;(3).F2诊断程序,自检阶段根据提示F2 for DIAGNOSTICS,可以根据提示选择Quick test,测试硬件设备,查看测试日志; 开启服务器并观察屏幕。 注意:为了运行检测程序,必须使用所设置过的最高级别的密码启动。就是说,如果设置了管理员密码和开机加电密码,则用户要运行检测程序就必须输入管理员密码,而不是开机加电的密码。当看到F2的检测程序信息出现时,按F2进入。如果设置了密码,输入正确的密码然后按回车。

15、在屏幕最顶端的菜单中选择Extended或Basic来执行两种检测模式。当检测程序菜单界面出现的时候,从中选择你想运行的检测项目,然后按照屏幕上的提示操作。a、用户可以在运行检测程序的时候按F1获得帮助信息,并且用户还可以在帮助窗口内按F1来获得在线的文档帮助,从中用户可以选择不同类别的信 息。要从帮助信息中退出,按ESC。 b、如果服务器在检测过程中停止并且用户不能继续执行检测程序,重新启动服务器并且尝试再次运行检测程序,如果检测这个设备依旧出现服务器停止的问题,更换这个部件。c、键盘和鼠标(点击设备)的检测假定有一个键盘和鼠标已经连接到服务器上。d、如果用户在没有连接键盘或鼠标的情况下运行检测程序,那么将无法使用Next Cat和Prev Cat按键来操作在不同类别的检测项目之间进行切换。所有其它的功能选项均提供鼠标可点击的按钮

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号