IBM_P服务器故障检测.doc

资源描述

《IBM_P服务器故障检测.doc》由会员分享，可在线阅读，更多相关《IBM_P服务器故障检测.doc（12页珍藏版）》请在金锄头文库上搜索。

1、p系列、系统p预防性维护说明p系列、系统p预防性维护说明国际商业机器（中国）有限公司文档编号：当前版本号：3.1最初发布日期2001年12月13日最新修订日期：2011年9月2日一、硬件维护部分：1. 检查机房环境：（请参照IBM机房条件及各机型的具体要求）温度：室内温度建议保持在222湿度：相对湿度应保持在505%电源：根据不同机型使用的电源有：200240V 交流单相；380415V 交流三相；-48V5% 直流，实测电压不应超出允许的范围。零线与火线不能反接，通常是面对插座的左边为零线，右边为火线。机器必须有良好的接地保护，地线的接地电阻要求小于1欧姆。因接地电阻测量需要专业仪器，因

2、此以客户提供的测量数值为准，工程师只要确保机柜电源线的地线、机壳（接上电源线后）到建筑物接地端的电阻小于1欧姆就可以了。新版巡检报告中添加了记录事项为是否双电源(此处指的是双动力源供电，比如电力供给来自不同的发电厂，而不是指设备是不是有冗余电源)，此外，需要记录如果是双动力源是否部署在了各自独立的PDU或者UPS上。洁净度：机房应保持清洁且有良好的管理与维护。如机房太脏应提醒客户注意。设备散热：设备进风口温度是否够低并有足够的气流。机房内设备的摆放是否符合冷热通道原则（绝对不能让设备排出的热空气排向其它设备的进风口）。随机工具：对于59X/FHA这类高端机型，随机会附带一些R&V时需要用到的平

3、台，滑轨等工具，巡检时应确认随机工具的当前存储状态，以备不时之需。2. 检查系统硬件情况：先从外观上检查硬件情况，检查设备故障灯是否有亮。各种设备上都有故障指示灯，通常为橙色并有标记。高端服务器，如p670/p690/p59x/FHA，应检查UEPO开关上的系统故障指示灯是否亮。同时检查BPC、BPD、BPR、DCA、MDA等电源子系统的Power-on、Power-in、Power-out、Enable Green LED等是否长亮。还要检查部件故障灯，如I/O drawer、PCI卡，硬盘等。检查是否有人改装过IBM设备（如拆掉面板、开口、拆掉过滤网、改变网络连接等）。这些改装可能会影响设

4、备的稳定运行，甚至带来严重后果。对于高端Power5/Power6服务器，还应检查其正面Lightstrip和背面Lightstrip。有安装的部件（如CPU book）所对应的绿色LED应长亮。任何故障指示灯（橙色）都应不亮。同时注意主机的Operator Panel，高端Power5/Power6或其它由HMC管理的机器应检查HMC图形界面的虚拟Operator Panel。设备发生故障时通常伴有出错代码，必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况（如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等）。3. 检查硬件错误报告error

5、 log：无HMC管理的系统可登录到AIX，使用“errpt d H”命令检查硬件错误报告。如有，则应使用“errpt aj err_id |more”命令检查详细的日志。为了准确判断故障，可对硬件设备运行故障诊断程序，如运行 “diag -ed hdisk1”。诊断程序可对故障记录中的SENSE DATA进行分析并给出SRN、SRC、 FRU等。注：如果故障记录太多，应将故障报告取回作进一步分析。可用命令：“snap r; snap gc”用“mail”命令查看有否发给root用户的错误报告。用“alog ot boot”命令和“alog ot console”命令检查系统的启动记录和主控台

6、的出错信息。对于Power5以前的主机，如果客户允许停机，则应shutdown主机，进入服务处理器（Service Processor）菜单检查故障记录。对于Power5、Power6、Power7主机，无须shutdown分区就可以进入ASMI菜单进行检查。有HMC管理的系统，可进入Service Focal Point进行检查。HMC V6 步骤如下：在Service Focal Point目录下点击Manage Events打开Manage Serviceable Events窗口。单击OK，进入Serviceable Events Overview窗口，里面记载了最近的错误日志。单击一

7、条记录，再选择Selected菜单，选择View Details，察看错误详细信息。里面的错误信息应详细记录并保存，不可疏忽。在错误被排除之后应该清除错误信息。选择Selected菜单，选择Close Event，关闭错误详细信息。HMC V7 步骤如下：登录后直接点击屏幕左下角的扳手图标，接下来的步骤就跟HMC V6一样了。确认硬件问题解决后应关闭System Attention Light。无HMC管理的主机：进入AIX diag菜单，选择Task Selection - 选择Identify and Attention Indicators - 选择Set System Attentio

8、n Indicator to Normal。有HMC管理的主机在图形界面下deactivate相关主机的Attention LED.4. 检查机器清洁度检查机器的清洁程度，如面板上会不会有很多灰尘。如果机器比较脏，或金属部件有腐蚀的迹象，则需要提醒客户注意改善机房环境。有需要的话可以请IPR进行专业检测。某些机型有空气过滤网，如7040/9119，长期使用可能需要更换，否则过滤网堵塞会影响散热效果。请根据实际情况决定是否更换。9119的过滤网安装在机柜前门，要确保3块过滤网都安装到位，并且机柜正面上下没有开口，所有冷却气流都应该经过滤网进入。5. 风扇转动情况：从机器相应的散热口检查冷却气流的

9、状态，特别需要注意是否风量小或者无冷却风。如有异常，应收集IQYY并开出对应PMH。6. 逻辑卷/硬盘检查用“lsvg o|lsvg il |grep stale”检查是否有stale状态的逻辑卷。如有stale状态逻辑卷应立即进行同步修复。7. 是否有deconfig硬件资源：Power5以前的主机用“bindprocessor q”命令检查是否有CPU被disable。用“lsattr El sys0”命令检查CPU GUARD是否设置正确。AIX 5.2 以前的版本CPU GUARD默认是disable的。通常系统/分区CPU数目3的就应该enable CPU GUARD（如果操作系统为

10、AIX 5.2或以上则CPU2时就应该enable CPU GUARD）。内存用命令lsattr El mem0查看。有分区的机器有一定内存overhead，具体计算参考pSeries Planning for Partitioned-System Operations SA38-0626-00Power5、Power6、Power7主机登入ASM menu - System Configuration - Hardware Deconfiguration - Processor Deconfiguration 和 Memory Deconfiguration检查是否有被deconfigure

11、d的CPU或内存。同时检查有无其他部件被deconfigured并做相应记录。8. DUMP信息（详细请参考AIX操作系统DUMP设置及收集指南）：系统DUMP设备应该有足够大的空间，可用“sysdumpdev e”命令估计系统DUMP的大小以检验DUMP设备是否足够大。对于内存较大的机器，建议建立专用的DUMP设备（如果系统内存大于4GB，则AIX5L会自动建立专用的DUMP设备：/dev/lg_dumplv）。检查DUMP的拷贝目录（文件系统）是否有足够的空间（如果使用非内存交换区作为Primary DUMP设备，则无此要求）。如果要改变DUMP的拷贝目录（文件系统）则必须保证其建立在RO

12、OTVG上。为确保系统挂机时可以做强制DUMP，请把“always allow dump”设成“TURE”，可在线修改。DUMP压缩功能除了可以节省空间外，还可以大大缩短AIX做DUMP的时间，建议打开(默认是关闭)，命令为sysdumpdev C，可在线修改。9. 网络通信：检查网卡状态、IP地址是否正常。通常不建议使用自适应速率（千兆以太网除外），网卡的设置应与交换机端口的设置匹配。用“ping”命令检查网卡通信是否正常，如是否丢包，速度是否正常等。用“netstat rn”检查路由表是否正常。检查/etc/hosts文件或DNS设置是否正常。10. SSA/SCSI/SAS RAID状态

13、（IBM存储服务器请参考存储设备检查指南）：磁盘阵列通常采用RAID1/RAID5/RAID10等数据保护方式。不建议客户使用RAID0的方式，在RAID0方式下数据没有任何保护。检查磁盘阵列中的RAID盘是否有坏盘，是否有degrade的状况。检查磁盘阵列的cache是否打开。热备盘（hotspare）盘可以提高磁盘阵列的可靠性，强烈建议设置热备盘。以内置SAS RAID为例步骤如下：检查Disk Array 状态：#diag - Task Selection - RAID Array Manager - IBM SAS Disk Array Manager - List IBM SAS D

14、isk Array Configuration检查SAS通道状态：#diag - Task Selection - RAID Array Manager - IBM SAS Disk Array Manager - Diagnostics and Recovery Options - Show SAS Controller Physical Resources 检查cache电池状态：#diag - Task Selection - RAID Array Manager - IBM SAS Disk Array Manager - Diagnostics and Recovery Option

15、s - Controller Rechargeable Battery Maintenance - Display Controller Rechargeable Battery Information11. LIC版本信息查看并且记录系统当前的微码版本以及HMC的版本信息（若是高端机器，还需查看并记录BPA的微码版本）12. RIO连接状况在HMC上查看RIO Topology状态，注意检查环路状态及速率。13. 磁带机是否需要清洗：磁带机/磁带库是重要的数据备份设备，应定期清洗。不同的磁带机/磁带库有不同的清洗间隔，请查阅相关手册。某些磁带机可用/usr/lpp/diagnostics/bin/utape -cd rmt0 -n命令查看磁带机使用时数。14. System readiness check检查（power5及以后机型）Power5及以后机型需要做system readiness check并记录结果。15. 强制ECA信息根据不同阶段发布的ECA列表，检查对应机器是否存在需要进行的强制ECA，应记录对应的

展开阅读全文

IBM_P服务器故障检测.doc

最新文档