IBM_P服务器故障检测.doc

上传人:人*** 文档编号:557753995 上传时间:2023-01-06 格式:DOC 页数:12 大小:422.01KB
返回 下载 相关 举报
IBM_P服务器故障检测.doc_第1页
第1页 / 共12页
IBM_P服务器故障检测.doc_第2页
第2页 / 共12页
IBM_P服务器故障检测.doc_第3页
第3页 / 共12页
IBM_P服务器故障检测.doc_第4页
第4页 / 共12页
IBM_P服务器故障检测.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《IBM_P服务器故障检测.doc》由会员分享,可在线阅读,更多相关《IBM_P服务器故障检测.doc(12页珍藏版)》请在金锄头文库上搜索。

1、p系列、系统p预防性维护说明p系列、系统p预防性维护说明国际商业机器(中国)有限公司文档编号: 当前版本号:3.1最初发布日期2001年12月13日最新修订日期:2011年9月2日 一、硬件维护部分:1. 检查机房环境:(请参照IBM机房条件及各机型的具体要求)温度:室内温度建议保持在222湿度:相对湿度应保持在505%电源:根据不同机型使用的电源有:200240V 交流单相;380415V 交流三相;-48V5% 直流,实测电压不应超出允许的范围。零线与火线不能反接,通常是面对插座的左边为零线,右边为火线。机器必须有良好的接地保护,地线的接地电阻要求小于1欧姆。因接地电阻测量需要专业仪器,因

2、此以客户提供的测量数值为准,工程师只要确保机柜电源线的地线、机壳(接上电源线后)到建筑物接地端的电阻小于1欧姆就可以了。新版巡检报告中添加了记录事项为是否双电源(此处指的是双动力源供电,比如电力供给来自不同的发电厂,而不是指设备是不是有冗余电源),此外,需要记录如果是双动力源是否部署在了各自独立的PDU或者UPS上。洁净度:机房应保持清洁且有良好的管理与维护。如机房太脏应提醒客户注意。设备散热:设备进风口温度是否够低并有足够的气流。机房内设备的摆放是否符合冷热通道原则(绝对不能让设备排出的热空气排向其它设备的进风口)。随机工具:对于59X/FHA这类高端机型,随机会附带一些R&V时需要用到的平

3、台,滑轨等工具,巡检时应确认随机工具的当前存储状态,以备不时之需。2. 检查系统硬件情况:先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橙色并有标记。高端服务器,如p670/p690/p59x/FHA,应检查UEPO开关上的系统故障指示灯是否亮。同时检查BPC、BPD、BPR、DCA、MDA等电源子系统的Power-on、Power-in、Power-out、Enable Green LED等是否长亮。还要检查部件故障灯,如I/O drawer、PCI卡,硬盘等。检查是否有人改装过IBM设备(如拆掉面板、开口、拆掉过滤网、改变网络连接等)。这些改装可能会影响设

4、备的稳定运行,甚至带来严重后果。对于高端Power5/Power6服务器,还应检查其正面Lightstrip和背面Lightstrip。有安装的部件(如CPU book)所对应的绿色LED应长亮。任何故障指示灯(橙色)都应不亮。同时注意主机的Operator Panel,高端Power5/Power6或其它由HMC管理的机器应检查HMC图形界面的虚拟Operator Panel。设备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。3. 检查硬件错误报告error

5、 log:无HMC管理的系统可登录到AIX,使用“errpt d H”命令检查硬件错误报告。如有,则应使用“errpt aj err_id |more”命令检查详细的日志。为了准确判断故障,可对硬件设备运行故障诊断程序,如运行 “diag -ed hdisk1”。诊断程序可对故障记录中的SENSE DATA进行分析并给出SRN、SRC、 FRU等。注:如果故障记录太多,应将故障报告取回作进一步分析。可用命令:“snap r; snap gc”用“mail”命令查看有否发给root用户的错误报告。用“alog ot boot”命令和“alog ot console”命令检查系统的启动记录和主控台

6、的出错信息。对于Power5以前的主机,如果客户允许停机,则应shutdown主机,进入服务处理器(Service Processor)菜单检查故障记录。对于Power5、Power6、Power7主机,无须shutdown分区就可以进入ASMI菜单进行检查。有HMC管理的系统,可进入Service Focal Point进行检查。HMC V6 步骤如下:在Service Focal Point目录下点击Manage Events打开Manage Serviceable Events窗口。单击OK,进入Serviceable Events Overview窗口,里面记载了最近的错误日志。单击一

7、条记录,再选择Selected菜单,选择View Details,察看错误详细信息。里面的错误信息应详细记录并保存,不可疏忽。在错误被排除之后应该清除错误信息。选择Selected菜单,选择Close Event,关闭错误详细信息。HMC V7 步骤如下:登录后直接点击屏幕左下角的扳手图标,接下来的步骤就跟HMC V6一样了。确认硬件问题解决后应关闭System Attention Light。无HMC管理的主机:进入AIX diag菜单,选择Task Selection - 选择Identify and Attention Indicators - 选择Set System Attentio

8、n Indicator to Normal。有HMC管理的主机在图形界面下deactivate相关主机的Attention LED.4. 检查机器清洁度检查机器的清洁程度,如面板上会不会有很多灰尘。如果机器比较脏,或金属部件有腐蚀的迹象,则需要提醒客户注意改善机房环境。有需要的话可以请IPR进行专业检测。某些机型有空气过滤网,如7040/9119,长期使用可能需要更换,否则过滤网堵塞会影响散热效果。请根据实际情况决定是否更换。9119的过滤网安装在机柜前门,要确保3块过滤网都安装到位,并且机柜正面上下没有开口,所有冷却气流都应该经过滤网进入。5. 风扇转动情况:从机器相应的散热口检查冷却气流的

9、状态,特别需要注意是否风量小或者无冷却风。如有异常,应收集IQYY并开出对应PMH。6. 逻辑卷/硬盘检查用“lsvg o|lsvg il |grep stale”检查是否有stale状态的逻辑卷。如有stale状态逻辑卷应立即进行同步修复。7. 是否有deconfig硬件资源:Power5以前的主机用“bindprocessor q”命令检查是否有CPU被disable。用“lsattr El sys0”命令检查CPU GUARD是否设置正确。AIX 5.2 以前的版本CPU GUARD默认是disable的。通常系统/分区CPU数目3的就应该enable CPU GUARD(如果操作系统为

10、AIX 5.2或以上则CPU2时就应该enable CPU GUARD)。内存用命令lsattr El mem0查看。有分区的机器有一定内存overhead,具体计算参考pSeries Planning for Partitioned-System Operations SA38-0626-00Power5、Power6、Power7主机登入ASM menu - System Configuration - Hardware Deconfiguration - Processor Deconfiguration 和 Memory Deconfiguration检查是否有被deconfigure

11、d的CPU或内存。同时检查有无其他部件被deconfigured并做相应记录。8. DUMP信息(详细请参考AIX操作系统DUMP设置及收集指南):系统DUMP设备应该有足够大的空间,可用“sysdumpdev e”命令估计系统DUMP的大小以检验DUMP设备是否足够大。对于内存较大的机器,建议建立专用的DUMP设备(如果系统内存大于4GB,则AIX5L会自动建立专用的DUMP设备:/dev/lg_dumplv)。检查DUMP的拷贝目录(文件系统)是否有足够的空间(如果使用非内存交换区作为Primary DUMP设备,则无此要求)。如果要改变DUMP的拷贝目录(文件系统)则必须保证其建立在RO

12、OTVG上。为确保系统挂机时可以做强制DUMP,请把“always allow dump”设成“TURE”,可在线修改。DUMP压缩功能除了可以节省空间外,还可以大大缩短AIX做DUMP的时间,建议打开(默认是关闭),命令为sysdumpdev C,可在线修改。9. 网络通信:检查网卡状态、IP地址是否正常。通常不建议使用自适应速率(千兆以太网除外),网卡的设置应与交换机端口的设置匹配。用“ping”命令检查网卡通信是否正常,如是否丢包,速度是否正常等。用“netstat rn”检查路由表是否正常。检查/etc/hosts文件或DNS设置是否正常。10. SSA/SCSI/SAS RAID状态

13、(IBM存储服务器请参考存储设备检查指南):磁盘阵列通常采用RAID1/RAID5/RAID10等数据保护方式。不建议客户使用RAID0的方式,在RAID0方式下数据没有任何保护。检查磁盘阵列中的RAID盘是否有坏盘,是否有degrade的状况。检查磁盘阵列的cache是否打开。热备盘(hotspare)盘可以提高磁盘阵列的可靠性,强烈建议设置热备盘。以内置SAS RAID为例步骤如下:检查Disk Array 状态:#diag - Task Selection - RAID Array Manager - IBM SAS Disk Array Manager - List IBM SAS D

14、isk Array Configuration检查SAS通道状态:#diag - Task Selection - RAID Array Manager - IBM SAS Disk Array Manager - Diagnostics and Recovery Options - Show SAS Controller Physical Resources 检查cache电池状态:#diag - Task Selection - RAID Array Manager - IBM SAS Disk Array Manager - Diagnostics and Recovery Option

15、s - Controller Rechargeable Battery Maintenance - Display Controller Rechargeable Battery Information11. LIC版本信息查看并且记录系统当前的微码版本以及HMC的版本信息(若是高端机器,还需查看并记录BPA的微码版本)12. RIO连接状况在HMC上查看RIO Topology状态,注意检查环路状态及速率。13. 磁带机是否需要清洗:磁带机/磁带库是重要的数据备份设备,应定期清洗。不同的磁带机/磁带库有不同的清洗间隔,请查阅相关手册。某些磁带机可用/usr/lpp/diagnostics/bin/utape -cd rmt0 -n命令查看磁带机使用时数。14. System readiness check检查(power5及以后机型)Power5及以后机型需要做system readiness check并记录结果。15. 强制ECA信息根据不同阶段发布的ECA列表,检查对应机器是否存在需要进行的强制ECA,应记录对应的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号