ai简单故障维护手册

上传人:鲁** 文档编号:563713524 上传时间:2023-01-21 格式:DOCX 页数:7 大小:24.56KB
返回 下载 相关 举报
ai简单故障维护手册_第1页
第1页 / 共7页
ai简单故障维护手册_第2页
第2页 / 共7页
ai简单故障维护手册_第3页
第3页 / 共7页
ai简单故障维护手册_第4页
第4页 / 共7页
ai简单故障维护手册_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《ai简单故障维护手册》由会员分享,可在线阅读,更多相关《ai简单故障维护手册(7页珍藏版)》请在金锄头文库上搜索。

1、AIX 简单故障维护手册AIX 简单故障维护手册由于IBM RS6000机器机型多,出现故障的情况有很多种类。为了规范故障维护步骤,简化 维护过程,编写本手册以供参考。由于AIX故障种类多,不能一一列举,这里简单介绍部 分故障判断,定位,解决方法。一 故障的定义.弄清楚系统发生了什么问题 .系统现在能做什么?不能做什么?.故障什么时候发生的? .有没有做平时不同的操作? .故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。检查机器是否存 在故障一般情况下,可以通过以下几种方

2、法来收集错误信息1 查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有 故障的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候, 一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。2 查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。故障记录文 件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。也可以使用 errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIME

3、STAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIO

4、NTIMESTAMP: MMDDHHMMYY (月日时分年)T (类型):P永久;T临时;U未知(永久性的错误应引起重视)C (分类):H硬件;S软件;O用户;U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 - ERROR_ID 用大小写均可 例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID

5、: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: ; 选高级诊断( Advance Diagnostic); 选问题诊断( Problem Determination) 或 选系统检查( System Verification)(选 PD 会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。7. 查看系统

6、重要记录日志 在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系统日志。 这些日志包括系统启动日志,smit日志,HACMP切换日志等等,以下对这些日志进行说明a. 系统启动日志 系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系统装载 后台进程的启动等信息。这些信息在错误日志没有完整的记录,但是通过查看启动日志,可 以得到详细的信息。查看系统启动日志的命令为alog o t bootb. smit.logsmit.log记录了通过smit菜单执行命令的过程和结果信息。通过查看smit.log可以知道在系 统上进行操作的历史信息,查看这些命令执行

7、的结果是否正常,从而判断是否存在隐患或故 障。Smit.log在系统根目录下,通过cat命令就可以查看。c. HACMP.OUTHacmp.out文件记录HACMP发生切换时候的详细过程和结果信息。查看hacmp.out文件可 以知道系统出现什么原因而引起切换,从而判断是否有故障发生。二 判断故障类别1硬件故障通常将硬件故障分为以下几个类别IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和 SRN。Checkpoints检查点是系统加电CMOS初始化程序(initial program load (IPL)运行后显示在I/O 柜的显示

8、面板上一系列信息。IPL 流程当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:.Phase 1: Service Processor 的初始化Phase 1开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个 步骤会显示 8xxx 或 9xxx checkpoints 代码 。. Phase 2: 由 Service Processor 引导的硬件初始化Phase 2开始于按下I/O柜上的白色电源开关。在这个步骤会显示9xxxcheckpoints 91FF是最后的代码标志着第三步骤的开始. Phase 3: 系统固件的初始化在 Phase 3, 一个系

9、统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx 。 E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分). Phase 4: AIX 启动当AIX开始启动时,显示面板上的代码为0xxx,同时位置码会出现在第二行。当AIX的 登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。Error Code 当系统运行有错误发现时,一个8 位码会显示在显示面板上,同时在第二行显 示相对应问题硬件的位置码。SRNs (Service request numbers,服务请求码)当系统运行有错误发现时,SRNs

10、码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。用diag命令进 行检测, diag 步骤如下:#diag; 选高级诊断( Advance Diagnostic); 选问题诊断( Problem Determination) 或 选系统检查( System Verification)(选 PD 会对系统错误记录进行分析)diag运行后会给出SRN代码,故障设备名称及百分比,地址代码等2 操作系统故障系统无法正常操作,命令无法正常执行,或者系统频繁的报系统问题,都有可能是操作系统 故障造成的。软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。1

11、) 文件系统空间不够。查看有没有满的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系 统不能正常工作,尤其是AIX的基本文件系统。如/(根文件系统)满则会导致用户不能登录。 用df k查看。# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不应太满,一般不超过80%。处理方法 1:删除垃圾文件# du -sk * |sort -rn |head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪 些目录是文件系统的mount point,哪些是文件系统的子目录)删除文件,释放空间。有时 删除文件后空间并不马上释放,这是由于你删除的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号