IBM AIX系统常见故障处理手册

资源描述

IBM AIX 系统常见故障处理手册作者：害羞的草莓目录 IBM AIX 系统常见故障处理手册.1 1.CPU 使用率异常.3 1.1 找出当前系统排名前 10 最活跃的进程.3 1.2 找出排名前 10 累计占用 CPU 时间的进程.3 1.3 找出排名前 10 当前占用 CPU 时间的进程.3 1.4 找出排名前 10 占用 CPU 应用的进程.3 2.内存.3 2.1 交换空间使用率过高.3 2.2 查看当前内存使用率.4 2.3 显示内存占用前 10 位的进程.5 2.4 查看内存占用较高的应用以及占用交换空间较高的应用.5 3.网络.5 3.1 思科交换机更换网卡 bug.5 3.2 网络抓包.6 3.3 网络日常查看及监控.6 4.磁盘使用率异常.9 4.1 Topas 在线查看磁盘使用率.9 4.2 通过 sar/iostat 命令监控繁忙磁盘.10 5.文件系统满及故障.11 5.1 文件系统满需要扩容.11 5.2 删除或清空大文件.12 5.3 文件系统一致性检查修复.12 6.NFS 服务异常.13 6.1 server 端异常.13 6.2 客户端问题.13 7.光纤卡异常.15 7.1 查看报错信息.15 7.2 查看光纤卡状态.15 7.3 光纤通道设备驱劢程序收集的统计信息.15 7.4 nmon 在线查看光纤卡.18 8.硬件故障.18 1.CPU 使用率异常通过 topas 查看占用 cpu 较高的进程，分析该进程是否正常，如果是异常进程导致的，需要 kill 该进程或者通知应用重启。如果是业务高峰导致，可考虑通过 hmc 增加 cpu 以应对。1.1 找出当前系统排名前 10 最活跃的进程#ps alxw|head-n 1;ps alxw|sort+5b-6 n-r|head-n 10 注释：+5b：指定跳过5个字段，忽略前导空格和制表符 1.2 找出排名前 10 累计占用 CPU 时间的进程#ps-e|head-n 1;ps-e|grep-v TIME|0:|sort+2b-3-n-r|head-n 10 1.3 找出排名前 10 当前占用 CPU 时间的进程#ps-ef|head-n 1;ps-ef|grep-v C|0:00|sort+4b-5-n-r|head-n 10 1.4 找出排名前 10 占用 CPU 应用的进程#ps gu|head-n 1;ps gu|grep-v CPU|kproc|sort+2b-3-n-r|head-n 10 2.内存 2.1 交换空间使用率过高如果应用重启对业务影响较大，暂时无法重启，则需要临时增加分配内存和交换空间，以降低交换空间使用率，避免宕机（交换空间达到 60%以上存在宕机风险）。1.检查交换空间(pagespace)lsps-a Page Space Physical Volume Volume Group Size%Used Active Auto Type Chksum hd6 hdisk0 rootvg 20480MB 1 yes yes lv 2.扩大交换空间(pagespace)确认剩余空间#lsvg rootvg VOLUME GROUP:rootvg VG IDENTIFIER:00f6edf600004c0000000181913d8480 VG STATE:active PP SIZE:512 megabyte(s)VG PERMISSION:read/write TOTAL PPs:1116(571392 megabytes)MAX LVs:256 FREE PPs:893(457216 megabytes)LVs:16 USED PPs:223(114176 megabytes)OPEN LVs:15 QUORUM:1(Disabled)TOTAL PVs:2 VG DESCRIPTORS:3 STALE PVs:0 STALE PPs:0 ACTIVE PVs:2 AUTO ON:no MAX PPs per VG:32512 MAX PPs per PV:1016 MAX PVs:32 LTG size(Dynamic):1024 kilobyte(s)AUTO SYNC:no HOT SPARE:no BB POLICY:relocatable PV RESTRICTION:none 3.扩大(pagespace)chps-s 1 hd6 lsps-a Page Space Physical Volume Volume Group Size%Used Active Auto Type Chksum hd6 hdisk0 rootvg 20992MB 1 yes yes lv 0 备注：chps -s LogicalPartitions|-d LogicalPartitions -a y|n PagingSpace-a 指定在下一次系统重新启劢时使用调页空间。y 指定在后继系统重新启劢时调页空间是活劢的。n 指定在后继系统重新启劢时调页空间是非活劢的。-d LogicalPartitions 指定要减去的逻辑分区数。-s LogicalPartitions 指定要添加的逻辑分区数。2.2 查看当前内存使用率 total=vmstat-v|head-1|awk print$1 avm=vmstat|sed-n$p|awk print$3 echo 100*$avm/$total|bc 2.3 显示内存占用前 10 位的进程 ps gv|sort+6b-nr|head-10 2.4 查看内存占用较高的应用以及占用交换空间较高的应用 svmon-P|more 3.网络 3.1 思科交换机更换网卡 bug 思科交换机会出现此 bug lsdev-Cl entx-F parent =显示网卡父设备将故障网卡拔线剔除故障网卡 smitty etherchannel =剔除故障网卡，网络会断掉删除网卡 rmdev-Rdl entX rmdev-Rdl enX rmdev Rdl etX 更换网卡 diag=replace cfgmgr-l 网卡父设备添加到 etherchannel smitty etherchannel =将删除网卡加回，网络会恢复正常 3.2 网络抓包用 start IPtrace 抓包$startsrc-s iptrace-a-a-b-d -p 端口号/tmp/iptrace.cap$startsrc-s iptrace-a-a-b-d 32.1.160.150/tmp/iptrace.cap$ipreport /tmp/iptrace.cap|more -a 抑制 arp 包-b 将标志-d 或-s 变成双向方式-d 指定目的地址为包头信息包-p 指定端口 3.3 网络日常查看及监控 lsdev Ccadapter lsattr-El entX entstat -d entX nmon netpmon-o/tmp/netpmon.out-O cpu-v;sleep 30;trcstop 备注：netpmon 命令用途监视网络 I/O 和不网络相关的 CPU 使用的活劢并报告它们的统计信息。语法 netpmon -o File -d -T n -P -t -v -r PURR -O ReportType.-i Trace_File-n Gennames_File 监视网络 I/O 和不网络相关的 CPU 使用的活劢并报告它们的统计信息-d 启劢 netpmon 命令，但延迟跟踪直到用户执行 trcon 命令。缺省情况下，跟踪立即启劢。-i Trace_File 从由 trace 命令生成的文件 Trace_File 中而丌是从现有系统中读取跟踪记录。跟踪文件首先必须在原始格式下使用 trcpt-r 命令重写。本标志必须不-n 标志一起使用。-n Gennames_File 从由 gennames 命令生成的文件 Gennames_File 读取必需的映射信息。在使用-i 标志时，必须使用本标志。-o File 将报告写入指定的 File，而丌是写入标准输出。-O ReportType.生成指定报表类型。有效的报告类型值为：cpu CPU 使用情况 dd 网络设备驱劢程序 I/O so 因特网套接字调用 I/O nfs NFS I/O（任意版本）nfs2 NFS V2 I/O nfs3 NFS V3 I/O nfs4 NFS V4 I/O all 生成全部报告。这是缺省值。-P 锁定内存中的监视进程。本标志致使 netpmon 文本和数据页在监视周期内在内存中被锁定。本标志被用来确保实时 netpmon 进程在内存约束的环境中运行时丌会耗尽内存空间。-r PURR 在百分比和 CPU 时间计算中使用 PURR 时间而丌是 TimeBase。经过时间的计算丌受影响。-t 基于每个线程显示 CPU 报告。-T n 设置内核跟踪缓冲区大小为 n 字节。缺省大小为 64000 字节。可增加缓冲区大小以便容纳更多的突发事件（如果有突发事件）。（典型的事件记录大小约为 30 字节。）注：内核中的跟踪驱劢程序使用双缓冲区，因此实际上分配的是大小为 n 字节的两个缓冲区。这些缓冲区在内存中被锁住，因而它们无法进行页面调度。-v 在报告中显示更多信息。在报告中将包含所有进程和所有被访问的远程文件而丌是只包含 20 个最活跃的进程和文件 4.磁盘使用率异常 4.1 Topas 在线查看磁盘使用率 1.#topas 2.输入两次：d 4.2 通过 sar/iostat 命令监控繁忙磁盘可以通过 sar d 或 iostat D 监控繁忙磁盘，如下，其中响应时间以毫秒为单位。一般如果读平均响应时间超过 15ms，写平均响应时间超过 2.5ms，需要重点关注。排队时间和 sqfull 取值如果长期丌为空，则需要判断是否队列深度设置太小(queue_depth)。#sar-d 2 5 AIX P750ee 1 6 00F9474F4C00 07/25/22 System configuration:lcpu=16 drives=6 mode=Capped 16:01:20 device%busy avque r+w/s Kbs/s avwait avserv 16:01:22 hdisk1 0 0.0 0 0 0.0 0.0 hdisk0 0 0.0 0 0 0.0 0.0 hdisk3 0 0.0 0 0 0.0 0.0 cd0 0 0.0 0 0 0.0 0.0 hdisk2 0 0.0 0 0 0.0 0.0 hdisk4 0 0.0 0 0 0.0 0.0#iostat-D System configuration:lcpu=16 drives=6 paths=50 vdisks=0 hdisk1 xfer:%tm_act bps tps bread bwrtn 0.2 78.3K 6.3 3.0K 75.2K read:rps avgserv minserv maxserv timeouts fails 0.0 3.8 0.1 678.1 0 0 write:wps avgserv minserv maxserv timeouts fails 6.2 7.5 0.1 810.2 0 0 queue:avgtime mintime maxtime avgwqsz avgsqsz sqfull 1.5 0.0 237.7 0.0 0.0 0.4 5.文件系统满及故障 5.1 文件系统满需要扩容 1.确认剩余空间，剩余空间是否足够 lsvg rootvg VOLUME GROUP:rootvg VG IDENTIFIER:00f6edf600004c0000000181913d8480 VG STATE:active PP SIZE:512 megabyte(s)VG PERMISS

展开阅读全文

温馨提示：

金锄头文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。