磁盘故障错误处理

上传人:添*** 文档编号:189874749 上传时间:2021-08-07 格式:DOC 页数:5 大小:258.54KB
返回 下载 相关 举报
磁盘故障错误处理_第1页
第1页 / 共5页
磁盘故障错误处理_第2页
第2页 / 共5页
磁盘故障错误处理_第3页
第3页 / 共5页
磁盘故障错误处理_第4页
第4页 / 共5页
磁盘故障错误处理_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《磁盘故障错误处理》由会员分享,可在线阅读,更多相关《磁盘故障错误处理(5页珍藏版)》请在金锄头文库上搜索。

1、1 磁盘错误码介绍磁盘错误码定义了设备运行过程中磁盘可能发生的错误。SATA磁盘的常见错误码包括:3/11/0、3/14/1、b/0/0、4/44/0等。其中3/14/1、b/0/0、4/44/0 属于B类错误,先下电30s后上电。SAS磁盘的常见错误码包括:2/4/0。属于A类错误,永久下电。下面表1列举错误码的详细说明 分析 处理方式。(分析部分是参考以前的经验文档,只作参考)表1 错误码分析介绍Sense key错误码详细说明分析处理方式2Not readyIndicates that the HDD is not accessible. Operator intervention ma

2、y be required to correct this condition.没有准备好2/4/0LOGICAL UNIT NOT READY, CAUSE NOT REPORTABLE磁盘本身失效,将该故障硬盘与其它好硬盘一起插入磁盘框,会有较大概率导致好硬盘也无法被识别磁盘坏,不再使用,直接下电3Medium errora flaw in the medium or an error in the recorded data. 介质错误3/11/0UNRECOVERED READ ERROR 读错误无法修复的读错误,通常表示磁盘有坏道通常表示磁盘有坏道,读错误写修复3/14/1RECOR

3、D NOT FOUND磁盘故障,有Disk Abnormal现象,说明磁盘PHY Ready不正常。磁盘分析时无法在南桥发现磁盘。磁盘在写操作受到外界干扰也会报3/14/1错误如:环境因素(静电、灰尘、震动、温度)等下电后上电4Hardware errorHDD had detected a non-recoverable hardware failure.硬件错误4/44/0INTERNAL TARGET FAILURE磁盘坏下电后上电bAborted command一般都是链路问题b/0/0磁盘重分配扇区满。下电后上电2 驱动处理磁盘错误码流程从磁盘本身支持的命令集来看,SATA磁盘属于A

4、TA磁盘,因此SAS 控制器会把SATA磁盘返回的ATA错误码转译为SCSI错误码;SAS磁盘属于SCSI磁盘,磁盘错误码可直接返回给SAS 控制器。所有的磁盘返回的错误码都会以SCSI sense code的形式逐级向上层报告。正常SCSI命令下发流程: 图1 正常SCSI命令下发流程错误磁盘处理走快速通道 图2 错误磁盘盘驱动处理流程步骤说明:1) 对于故障SAS磁盘,磁盘会在SCSI命令的响应位域内填入对应的sense code(例如,2/4/0)然后将命令下发给DEU;对于故障SATA磁盘,磁盘将相应的status和error寄存器相应的值填入Device to Host命令中对应的位

5、域,然后将命令下发给DEU。 2)DEU将命令转发给SAS 控制器; 3)对于来自SAS磁盘的命令响应,SAS 控制器不会对其内部存在sense code做任何处理;对于来自SATA磁盘的命令响应,SAS 控制器会将status和error的值转译成SCSI sense code。 这样,SAS 控制器彻底屏蔽了ATA命令。所有的磁盘返回的错误码都会以SCSI sense code形式逐级向上层报告。 4)DISK已经知道了某块磁盘报告了某种SCSI sense code,即错误码。根据对报告了特定错误码的磁盘下电处理。5)磁盘在SCSI中间层中的状态从RUNNING转为OFFLINE,所以R

6、AID将不再能够访问这块磁盘。3 不同错误码软件处理流程3.1 A类错误 永久下电 主要错误码:2/4/0属于SAS盘的错误码 A类错误处理主要采用永久下电处理方式。流程如图3所示:(这里只列出图2中最后一步disk到lun)图3 A类错误码处理流程3.2 B类错误 上下电主要有3/14/1,4/44/0,b/0/0属于SATA盘的错误码B类错误处理主要采用下电再上电的处理方式恢复磁盘状态,提高磁盘的容错能力。当发到磁盘的读写命令发生B类错误后,DISK主动将磁盘下电,30后再将磁盘上电,从而复位磁盘的状态,磁盘主动下电期间,LUN对外状态保持不变。 流程如图4所示:(这里只列出图2中最后一步

7、disk到lun) 图4 B类错误码处理流程流程说明:LUN中1块磁盘发生B类错误,若不是重复的LBA地址发生同个B类错误,采取下电磁盘,30s后上电磁盘,上下电过程中LUN状态状态保持不变,磁盘missing,RAID group为fault状态,上电后更新RAID group和LUN状态。若30s内部不能上电,到90s时踢掉错误盘,更新RAID group和LUN状态。若是重复的LBA地址发生同个B类错误,记错误个数,走LUN错误处理流程,更新RAIDgroup和LUN状态。 B类错误码对LUN的影响分析如下:(1)对于Normal LUN,且非同个LBA地址重复发生错误,磁盘下电上电。

8、a) 磁盘下电、上电过程中LUN状态不变,RAID group变faultedb) 磁盘上电之后,LUN可能会执行局部重建,LUN变成degrade,重建完成后LUN恢复成normal。c) 磁盘下电上电过程不影响LUN对上层的返回值。(2) 对于Normal LUN,且是同个LBA地址重复发生错误,磁盘不下电,记录错误个数。记录写错误,发生拷贝重建,磁盘failed,LUN变成degrade,RAID group变faulted。(3) 对于Degrade LUN,且非同个LBA地址重复发生错误,磁盘下电上电。a)磁盘下电、上电过程中LUN状态不变即Degrade,RAID group依然是

9、faultedb)磁盘上电之后,LUN恢复重建或降级状态。c)磁盘下电上电过程中,RAID对上层返回Busy。(4) 对于Degrade LUN,且是同个LBA地址重复发生错误,磁盘不下电,记录错误个数。记录写错误,磁盘和lun都变成failed,此时等待系统resume,resume成功后LUN继续重建。(5) 磁盘错误码下电期间,人为插拔或下电另个数据盘,会导致LUN状态变化。不考虑磁盘B类错误导致磁盘missing情况下的LUN状态,根据人为磁盘下电重新分析LUN状态。例如:原先是Normal LUN,一块数据盘B类错误下电后,LUN还是维持Normal状态,这块盘没有上电期间又下电另外块数据盘,此时LUN变降级。(6) 多块磁盘发生B类错误时,等待所有磁盘都上线后,更新LUN和RAID group的状态。第5页, 共5页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 存储

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号