SMART技术检测磁盘故障参数

上传人:豆浆 文档编号:23881969 上传时间:2017-12-03 格式:DOCX 页数:20 大小:39.91KB
返回 下载 相关 举报
SMART技术检测磁盘故障参数_第1页
第1页 / 共20页
SMART技术检测磁盘故障参数_第2页
第2页 / 共20页
SMART技术检测磁盘故障参数_第3页
第3页 / 共20页
SMART技术检测磁盘故障参数_第4页
第4页 / 共20页
SMART技术检测磁盘故障参数_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《SMART技术检测磁盘故障参数》由会员分享,可在线阅读,更多相关《SMART技术检测磁盘故障参数(20页珍藏版)》请在金锄头文库上搜索。

1、SMART 检测参数说明一般情况下,用户只要观察当前值、最差值和临界值的关系,并注意状态提示信息即可大致了解硬盘的健康状况。下面简单介绍各参数的含义,以红色标出的项目是寿命关键项,蓝色为固态硬盘(SSD)特有的项目。在基于闪存的固态硬盘中,存储单元分为两类:SLC(Single Layer Cell,单层单元)和 MLC(Multi-Level Cell,多层单元)。SLC 成本高、容量小、但读写速度快,可靠性高,擦写次数可高达 100000 次,比 MLC 高 10 倍。而 MLC 虽容量大、成本低,但其性能大幅落后于 SLC。为了保证 MLC 的寿命,控制芯片还要有智能磨损平衡技术算法,使

2、每个存储单元的写入次数可以平均分摊,以达到 100 万小时的平均无故障时间。因此固态硬盘有许多 SMART 参数是机械硬盘所没有的,如存储单元的擦写次数、备用块统计等等,这些新增项大都由厂家自定义,有些尚无详细的解释,有些解释也未必准确,此处也只是仅供参考。下面凡未注明厂商的固态硬盘特有的项均为 SandForce 主控芯片特有的,其它厂商各自单独注明。01(001)底层数据读取错误率 Raw Read Error Rate 数据为 0 或任意值,当前值应远大于与临界值。底层数据读取错误率是磁头从磁盘表面读取数据时出现的错误,对某些硬盘来说,大于 0 的数据表明磁盘表面或者读写磁头发生问题,如

3、介质损伤、磁头污染、磁头共振等等。不过对希捷硬盘来说,许多硬盘的这一项会有很大的数据量,这不代表有任何问题,主要是看当前值下降的程度。在固态硬盘中,此项的数据值包含了可校正的错误与不可校正的 RAISE 错误(UECCURAISE)。注:RAISE(Redundant Array of Independent Silicon Elements)意为独立硅元素冗余阵列,是固态硬盘特有的一种冗余恢复技术,保证内部有类似RAID 阵列的数据安全性。02(002)磁盘读写通量性能 Throughput Performance 此参数表示硬盘的读写通量性能,数据值越大越好。当前值如果偏低或趋近临界值,表

4、示硬盘存在严重的问题,但现在的硬盘通常显示数据值为 0 或根本不显示此项,一般在进行了人工脱机 SMART 测试后才会有数据量。03(003)主轴起旋时间 Spin Up Time 主轴起旋时间就是主轴电机从启动至达到额定转速所用的时间,数据值直接显示时间,单位为毫秒或者秒,因此数据值越小越好。不过对于正常硬盘来说,这一项仅仅是一个参考值,硬盘每次的启动时间都不相同,某次启动的稍慢些也不表示就有问题。 硬盘的主轴电机从启动至达到额定转速大致需要 4 秒15 秒左右,过长的启动时间说明电机驱动电路或者轴承机构有问题。旦这一参数的数据值在某些型号的硬盘上总是为 0,这就要看当前值和最差值来判断了。

5、 对于固态硬盘来说,所有的数据都是保存在半导体集成电路中,没有主轴电机,所以这项没有意义,数据固定为 0,当前值固定为 100。04(004)启停计数 Start/Stop Count 这一参数的数据是累计值,表示硬盘主轴电机启动/停止的次数,新硬盘通常只有几次,以后会逐渐增加。系统的某些功能如空闲时关闭硬盘等会使硬盘启动/停止的次数大为增加,在排除定时功能的影响下,过高的启动/停止次数(远大于通电次数 0C)暗示硬盘电机及其驱动电路可能有问题。 这个参数的当前值是依据某种公式计算的结果,例如对希捷某硬盘来说临界值为 20,当前值是通过公式“100(启停计数/1024)”计算得出的。若新硬盘的

6、启停计数为 0,当前值为 100(0/1024)100,随着启停次数的增加,该值不断下降,当启停次数达到 81920 次时,当前值为 100(81920/1024)20,已达到临界值,表示从启停次数来看,该硬盘已达设计寿命,当然这只是个寿命参考值,并不具有确定的指标性。 这一项对于固态硬盘同样没有意义,数据固定为 0,当前值固定为 100。05(005)重映射扇区计数 Reallocated Sectors Count/退役块计数 Retired Block Count 数据应为 0,当前值应远大于临界值。 当硬盘的某扇区持续出现读/写/校验错误时,硬盘固件程序会将这个扇区的物理地址加入缺陷表

7、(G-list),将该地址重新定向到预先保留的备用扇区并将其中的数据一并转移,这就称为重映射。执行重映射操作后的硬盘在Windows 常规检测中是无法发现不良扇区的,因其地址已被指向备用扇区,这等于屏蔽了不良扇区。 这项参数的数据值直接表示已经被重映射扇区的数量,当前值则随着数据值的增加而持续下降。当发现此项的数据值不为零时,要密切注意其发展趋势,若能长期保持稳定,则硬盘还可以正常运行;若数据值不断上升,说明不良扇区不断增加,硬盘已处于不稳定状态,应当考虑更换了。如果当前值接近或已到达临界值(此时的数据值并不一定很大,因为不同硬盘保留的备用扇区数并不相同),表示缺陷表已满或备用扇区已用尽,已经

8、失去了重映射功能,再出现不良扇区就会显现出来并直接导致数据丢失。 这一项不仅是硬盘的寿命关键参数,而且重映射扇区的数量也直接影响硬盘的性能,例如某些硬盘会出现数据量很大,但当前值下降不明显的情况,这种硬盘尽管还可正常运行,但也不宜继续使用。因为备用扇区都是位于磁盘尾部(靠近盘片轴心处),大量的使用备用扇区会使寻道时间增加,硬盘性能明显下降。 这个参数在机械硬盘上是非常敏感的,而对于固态硬盘来说同样具有重要意义。闪存的寿命是正态分布的,例如说 MLC 能写入一万次以上,实际上说的是写入一万次之前不会发生“批量损坏”,但某些单元可能写入几十次就损坏了。换言之,机械硬盘的盘片不会因读写而损坏,出现不

9、良扇区大多与工艺质量相关,而闪存的读写次数则是有限的,因而损坏是正常的。所以固态硬盘在制造时也保留了一定的空间,当某个存储单元出现问题后即把损坏的部分隔离,用好的部分来顶替。这一替换方法和机械硬盘的扇区重映射是一个道理,只不过机械硬盘正常时极少有重映射操作,而对于固态硬盘是经常性的。 在固态硬盘中这一项的数据会随着使用而不断增长,只要增长的速度保持稳定就可以。通常情况下,数据值100(100被替换块/必需块总数),因此也可以估算出硬盘的剩余寿命。 Intel 固态硬盘型号的第十二个字母表示了两种规格,该字母为 1 表示第一代的 50 纳米技术的 SSD,为 2 表示第二代的 34 纳米技术的

10、SSD,如SSDSA2M160G2GN 就表示是 34nm 的 SSD。所以参数的查看也有两种情况: 50nm 的 SSD(一代)要看当前值。这个值初始是 100,当出现替换块的时候这个值并不会立即变化,一直到已替换四个块时这个值变为 1,之后每增加四个块当前值就1。也就是 100 对应 03 个块,1 对应 47 个块,2 对应 811个块 34nm 的 SSD(二代)直接查看数据值,数据值直接表示有多少个被替换的块。06(006)读取通道余量 Read Channel Margin 这一项功能不明,现在的硬盘也不显示这一项。07(007)寻道错误率 Seek Error Rate 数据应为

11、 0,当前值应远大于与临界值。 这一项表示磁头寻道时的错误率,有众多因素可导致寻道错误率上升,如磁头组件的机械系统、伺服电路有局部问题,盘片表面介质不良,硬盘温度过高等等。 通常此项的数据应为 0,但对希捷硬盘来说,即使是新硬盘,这一项也可能有很大的数据量,这不代表有任何问题,还是要看当前值是否下降。08(008)寻道性能 Seek Time Performance 此项表示硬盘寻道操作的平均性能(寻道速度),通常与前一项(寻道错误率)相关联。当前值持续下降标志着磁头组件、寻道电机或伺服电路出现问题,但现在许多硬盘并不显示这一项。09(009)通电时间累计 Power-On Time Coun

12、t (POH) 这个参数的含义一目了然,表示硬盘通电的时间,数据值直接累计了设备通电的时长,新硬盘当然应该接近 0,但不同硬盘的计数单位有所不同,有以小时计数的,也有以分、秒甚至 30 秒为单位的,这由磁盘制造商来定义。 这一参数的临界值通常为 0,当前值随着硬盘通电时间增加会逐渐下降,接近临界值表明硬盘已接近预计的设计寿命,当然这并不表明硬盘将出现故障或立即报废。参考磁盘制造商给出的该型号硬盘的 MTBF(平均无故障时间)值,可以大致估计剩余寿命或故障概率。 对于固态硬盘,要注意“设备优先电源管理功能(device initiated power management,DIPM)”会影响这个

13、统计:如果启用了 DIPM,持续通电计数里就不包括睡眠时间;如果关闭了 DIPM 功能,那么活动、空闲和睡眠三种状态的时间都会被统计在内。0A(010)主轴起旋重试次数 Spin up Retry Count 数据应为 0,当前值应大于临界值。 主轴起旋重试次数的数据值就是主轴电机尝试重新启动的计数,即主轴电机启动后在规定的时间里未能成功达到额定转速而尝试再次启动的次数。数据量的增加表示电机驱动电路或是机械子系统出现问题,整机供电不足也会导致这一问题。0B(011 )磁头校准重试计数 Calibration Retry Count 数据应为 0,当前值应远大于与临界值。 硬盘在温度发生变化时,

14、机械部件(特别是盘片)会因热胀冷缩出现形变,因此需要执行磁头校准操作消除误差,有的硬盘还内置了磁头定时校准功能。这一项记录了需要再次校准(通常因上次校准失败)的次数。 这一项的数据量增加,表示电机驱动电路或是机械子系统出现问题,但有些型号的新硬盘也有一定的数据量,并不表示有问题,还要看当前值和最差值。0C(012)通电周期计数 Power Cycle Count 通电周期计数的数据值表示了硬盘通电/断电的次数,即电源开关次数的累计,新硬盘通常只有几次。 这一项与启停计数(04)是有区别的,一般来说,硬盘通电/断电意味着计算机的开机与关机,所以经历一次开关机数据才会加 1;而启停计数(04)表示

15、硬盘主轴电机的启动/停止(硬盘在运行时可能多次启停,如系统进入休眠或被设置为空闲多少时间而关闭)。所以大多情况下这个通电/断电的次数会小于启停计数(04)的次数。通常,硬盘设计的通电次数都很高,如至少 5000 次,因此这一计数只是寿命参考值,本身不具指标性。0D(013)软件读取错误率 Soft Read Error Rate 软件读取错误率也称为可校正的读取误码率,就是报告给操作系统的未经校正的读取错误。数据值越低越好,过高则可能暗示盘片磁介质有问题。AA(170 )坏块增长计数 Grown Failing Block Count(Micron 镁光)读写失败的块增长的总数。AB(171)

16、编程失败块计数 Program Fail Block Count Flash 编程失败块的数量。AC( 172)擦写失败块计数 Erase Fail Block Count 擦写失败块的数量。AD(173)磨损平衡操作次数(平均擦写次数) / Wear Leveling Count(Micron 镁光) 所有好块的平均擦写次数。 Flash 芯片有写入次数限制,当使用 FAT 文件系统时,需要频繁地更新文件分配表。如果闪存的某些区域读写过于频繁,就会比其它区域磨损的更快,这将明显缩短整个硬盘的寿命(即便其它区域的擦写次数还远小于最大限制)。所以,如果让整个区域具有均匀的写入量,就可明显延长芯片寿命,这称为磨损均衡措施。AE(174)意外失电计数 Unexpected Power Loss Count 硬盘自启用后发生意外断电事件的次数。B1(177 )磨损范围对比值 Wear Range Delta 磨损最重的块与磨损最轻的块的磨损百分比之差。B4(180 )未用的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号