存储故障磁盘超强纠错技术简介

上传人:添*** 文档编号:189761786 上传时间:2021-08-07 格式:DOCX 页数:6 大小:52.19KB
返回 下载 相关 举报
存储故障磁盘超强纠错技术简介_第1页
第1页 / 共6页
存储故障磁盘超强纠错技术简介_第2页
第2页 / 共6页
存储故障磁盘超强纠错技术简介_第3页
第3页 / 共6页
存储故障磁盘超强纠错技术简介_第4页
第4页 / 共6页
存储故障磁盘超强纠错技术简介_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《存储故障磁盘超强纠错技术简介》由会员分享,可在线阅读,更多相关《存储故障磁盘超强纠错技术简介(6页珍藏版)》请在金锄头文库上搜索。

1、1. 概述背景近年来硬盘容量急剧增大,单块硬盘从过去几百G到现在主流的3TB、4TB,再到更高的6TB硬盘,传统的RAID机制碰到了极大的挑战。大容量硬盘再带来高性价比的同时,也使得硬盘数据的安全问题愈加明显,在这其中最突出的就是硬盘故障率过高。经过大量实践考验的10年存储经验积累,我司将硬盘故障导致的故障时间减少80%,市场上磁盘故障率由3%降低到了0.4%,远低于业界水平。这种质的飞跃,得益于我司的故障磁盘超强纠错技术,能够提供多种有效机制对磁盘和阵列进行容错处理,提高RAID可靠性: 磁盘微代码处理 磁盘错误修复/阵列巡检 磁盘SMART检测及预拷贝 磁盘两级坏道替换机制 允许多块磁盘同

2、时发生介质错误 阵列超级块冗余设计2. 容错技术2.1磁盘微代码处理硬盘在读写过程中可能返回错误代码,所有的错误代码都以scsi sense code向RAID层返回,各种不同的错误代码均有其特定的含义,覆盖磁盘坏、磁盘介质错误、链路问题、磁盘abnormal或是磁盘重分配扇区满等等。RAID层将针对不同的错误代码,智能地采取不同的处理策略。2.2磁盘错误修复/阵列巡检该技术主要适用于冗余RAID类型阵列。磁盘读错误修复:当读RAID中磁盘数据的时候,其中一块磁盘出现读介质错误 ,并且读错误的条带为冗余条带。根据RAID的算法特点,可以读出同一条带其他磁盘的数据,进行运算,得到该磁盘正确的数据

3、。将运算获得数据重新写到磁盘上,写成功之后,也意味着修复了该磁盘。阵列巡检:系统周期性对冗余RAID进行数据一致性检测,对存在数据错误的硬盘坏道进行自动修复。该机制的修复条件和修复措施基本同磁盘错误修复。两者不同之处在于:磁盘错误修复是被动检测到磁盘有读错误上报及时进行处理,而阵列巡检则是主动监测阵列坏道状况,预先进行处理。阵列巡检过程需要定义巡检周期。巡检描周期是对所有需要扫描的RAID进行一次坏道巡检的时间间隔。巡检周期设置过短会增加硬盘负荷,影响硬盘性能;周期设置过长则无法及时发现坏道,失去巡检意义。2.3磁盘SMART检测及预拷贝硬盘预拷贝技术是通过硬盘预测技术获取第一手硬盘状态信息。

4、S.M.A.R.T的全称为“Self-Monitoring,Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。经过智能的预拷贝算法对这些运行状态进行判断,以获悉硬盘可能即将失效的概率,提前将风险较大的硬盘数据拷贝到热备盘上。 2.4磁盘两级坏道替换机制该机制也称为磁盘重映射,分为两级:第一级是磁盘本身坏道映射,也可以称为磁盘的故障自修复,是磁盘固有的特性;第二级是独有的坏道替换管理,是在RAID层

5、增加的一种替换机制。RAID层的坏道替换,需要先在磁盘中划分一个保留区,然后在对阵列中的磁盘进行写IO时,如果发生不可修复的介质错误,即磁盘本身修复失败时,则可以根据重映射算法,将IO写到这个坏块重新映射的自保留区域,下次读取这个IO的时候,就直接从这块保留的区域读出。2.5允许多块磁盘同时发生介质错误多磁盘错误容忍机制允许RAID中多块磁盘非同一条带同时发生介质错误。对于冗余阵列,如果多块磁盘发生不可修复的介质读错误,则可以由“错误写修复”机制自动进行恢复;如果多块磁盘发生不可修复的、且坏道替换失败的介质写错误,只要不在同一条带,则RAID仍然是可用的,后续可以通过拷贝重建机制依次加入热备来

6、替换掉所有故障磁盘。如以下图中所示RAID5阵列,虽然每块磁盘上都有一个或多个介质错误,但只要保证同一条带没有两个及以上错误,那么所有条带都是可用的,即该阵列也就是可用的。2.6阵列超级块冗余设计RAID超级块:是RAID阵列在每块磁盘上预留的一块特殊空间,用来存储阵列的配置信息,不能用于业务数据存储,在设备关机或重启或是阵列迁移之后,RAID都可以根据这块信息,都可以重新组建阵列,并恢复到之前的运行状态。 超级块中的某些信息相当重要,一旦丢失就会导致阵列无法运行,所以需要对超级块进行冗余设计。RAID阵列中每块磁盘的超级块都有主区和备区,更新超级块的时候,主区和备区同时更新,默认是以主区超级

7、块信息组成阵列,当主区故障,无法读出数据的时候,或者读出的数据跟其他磁盘不一致,则读备区超级块信息来组成阵列,然后修复其它不一致的超级块数据。 3. 技术优势综上所述,我司的超强RAID纠错容错技术,从多角度预防和降低磁盘故障,以避免因磁盘问题所导致的RAID失效,主要优势有以下方面:1)磁盘微代码的智能处理 可以迅速恢复磁盘状态,提高磁盘的容错能力; 有效的剔除坏盘,保证磁盘链路的稳定性; 为RAID的安全运行提供可靠的物理环境。2)磁盘错误修复/阵列巡检 主动监测与被动检测双管齐下,对错误进行智能修复,提高阵列数据的可靠性; 阵列巡检可以在界面上人为定制,易于管理和维护。3)磁盘SMART

8、检测及预拷贝 缩短和避免硬盘失效后的漫长重构时间; 降低了在重构过程中硬盘再次失效的概率; 有效地提高了存储的安全性,保证系统的业务连续。4)磁盘两级坏道替换机制 两级替换,对坏块重新映射,将硬盘损坏区域粒度降低为块级(甚至为扇区级),降低磁盘的故障失效率,延长磁盘使用寿命。5)多磁盘错误容忍机制 相比于“传统RAID5两块磁盘发生错误,阵列就Failed不可用”来说,该机制将阵列不可用粒度降低为条带级别,大大减小了阵列失效的概率。 这种机制再结合磁盘两级坏道替换机制,如同对阵列加上了多重保险,有效的避免了因磁盘故障导致的业务中断及数据丢失。6)超级块冗余设计 防止阵列无法运行,增强了RAID可靠性。 具有超强的容错及错误修复,进一步提高RAID的高可用性。第6页, 共6页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 存储

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号