MSPE技术类2IDDC与CRAIDv1.3

上传人:工**** 文档编号:579087891 上传时间:2024-08-25 格式:PPT 页数:22 大小:1.42MB
返回 下载 相关 举报
MSPE技术类2IDDC与CRAIDv1.3_第1页
第1页 / 共22页
MSPE技术类2IDDC与CRAIDv1.3_第2页
第2页 / 共22页
MSPE技术类2IDDC与CRAIDv1.3_第3页
第3页 / 共22页
MSPE技术类2IDDC与CRAIDv1.3_第4页
第4页 / 共22页
MSPE技术类2IDDC与CRAIDv1.3_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《MSPE技术类2IDDC与CRAIDv1.3》由会员分享,可在线阅读,更多相关《MSPE技术类2IDDC与CRAIDv1.3(22页珍藏版)》请在金锄头文库上搜索。

1、IDDC磁盘维护与CRAID管理技术典型分析 某用户配置了16块1TB(SATA)磁盘做RAID5,承载其在线关键业务。运行3年后,磁盘开始陆续损坏,发现其重建过程漫长。在其业务未中断的情况下,完成一次重建所需时间长达5天,这种情况还不是最糟的。更糟的是,在某次重建过程中,重建进程完成到60%时,重建过程被异常中止,RAID组失效,整个数据卷损坏,数据丢失。经检查发现,在重建过程中,该 RAID组中的另一块磁盘发生了读错误,导致磁盘故障,被RAID组踢出。 磁盘问题导致存储故障的典型案例! 4000GB大容量硬盘带来的问题容量 100GB 300GB 750GB 1000GB146GB300G

2、B高速磁盘15000PRM250GB 400GB 500GB 750GB1TB低速磁盘7200PRM 500GB 200773GB 450GB 2003 2008 2010 600GB 20052TB 2009类型业务压力重建时间1TBSATA(7200转)无业务压力20小时持续写压力5-6天600GBSAS(15000转)无业务压力4小时持续写压力22小时 2000GB表:硬盘初始化/重建时间测试环境:RAID5,15+1块硬盘 :1TB SATA磁盘在无流量压力下的重建时间!20小时4TB 20123TB 2012 900GB 12%58%30%物理损坏非物理损坏好盘关于硬盘故障的数据统计

3、图:硬盘故障分析定位厂家年故障率08.09-09.0309.04-09.09日立1.84%0.92%0.92%西数1.88%0.89%0.99%迈拓4.52%2.79%1.73%三星4.18%2.25%1.93%希捷5.47%2.89%2.58%表:硬盘故障率统计来源:Google硬盘故障分析,2007.02n据统计,存储系统的硬件故障90%以上是硬盘故障!n故障硬盘中,只有12%是完全的物理损坏,88%属于部分/完全可用图:不同压力下的硬盘故障率来源:法国硬盘网站Hardware.fr来源:历史硬盘故障分析解决硬盘故障问题的方法n硬盘故障率高居不下;n88%的故障硬盘属于部分或完全可用,只有

4、12%是物理损坏问题与挑战容量增大硬盘故障nRAID重建时间更长nRAID重建消耗资源严重,影响性能n数据丢失的风险加大解决之道数据丢失主动检测快速修复减少误判IDDC主动式磁盘诊断中心IDDC:Initiative Disk Diagnosis Center,主动式磁盘诊断中心预防! 主动式磁盘诊断中心,是MacroSAN开发的一套智能存储磁盘维护检测修复工具。对于磁盘故障导致的错误可以提早判断预防。 该诊断中心可以通过预先设置的策略定期对磁盘进行错误检测,用于发现磁盘中是否存在错误码。再根据错误码判断磁盘错误类型,并进行相应的坏块修复、快速复位、或磁盘诊断等操作,以提早处理磁盘潜在故障隐患

5、,降低RAID组重建损坏机率,提高设备稳定性。磁盘检测坏块修复快速复位磁盘休眠磁盘诊断主动式磁盘诊断中心IDDC变被动维护 为主动预防!磁盘检测 对磁盘进行周期性全盘检测,提前发现潜在故障磁盘,交由磁盘诊断中心统一处理。该功能通过以下几个模块实现: 时间周期: 可以预设每一轮磁盘检测的起始时间和周期间隔 磁盘范围: 可根据业务需要设置某一组磁盘进行磁盘检测处理方式处理方式处理过程处理过程 全盘读检测: 对检测盘进行全盘读操作,以发现磁盘中的不正常扇区 逐盘检测: 预设的时间到达时,对满足检测要求的磁盘进行排队,逐个启动磁盘检测 S.M.A.R.T.信息处理: 如果磁盘S.M.A.R.T.检测失

6、败,则将该磁盘直接转到磁盘诊断中心,若S.M.A.R.T.信息未超过危险值,便启动IDDC的全盘检测 进度管理: 以图形化的方式体现检测进度 智能动态调整: 检测速率会根据磁盘IO流量动态调整,保证该磁盘所承载的业务不受影响 触发策略触发策略坏块修复发现磁盘坏块(扇区),磁盘触发自身的remap机制,IDDC根据RAID信息重建数据,实现坏块替换remap数据盘1数据盘2数据盘3RAID5热备盘快速复位结合CRAID的局部重建机制,可快速修复磁盘逻辑错误,降低全盘重建机率。 磁盘诊断所有告警磁盘、故障磁盘会在诊断中心进行复诊并尝试修复,修复后的磁盘自动转为全局热备磁盘。n自动修复磁盘介质错误n

7、修复成功自动设置热备盘n修复失败通知故障更换CRAID-基于Cell的RAID技术优化的同步设置强大的重建功能按LUN同步快速重建快速同步延时同步立即同步局部重建优化重建全盘重建CRAIDCRAID能为我们带来什么?什么是Cell?LUNLUN5RAIDDiskDiskLUNLUNDiskDiskDiskDisklDiskDiskCellRAIDRAID以Cell为核心以Cell为核心组织数据,破除LUN与RAID、Disk之间的捆绑关系,在存储阵列内部形成完全的虚拟化架构RAIDDiSKLUN:数据逻辑载体Disk:数据物理载体LUNRAID:磁盘组织方式Cell:形象称之为“细胞”,指带“

8、活性”的数据单元,存储资源管理的基本单位n以1GB或更小的颗粒度管理数据nLUN、Cell、RAID之间没有绑定关系n空间资源灵活组合,按需获取n按性能需求实时调整CellCRAID核心Cell重建数据盘1数据盘2数据盘3传统RAID5数据盘1CRAID5数据盘2数据盘3热备盘热备盘磁盘重建Cell重建Cell2Cell5RAID组的最小维护单位由磁盘变成了更小更灵活的CellCellCRAID快速重建最高可缩短重建时间至20%区别于传统RAID先踢盘再重建的方式,CRAID的快速重建可只重建错误磁盘上的损坏数据块,未发生错误的区域直接使用拷贝方式将数据块复制到热备盘,重建完成后,再将错误磁盘

9、转移至IDDC磁盘诊断中心处理,该方式可明显降低重建过程对RAID组性能造成的影响。 传统RAID组重建时,最消耗性能和时间的原因是需要调用所有磁盘进行异或校验。快速重建由于将全盘校验改成了按Cell校验+磁盘复制,其校验任务只有传统全盘重建的几百分一或千分之一,校验时间几乎可以忽略不记,而磁盘复制的速度可以达到磁盘读写的最大值。以1TB的SATA磁盘为例,在15块盘的RAID中,全盘重建时间约30小时,而快速重建的时间差最快可以达到6小时。数据盘1数据盘2数据盘3传统RAID5数据盘1CRAID5数据盘2数据盘3热备盘热备盘全盘重建快速重建CRAID局部重建类似于快速重建,但不是重建热备盘,

10、而是只对原盘的变化部分进行重建,使其同步。适用于磁盘未损坏,但发生过闪断或人为误操作,短时间内拔出又插回的情况。该方法可重建5分钟内磁盘不在位过程中所丢失的数据,重建时间短,极大降低RAID组受影响程度。数据盘1CRAID5数据盘3热备盘数据盘2CRAID优化重建仅重建被LUN使用的Cell,未使用的Cell不重建,如下图,仅重建Cell1、2、3、4,Cell5、6不需重建;重建调度时,优先重建存在介质错误的Cell,然后再使用拷贝的方式重建其他Cell,以尽可能的避免该Cell所处的其它磁盘发生故障导致的Cell损坏。支持多重重建,可同时重建多个故障磁盘,如一个RAID组中的两块磁盘所处的

11、不同Cell存在坏块,可以两个Cell并发重建,提高重建总体效率。IDDC+CRAID处理流程示例磁盘被异常拔出5分钟内插回5分钟后插回局部重建全盘重建潜在故障磁盘检查S.M.A.R.T.假象故障磁盘快速复位+局部重建 IDDC磁盘诊断中心与CRAID优化同步重建技术相互联动,形成了一套对于磁盘的自动检测、故障处理,以及RAID快速恢复的智能处理流程,在提高设备易用性和可维护性的同时,更是大大的提高了设备的安全性。OKFAIL全盘检测坏扇区坏块修复坏CellCell重建坏Cell超出阈值快速重建诊断中心修复成功修复失败热备盘通知更换yesno重建方式比较数据盘1数据盘2数据盘3传统RAID5热

12、备盘磁盘重建数据盘1CRAID5数据盘2数据盘3热备盘Cell重建Cell2Cell5Cell1Cell6Cell3磁盘重建多磁盘发生介质错误,RAID5不失效!其它冗余RAID组同理,如RAID1、6、 10优化的同步技术 校验RAID组在初始同步时会计算每个条带的校验值,做过校验的条带会大大提高小数据的随机写的性能。 n按LUN同步 选择按LUN同步,则只需同步图中的Cell1、2、3、4即可完成同步,余下的Cell可在创建其它LUN时再做同步。该方法可大幅缩短同步时间,对于随机读写要求高,又急需使用的环境,该方法较为有效。n全零同步 采用所有数据块写0的方式进行同步,刚好可以符合RAID

13、5异或算法的校验规则,不需要再将条带中的所有成员读出做异或校验计算,相比常规同步方式,可提高同步速度约50%,但需同步完成后才可用。适用于随机写要求较高,又不急需使用的环境。传统存储与IDDC+CRAID比较特点比较重建时间重建性能影响磁盘寿命同步方式RAID维护方式容错性告警盘传统存储长大短单一单一一般不可用IDDC+CRAID短小长灵活灵活强大可修复原理比较重建单位错误处理机制检测机制假象故障处理坏扇区处理人为误插拔传统存储全盘重建先踢盘被动重建全盘重建remap全盘重建(慢)IDDC+CRAIDCell重建先重建主动检查快速复位remap+坏块修复局部重建(快)高效灵活n应用了CRAID技术的RAID5可容忍多块磁盘发生介质错误n存储磁盘损坏率可降低80%nRAID组失效率可降低90%n避免人为误操作IDDC+CRAID总结高可靠性n重建时间仅为传统重建时间的1520%n按LUN同步可快速接入高随机IO写应用n支持多种同步方式THANKS谢谢

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号