华为oceanstor企业统一存储可靠性技术白皮书

上传人:第*** 文档编号:61924849 上传时间:2018-12-15 格式:PDF 页数:22 大小:1.41MB
返回 下载 相关 举报
华为oceanstor企业统一存储可靠性技术白皮书_第1页
第1页 / 共22页
华为oceanstor企业统一存储可靠性技术白皮书_第2页
第2页 / 共22页
华为oceanstor企业统一存储可靠性技术白皮书_第3页
第3页 / 共22页
华为oceanstor企业统一存储可靠性技术白皮书_第4页
第4页 / 共22页
华为oceanstor企业统一存储可靠性技术白皮书_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《华为oceanstor企业统一存储可靠性技术白皮书》由会员分享,可在线阅读,更多相关《华为oceanstor企业统一存储可靠性技术白皮书(22页珍藏版)》请在金锄头文库上搜索。

1、 华为华为 OceanStor 企业统一存储企业统一存储 可靠性技术可靠性技术白皮书白皮书 文档版本文档版本 01 发布日期发布日期 2014-3-18 华为技术有限公司华为技术有限公司 华为 OceanStor 企业统一存储可靠性技术白皮书 华为专有和保密信息 版权所有 华为技术有限公司 ii 版权所有版权所有 华为技术有限公司华为技术有限公司 2014。 保留一切权利。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。 商标声明商标声明 和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的

2、所有人拥有。 注意注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务 或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示 的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本 文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为技术有限公司 地址: 深圳市龙岗区坂田华为总部办公楼 邮编:518129 网址: http:/ 客户服务邮箱: 客户服务电话: 4008302118 华为 OceanStor 企业统一存储可靠性技术白皮书 目

3、 录 华为专有和保密信息 版权所有 华为技术有限公司 iii 目目 录录 1 概述概述 5 1.1 华为 OceanStor 企业统一存储产品概述 5 1.2 华为 OceanStor 企业统一存储可靠性概述 1 2 系统可靠系统可靠性设计性设计 2 2.1 架构可靠性设计 . 2 2.2 基本可靠性设计 . 3 2.3 模块级可靠性设计 . 4 2.4 多重硬盘故障容错设计 . 5 2.5 端到端的数据完整性保证设计 . 6 2.6 创新的数据保护设计 . 7 2.7 智能的 QoS 设计 8 2.8 完善的数据备份和容灾方案 . 9 3 精益的制造加工精益的制造加工 11 3.1 单板-整

4、机制造全流程质量保证 11 3.2 硬盘生产质量保证 . 12 3.3 整柜制造及交付 . 13 4 完善的运维流程完善的运维流程 14 4.1 在线维护 . 14 4.2 高效及时的 Cloud Service 服务 15 4.3 维保服务 . 15 5 缩略语表缩略语表/Acronyms and Abbreviations . 16 华为 OceanStor 企业统一存储可靠性技术白皮书 修订记录/Change History 华为专有和保密信息 版权所有 华为技术有限公司 iv 修订记录修订记录/Change History 日期 修订版本 描述 作者 2014.3.18 V1.0 徐明

5、军/00120339 霍杰/60733 华为 OceanStor 企业统一存储可靠性技术白皮书 修订记录/Change History 华为专有和保密信息 版权所有 华为技术有限公司 5 1 概述概述 1.1 华为 OceanStor 企业统一存储产品概述 华为 OceanStor 企业统一存储产品是华为技术有限公司(以下简称华为)根据存储产品 应用现状和存储技术未来发展趋势,推出的一系列统一存储产品,能够满足各类应用 对海量数据存储、高速数据存取、高可用性、高利用率、绿色环保和易于使用等需求。 华为 OceanStor 企业统一存储系统包括中端和高端两大系列产品型号,涵盖型号从最低 端的 S

6、2600T 到最高端的 18800。所有产品型号都是基于统一的 XVE 软件架构,除 S2600T 规格为中低端双控外,S5500T 及以上产品型号均支持多控 scale-out。因此,各 产品型号功能特性基本上是相同的,主要的差异在硬件形态、硬件/软件规格等方面, 规格随着型号的提升而提高。具体各产品型号如图 1 所示。 图 2 华为 OceanStor 系列存储家族 华为 OceanStor 企业统一存储可靠性技术白皮书 1 概述 华为专有和保密信息 版权所有 华为技术有限公司 1 1.2 华为 OceanStor 企业统一存储可靠性概述 存储系统承载了用户的关键业务数据,一旦重要的数据不

7、可访问或者丢失,就会对企 业日常运营产生重大影响。因此,存储系统是否可靠直接决定了数据的可用性。造成 数据不可用的原因有很多:突发的硬件故障、错误的维护操作、供电故障、自然灾害 等诸多内部、外部的原因都可能造成用户业务中断,甚至数据丢失。 一个可靠的系统,需在设计上有高可靠的保证,制造上有精确的控制,使用上有完善 的维护,端到端的保证系统的稳定运行,本白皮书主要从设计、制造、运维三个方面 来介绍华为 OceanStor 企业统一存储的可靠性。 华为 OceanStor 企业统一存储可靠性技术白皮书 2 系统可靠性设计 华为专有和保密信息 版权所有 华为技术有限公司 2 2 系统系统可靠性设计可

8、靠性设计 2.1 架构可靠性设计 OceanStor 企业统一存储系统采取智能矩阵架构设计,控制器之间采用 PCIe 2.0 全光互 联设计,实现控制器间的业务交换。高端最大支持 8 个引擎,每对引擎包含 2 个控制 器,整个系统最大支持 16 个控制器。每个控制器分别与 2 个交换平面通过 4 lane PCIe2.0 进行互连实现数据转发,此外,引擎内的两个控制器之间存在 8 lane PCIe2.0 镜像通道。 图 3 OceanStor 统一存储系统 Smart Matrix 智能交换矩阵 管理、控制平面与业务平面物理分离,其中,管理、控制平面通过 GE 通道承载,业 务平面通过 PC

9、IE 通道承载,管理、控制平面故障,不会影响业务,业务平面拥塞,不 会影响系统管理、控制,每个功能平面可在各自平面内部单独完成故障检测、修复和 隔离,互不影响。 系统中所有组件都进行了冗余设计,无单点故障。硬盘 IO 通道、PCIE 交换通道、GE 交换通道都有冗余路径,因此,系统的管理、控制平面与业务平面在传输通道上都有 冗余保护。存储系统配套了主机多路径软件(UltraPath) ,该软件可以管理主机与阵列 华为 OceanStor 企业统一存储可靠性技术白皮书 2 系统可靠性设计 华为专有和保密信息 版权所有 华为技术有限公司 3 之间的路径,实现应用服务器到存储系统之间的路径选择以及路

10、径管理。当主机与阵 列之间的某一条路径故障时,多路径软件可以将 IO 切换到冗余路径上下发。 图 4 多控内部组网示意图 说明: 图3中的黄色线为冗余的两个GE网络,绿色为PCIe网络,蓝色为后端盘框级联 线; SVP为高端自带的管理服务器,中低端没有配置,中低端的管理网络连接的是客 户的管理客户端; S5500T由于单个控制器仅有一个网口,4控GE网络需要通过交换机互联。 2.2 基本可靠性设计 存储系统面临的外部环境复杂多变,空气污染、突发的空调故障,甚至地震等异常的 环境变化都可能导致存储系统工作异常,因此,华为存储加强了基本可靠性设计,提 高抵抗异常环境的能力。 1、 领先的结构抗振设

11、计 硬盘单元的振动隔离:托架内侧增加粘弹性材料吸收硬盘自身旋转振动能量;紧 固螺钉处的粘弹性垫圈有效隔离外界线性振动能量。 风扇振动的多级隔离:热塑粘弹性材料风扇安装钉,覆盖硬盘敏感振动频率;风 扇、支架与机箱之间的垂直、水平多级减振,降低 40%以上来自于风扇的振动。 高强度机箱及硬盘滑道设计:机箱硬盘部位的双层式结构,强度增强 20%以上, 有效保证各硬盘槽位尺寸一致性;压铸锌基合金的滑道材料,良好的耐冲击性降 低机箱向硬盘振动的传递放大作用。 设备运行环境状况实时监测:集成于背板上的振动传感器实时监控系统环境的振 动、冲击状况。 华为 OceanStor 企业统一存储可靠性技术白皮书 2

12、 系统可靠性设计 华为专有和保密信息 版权所有 华为技术有限公司 4 业界唯一通过抗 9 级烈度地震认证。 2、 双重防腐蚀专利设计 联合硬盘厂商开发出硬盘防腐蚀工艺:ENIG/SPV(化镍浸金/锡封) ,有效提升 了硬盘在污染环境中的寿命和可靠性。 通过防腐蚀工艺结合温升、电压分布设计进行局部防护,有效提升了控制器在污 染环境中的寿命和可靠性。 通过在线腐蚀监控设备(华为发明专利:中国 201210519754.9)提前预警数据中 心腐蚀风险,并可通过专业测试设备快速(72hr)量化数据中心腐蚀等级。 通过机框加装防腐蚀过滤器(华为发明专利:中国 201110314472.0)解决机框级 腐

13、蚀问题;通过化学过滤方案设计解决机房级腐蚀问题。 3、 热设计 系统内设计了多个温度监控点,对系统内温度进行实时监控,当检测到温度异常, 则通过智能风扇调速来调节温度,使系统一直工作在适宜的温度下。 如果温度检测持续异常,无法保证系统正常工作和数据可靠性,则会采取停止提 供服务或者系统下电等保护措施,避免温度异常造成系统故障。 2.3 模块级可靠性设计 良好的模块级可靠性是系统高可靠的基础,华为 OceanStor 企业统一存储在 FRU 模块 级别进行了完善的可靠性设计,保证各模块健康运行,减小故障影响。 1、 优选器件及降额设计 华为存储系统中选用的每个器件都是华为认证的优选器件,并通过对

14、器件的电压、 电流等进行降额设计,使器件始终工作在合理的工作负荷下。 2、 故障自愈 当系统发生局部异常时,支持对芯片、部件等通过复位等措施,实现故障自愈, 避免局部故障扩散导致系统异常。 3、 供电异常保护 各部件实时监控供电的异常,并采取了过压、过流等保护措施,保证不会因为供 电的异常导致硬件故障。 4、 支持上电自检 提供单板上电自检功能,如果自检出现问题,则根据故障情况,部分或者全部隔 离故障部件,并进行告警,避免系统带病运行。 5、 部件支持热插拔 所有的部件(包括接口卡)都支持热插拔操作,可以不中断业务完成对部件的更 换、扩容等操作。尤其是接口卡支持现场热插拔,而无需中断控制器业务

15、或者复 位控制器。 6、 内存支持高级 ECC 保护功能 支持内存 ECC,可以发现并纠正内存数据访问过程中的单比特错误,并且支持内 存颗粒级的错误检测和纠正,并在后台实时扫描内存错误,发现错误立即纠正,避 免内存错误的累积导致不可纠正错误的发生。 说明: 华为 OceanStor 企业统一存储可靠性技术白皮书 2 系统可靠性设计 华为专有和保密信息 版权所有 华为技术有限公司 5 S5600T及其以上规格产品支持内存颗粒级的错误检测和纠正及后台内存错误扫描, S2200T、S2600T和S5500T不支持。 2.4 多重硬盘故障容错设计 硬盘只有两种状态:故障和即将故障。 存储系统中的硬盘数

16、量庞大,承载了用户的所有关键数据。因此,如何及时发现和有 效处理硬盘故障,将硬盘故障影响最小化,是存储系统面临的可靠性挑战之一。华为 OceanStor 企业统一存储为了提升硬盘的容错能力,设计了硬盘故障管理系统,采取了 主动预防、局部隔离、快速恢复等一系列容错设计来应对这一挑战。 1、 主动预防 DHA(Disk Health Analyzer)硬盘故障诊断与预警:硬盘作为存储系统中一个 重要的机械部件,经过长时间的不间断工作运行后会出现部件老化,故障率会 随着时间呈上升趋势。硬盘健康度分析子系统通过建立硬盘故障模型,对硬盘 关键指标进行监控,利用先进的算法,评估硬盘的健康度,准确预测硬盘故障, 防患于未然。 坏道后台扫描:坏道是硬盘最常见的故障模式。但是当硬盘出现坏道时,不会 自动将坏扇区信息告知主机进行修复,只有在读写的时候才能发现坏道。华为 OceanStor 企业统一存储的硬盘坏道后台扫描可以在不影响业务和硬

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号