惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书

上传人:ji****72 文档编号:45838995 上传时间:2018-06-19 格式:PDF 页数:29 大小:421.22KB
返回 下载 相关 举报
惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书_第1页
第1页 / 共29页
惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书_第2页
第2页 / 共29页
惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书_第3页
第3页 / 共29页
惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书_第4页
第4页 / 共29页
惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书》由会员分享,可在线阅读,更多相关《惠普服务器技术白皮书惠普 ProLiant 服务器技术白皮书(29页珍藏版)》请在金锄头文库上搜索。

1、惠普服务器技术白皮书惠普服务器技术白皮书 惠普 ProLiant 服务器技术白皮书 随着关键业务应用对系统资源提出了越来越高的要求, 提高系统带宽已经成为一个至关重要的问题。 在分析和评估了现有的系统结构之后, 惠普公司确定了一种新的系统结构, 它具有更好的性能、 较高的处理器、 高效的内存技术和 I/O 扩展性及更高的带宽,能够满足日益复杂的事务处理、数据库、互联网/企业内部互联网和文件/打印应用的要求。 HP 最新的内存保护技术 由于互联网在诸如电信、 金融等对存储要求非常高的行业上的应用越来越广泛, 增大服务器容量已经成为必需满足的要求。未来,互联网的使用将渗透到各个行业,因此提高数据中

2、心(data center)的计算能力成了生产商和服务商都关心的问题。目前,服务器厂商在他们生产的服务器上采用了更快的处理器和更大的内存,这带动了相关技术的不断发展变化。当前有很多企业都通过裁减 IT 部门职员的办法来缩减开支。在此情况下,服务器必须具备更高的容错能力,以减少设备检修所需的时间和花费。 要满足大规模应用的要求,服务器的制造商面临的问题就是在扩展内存的密度、增大内存的容量的同时,保证系统内存的可靠性。惠普也面临同样的问题,解决的办法是利用 3 种容错内存保护技术(fault-tolerant memory protection technologies):在线备份内存、热插拔镜像

3、内存和热插拔 RAID 内存。 以上提到的惠普 AMP 技术是系统可靠性的保证, 用户可以根据自己对内存可靠性的要求自由选择系统配置, 这将为其工作取得成功提供必要的基础。 介绍 目前运行在工业标准服务器上的重要的商用软件所需的内存空间越来越大。 从趋势上看, 新的操作系统可以支持更大的内存,同时服务器内存的容量也在不断扩大。这些年来系统内存的可靠性越来越高,主要原因是有了更好的制作工艺和更新的内存保护技术例如 ECC 它是由惠普首先在工业标准的服务器上采用的一项技术。然而,随着存储元件密度的增加、服务器容量的加大,内存发生错误的几率也跟着增大了。而内存一旦出现错误会导致数据无法使用,甚至系统

4、死机,这会给商业活动带来很大损失。 为了确保内存的可靠性,惠普开发了 3 级 AMP 技术,它能够增加内存的容错能力,能够满足那些对实效性要求很高的应用软件的要求:用户可以根据自己对内存可靠性的要求自由选择系统配置-在线备份内存、热插拔镜像内存和惠普热插拔 RAID 内存(工业标准 DIMM 的冗余阵列)。 在这篇文章中, 首先解释服务器发生内存错误的原因并说明为什么出现内存错误的可能性会增加。 接着详细介绍惠普采用的检查内存错误的方法的原理和局限性。最后,介绍惠普 ProLiant 300, 500 和 700 系列服务器采用的容错 AMP 技术。 内存错误 服务器中使用的内存模块是电子存储

5、设备; 因此很容易出现存储错误 。 计算机中使用的存储设备有两种类型- 静态随机存储器(SRAM) 和动态 RAM (DRAM)。其中 SRAM 做为缓存使用,这是因为它的速度快并且可以在关闭电源前一直保存其中的数据。DRAM 芯片装在 168 脚的 DIMM( dual inline memory modules )上。每一个 DRAM 芯片以电容行或电容列存储数据(即存储单元),这些存储单元必须不停地进行充电或者更新,否则其中的数据会丢失。 一个充电的电容器表示数据 “1“, 一个放电的电容器表示数据“0“ 。充电和放电是由存储设备的电压决定的。 在进行读操作的时候,电容器的电荷水平决定数

6、据是被读出为“1“还是读出为 “0“。例如,在电压为 5 伏的系统中,传感器将电压为+5 伏特的电容器读出为“1“,将电压为 0 伏特的电容器读出为“0“。 只要电压更接近+5 V 而不是 0 V,传感器就可以正确读数。然而,如果电容器中的电荷受到外界的影响发生变化的话,读数就会不准确。当服务器上运行的是重要的商用程序时,此类内存错误将导致运行中断,商业数据的丢失。内存错误根据被影响的比特位数不同分成单比特错误和多比特错误 。 HP 防止出现内存错误的方法 有两条途径可以防止出现内存错误: 测试(testing)和使用错误检查/纠正技术。一直以来,惠普是工业标准服务器内存品质测试方面的专家(惠

7、普为其产品提供质量保证就可以证明这一点),同时它还在工业标准服务器内存的错误检查/纠正技术方面处于领先地位,并在 AMP 技术领域继续保持了这种地位。 先进的测试方法可以提高内存的可靠性 内存芯片速度更快、设计更复杂,这使得对芯片进行测试变得越来越困难,花费也跟着变大了。内存设备的生产商在测试系统上投入了很多的资金,并不断地改进其测试的方法、步骤从而确保设备的质量。惠普通过不断改进内存的设计和制作工艺,将发生硬错误的可能性降到最低。除了在制作上严格把关外,惠普更是对服务器上使用的每一个内存都做了彻底的测试。 而且测试范围不仅包括目前正在惠普服务器上使用的各个生产商生产的各种型号的内存, 还包括

8、每一款惠普新研制出的服务器内存,在惠普服务器采用新的处理器时,惠普也会对原有的内存进行重新评估。只有通过严格的测试才能保证内存可靠性的不断提高。 有了对其产品质量的信心,惠普为它生产的内存提供 3 年的质量保证。有了这个保证,只要是出现问题的惠普 DIMM(其错误值超过了预先设定的错误极限),用户都可以向惠普要求更换。服务器会记录 DIMM 出现的错误,而且惠普的管理软件(Hp Insight Manager)和诊断程序都可以对发生的错误进行确认。 错误检查/纠正技术 惠普通过严格管理内存的加工制作过程和不断地对其内存产品进行测试, 最大程度地降低了由于产品质量而导致内存发生错误的可能性。但由

9、于内存容量的扩大,发生内存错误的几率也在增加。错误检查/纠正技术很重要,没有它,正在运行的重要商业程序会在没有任何告警的情况下出现中断。这虽然是偶然现象但后果却很严重。 尽管采取各种方法避免硬件出现问题,但由于一些和内存不直接相关的错误的存在,内存错误仍然不可避免。唯一可以真正改变这一状况的方法是:使用内存检查/纠正协议。有一些协议只可以检查到错误,另一些却可以在检查到错误的同时把错误改正过来。 ECC 内存 惠普 1993 把带纠错编码技术(ECC)的内存首次应用到工业标准的服务器中,大大降低了内存发生“致命“错误的几率,惠普是第一个这样做的公司。 ECC 内存已经成为所有惠普 ProLia

10、nt 系列服务器的标配。 ECC 技术优于奇偶校验 (parity checking)。奇偶校验只能做到单比特错误的检查,不能对检查到的错误进行纠正,且无法处理多比特错误。但 ECC 技术不仅可以检查到单比特错误,也可以检查到发生的多比特错误并能对单比特错误进行纠正。它的原理如下: ECC 将信息进行 8 比特位的编码,采用这种方式可以恢复 1 比特的错误。每一次数据写入内存的时候,ECC 使用一种特殊的算法对数据进行计算,其结果称为校验位(check bits)。将所有校验位加在一起的和是校验和(checksum ),校验和与数据一起存放。当这些数据从内存中读出时,采用同一算法再次计算校验和

11、,并和前面的计算结果相比较,如果结果相同,说明数据是正确的,反之说明有错误,ECC 可以从逻辑上分离错误并通知系统。当只出现单比特错误的时候,ECC 可以把错误改正过来不影响系统运行 除了能够检查到并改正单比特错误之外,ECC 能检查到(但不改正)单 DRAM 芯片上发生的任意 2 个随机错误,并最多可以检查到 4 比特的错误。当有多比特错误发生的时候,ECC 内存会生成一个不可隐藏(non-maskable interrupt)的中断 (NMI),系统会中止运行以避免出现数据恶化。 ECC 技术为很多应用软件都提供了有效的保护。但如图 2 所示,随着内存容量的增加,ECC 的有效性在降低。(

12、服务器的损耗从 3上升到 48) 有两个因素促使工业标准服务器不断提高其内存的容量: 操作系统可以支持更大的内存; 低价、高容量的内存越来越普遍。 新的 ECC 内存 为了加强对内存数据的保护,惠普于 1996 年引入了新的 ECC 技术(Advanced ECC technology)。目前惠普和其它的服务器制造商的生成线上生产的仍然是带有此类技术的产品。标准的带有 ECC 技术的设备在从 DIMM 中读数据的时候可以同时纠正数据中出现的单比特错误,新的 ECC 技术可以纠正 DRAM 中发生的多比特错误,保证 DRAM 芯片上的数据全部有效。在带有新的的 4-bit (X4) ECC 技术

13、的内存中,每一个芯片“贡献“4 个比特的数据给数据字。从每个芯片中出来的这 4 比特数据被平均分配给 4 个带有 ECC 技术的设备,每个设备一个比特,这样一来,每个芯片上发生的错误可以分解为 4 个独立的单比特错误。 每一个 ECC 设备可以纠正单比特错误,改进后的 ECC 设备可以纠正一个 DRAM 芯片中发生的多比特错误,因此新的 ECC技术为整个设备提供故障保护。 虽然改进后的 ECC 可以保护数据避免出现错误,但是它只能纠正发生在单个 DRAM 芯片中的数据错误,而不支持故障恢复和热插拔能力,对于长时间不间断运行的商用软件而言,要实现其软件功能,就要求系统具备这两种能力。否则,当内存

14、出现了问题的时候,系统只能关机,等待更换新的内存。最新一代的惠普 ProLiant 服务器提供 3 级 AMP 技术,拥有更强的容错能力,能够满足应用软件对高可靠性的要求。 惠普新的内存保护技术 惠普致力于开发内存保护技术,并将这些技术应用到 ProLiant 系列服务器中,以提高系统的容错性,增加系统的可信度。 。 惠普 ProLiant 300, 500, 和 700 系列服务器都具备一项或多项 AMP 技术: 在线备份内存 (Online Spare Memory) , 热插拔镜像内存(Hot Plug Mirrored Memory),和热插拔 RAID 内存(Hot Plug RAI

15、D Memory)。 惠普最新一代 ProLiant 服务器中的高级内存保护技术 惠普 AMP 技术支持工业标准的 256-MB, 512-MB, 1-GB DIMM 和 2-GB DDR DIMM 。 惠普 ProLiant 300 系列服务器采用的内存保护技术 在线备份内存模式 相对标准内存模式而言, 在线备份内存模式可以提供更高级别的内存保护。 它特别适用于没有足够计算机系统维护人员或者手头没有多余的内存可以方便的替换的场所。 惠普 ProLiant ML370 G2 和 DL380 G2 服务器的主板上有 6 个 DIMM 插槽。这些插槽分成 3 个存储区(memory banks)A

16、、B 和 C。 启用在线备份内存模式的方法是使用安装工具将存储区 C 设置成在线备份内存。 存储区 C 必须在系统设置成在线备份模式之前安装好。 存储区 A 和 B 作为系统内存,它们的总容量是 4 GB(如果每个 DIMMS 是 1GB),存储区 B 也可以不必安装。存储区 C 所使用的 DIMM 容量必须大于或者等于其它存储区的容量。例如,如果存储区 A 使用的是 512-MB DIMM,存储区 B 使用的是 1-GB DIMM,那么存储区 C 至少要采用 1-GB DIMM。 惠普 ProLiant 500 系列服务器采用的内存保护技术 在线备份内存模式 相对标准内存模式而言, 在线备份内存模式可以提供更高级别的内存保护。 它特别适用于没有足够计算机系统维护人员或者手头没有多余的内存可以方便的替换的场所。 镜像内存方式 镜像内存方式是容错内存(fault-tolerant memory)的一个选项,它可以提供比在线备份内存更高的可信度。在线备份内存模式只能对发生单比特错误的数据提供保护, 但镜像内存方式还可以用来保护发生多比特错误的数据

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号