容错服务器

上传人:TH****3P 文档编号:214857972 上传时间:2021-11-24 格式:PPT 页数:63 大小:13.02MB
返回 下载 相关 举报
容错服务器_第1页
第1页 / 共63页
容错服务器_第2页
第2页 / 共63页
容错服务器_第3页
第3页 / 共63页
亲,该文档总共63页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《容错服务器》由会员分享,可在线阅读,更多相关《容错服务器(63页珍藏版)》请在金锄头文库上搜索。

1、上海海得控制系统股份有限公司 Shanghai Hi-Tech Control System CO., LTD.,股票代码:002184,Stratus容错服务器(ftServer)及容错技术 (可靠性99.9999+%),目录,一、服务器故障引起的灾难造成的损失 二、容错技术及容错服务器 三、容错(CA)方案及传统双机(HA)集群方案对比 四、案例分享 五、容错服务器优势总结,目录,一、服务器故障引起的灾难造成的损失 二、容错技术及容错服务器 三、容错(CA)方案及传统双机(HA)集群方案对比 四、案例分享 五、容错服务器优势总结,4,4,但此次故障,使苹果在股市上下跌1.82%,市值蒸发了

2、130亿美元,服务器故障引起的灾难,5,据估算,从瘫痪到修复,携程“宕机”近12小时,估计直接损失超过1200万美元,折合人民币7400多万,服务器故障引起的灾难,6,服务器故障引起的灾难,7,2003 美国供电中断是由于HA服务器集群切换方案的失败,区域供电中断13分钟,服务器故障引起的灾难,目录,一、服务器故障引起的灾难造成的损失 二、容错技术及容错服务器 三、容错(CA)方案及传统双机(HA)集群方案对比 四、案例分享 五、容错服务器优势总结,9,谁依靠于Stratus? 6家排名世界前10位的银行 9家排名世界前10位的制药公司 多于150家全世界的公共安全代理商 世界最大的20家通讯

3、服务提供商,容错技术及容错工作原理,美国容错技术有限公司 | Stratus Technologies,1980 - 硬件级容错计算机系统厂商Stratus成立(位于美国波士顿) ,主要投资者有 Intel, Investcorp, MidOcean Partners 1981 - 首先推出基于硬件的容错计算机系统 1986 - 建立世界上第一个提供24小时服务的远程服务网 1990 推出世界上第一个容错的 UNIX 操作系统 - FTX 1991 - 推出 RISC 结构的 XA/R 系列容错计算机系统 1995 - 推出 RISC 结构的 Continuum 系列容错计算机系统 1997

4、- 推出容错的 HP-UX 操作系统 2001 - 推出世界上第一台 WinNT X86 平台硬件容错服务器 ftServer 2005-推出支持 RedHat Linux Enterprise 的X86平台硬件容错服务器,容错技术及容错工作原理,11,合作伙伴,容错技术及容错工作原理,什么是容错-容错服务器涵义?,容错顾名思义就是可以容忍错误,能容忍任一部件出现故障并继续正常工作的服务器即是容错服务器。 更准确地说容错服务器能够预防和避免发生错误,减少和预防非计划停机时间。,容错技术及容错工作原理,容什么错?,按时间划分的故障的分类 1、永久性故障 permanent 永远持续下去直至修复为

5、止 2、间歇性故障 intermittent 短暂的,但却是断续的,既有其偶然性,又有其不定期的重复性 3、偶然性故障 transient 暂时的,且可能是非重复性的 间歇性故障和偶然性故障 占所有现场失效的90%,容错技术及容错工作原理,硬件级容错服务器外观,ftServer Chassis Back View,USB ports (3) Modem and telephone port (on the side) PCI adapter slot 3 (PCIe Gen 2x8) (2) PCI adapter slot 4 (PCIe Gen 2x8) (2) PCI adapter s

6、lot 1 (PCIe Gen 2x4) (2) PCI adapter slot 2 (PCIe Gen 2x4) (2) CPU-I/O enclosure power receptacle (2) Power supply LED (2),1GbE ports (4) 10GbE ports (4) CPU-I/O enclosure blue system identifier LED (2) VTM Ethernet port (2) System backplane Serial (COM) ports (2) VGA (monitor) port,一般服务器,FT,Stratus

7、 Tandem,HA 传统双机,可靠水平指标,CA: Continuous Availability 连续可用 HA: High Availability 高可用 FT: Fault Tolerant 容错,市场规模,可靠性,99.9999%,97%,AL=Availability Level 可靠水平,AL0:单机 (99%)87小时36分钟,AL1:HA (99.5%)43小时48分钟,AL4:CA (99.9999%)5秒钟,AL3:HA (99.99%)53分钟,AL2:HA (99.95%)4小时23分钟,容错技术及容错工作原理,17,保障连续运行的最佳方案连续处理技术,容错技术及容

8、错工作原理,18,Stratus连续处理 技术(一),锁步技术,容错技术及容错工作原理,磁盘,PCI,处理器,内存,芯片组,以太网,Lockstep锁步(时钟同步技术),双模冗余 (DMR) Lockstep 设计,冗余 CPU、 内存、 芯片组、磁盘、 I/O 部件 特定的 Lockstep ASIC 确保计算指令同步运行 磁盘镜像、 HBA 多路径、 NIC 组合,发生故障自动切换,工业标准部件,工业标准部件,19,容错技术及容错工作原理,模块化方式实现,.,6600,容错技术及容错工作原理,21,Stratus连续处理 技术(二),故障安全软件机制,容错技术及容错工作原理,22,故障安全

9、软件机制-预防,诊断,解决软件问题,容错技术及容错工作原理,23,Stratus连续处理 技术(三),主动服务体系,容错技术及容错工作原理,24,ActiveService 体系:自动获得可用性,热插拔部件非常容易更换,系统自动同步更换的部件,系统正常处理贯穿整个更换过程!,系统自动订购正确的更换部件,部件故障. 系统隔离错误并通知 Stratus 有CPU 故障,容错技术及容错工作原理,25,Guest OS 问题分析处理,一站式的技术支持,Count on Stratus & Hite,ESX软件,Linux客户运行系统,根源分析,集成式服务,包括软件,服务器,数据库等的打包服务,容错技术

10、及容错工作原理,CA工作原理演示,Passive Backplane,SSP,SSP,SNP,SNP,I/O,I/O,CPU,CPU,1+1=?,1+1=?,MEM,MEM,2,2,Disk,Disk,所有运算在不同板上同时进行,I/O 板,CPU/MEM 板,容错技术及容错工作原理,当CPU主板出现问题时,Passive Backplane,SSP,SNP,I/O,I/O,CPU,CPU,1+1=?,1+1=?,MEM,X,Disk,Disk,SNP,SSP,2,MEM,2,任何一块CPU板上的任何部件损坏,都不会影响系统的正常运行。正在进行的运算和操作会象没发生问题一样继续下去。,容错技术

11、及容错工作原理,如果I/O板再出现问题呢?,Passive Backplane,SSP,SNP,I/O,I/O,CPU,1+1=?,Disk,Disk,SSP,2,MEM,2,X,任何一块I/O板上的任何部件损坏,也不会影响系统的正常运行。正在进行的运算和操作同样象没发生问题一样继续下去。,I/O 板,CPU/MEM 板,容错技术及容错工作原理,工作原理比较-与双机HA集群比较,I/O,CPU,1+1=?,MEM,2,I/O,CPU,1+1=?,MEM,2,Disk,0100010110100010101010111010111010010110001100011101,X,1+2=3,CPU

12、、内存和等待I/O的所有数据丢失,数据库、应用、文件系统都没有被安全关闭,需要时间等待备机检测到故障发生,需要时间和运气进行磁盘组切换、需要时间和运气进行文件系统检查,需要时间重新启动应用程序,需要重新进行一些运算以回到断点,需要时间和运气重新启动数据库并进行数据库修复工作,最重要的是:切换并不一定总是成功!,系统 A,系统 B,容错技术及容错工作原理,集群和容错方案硬软件工作原理比较,传统HA方案,容错CA方案,故障 出现,故障 恢复,数据丢失,后期会花费大量的力量来找回,HA恢复总时间 = 基本系统恢复时间 + 数据库恢复时间 + 应用程序恢复时间 + 网络恢复时间,容错技术及容错工作原理

13、,ftServer 产品规格,31,注:列表中所有 I/O 配件均以逻辑数量显示。物理数量乃逻辑的X2。,目录,一、服务器故障引起的灾难造成的损失 二、容错技术及容错服务器 三、容错(CA)方案及传统双机(HA)集群方案对比 四、案例分享 五、容错服务器优势总结,33,HA双机热备工作原理及问题,双机热备和集群都是从故障中恢复,当出现问题时心跳线侦测到故障,系统会先中断,发送故障信号给备用主机,备用主机调用存储的信息,尝试恢复系统,之前另一个服务器都是不工作的 所有切换都是通过软件实现的,切换软件的不可靠因素很多,其中一个脚本发生故障的情况下,比如插得U盘有病毒或者网络遭到入侵,那么这个软件就

14、打不开或者发送错误信号,切换就会不成功,所有的应用和服务就会因此中断,重启不了,容错(CA)与(HA)集群方案对比,34,方案设计本质差异,系统结构复杂 环节过多,外部连接 故障发生点多,系统结构简单 如同单机,内部连接 故障发生点少 设计理念:重在预防灾难的发生,容错(CA)与(HA)集群方案对比,容错硬件锁步技术,“集群环境-HA” 与 “容错硬件锁步-FT”,集群环境,集群软件,(应用程序 + 中间件 + 集群软件 + OS + 硬件 +存储+ 配置 + 实施) X 2 = 99.99% 可用性,集成相同的部件在两个可自动修复的单元中+ 一次实施= 99.9999% 可用性,35,容错(

15、CA)与(HA)集群方案对比,Hi-Tech Control,$,$,OS * 2,2 套主机系统,外置共享磁盘阵列 SAN 交换机,应用程序和中间件 * 2,系统维护以及停机损失,应用程序和中间件 x 1,集群软件,简单的单机管理,OS * 1,投入成本比较,容错服务器系统,TCO 比较,一套ftServer,群集 HA,容错(CA)与(HA)集群方案对比,ftServer 美国容错服务器,硬件容错,零 切换时间 操作简单,维护方便 帮助用户节省成本(CTO),最简单的容错计算机解决方案,37,容错(CA)与(HA)集群方案对比,方案实施对比,容错(CA)与(HA)集群方案对比,目录,一、服

16、务器故障引起的灾难造成的损失 二、容错技术及容错服务器 三、容错(CA)方案及传统双机(HA)集群方案对比 四、案例分享 五、容错服务器优势总结,容错ftServer 各行业广泛应用,40,石化行业 石油:炼油厂监控,GIS,厂级电站SCADA,长输管道SCADA,LNG监控系统 化工:含煤化工、油气化工,DCS,SIS,MES,MIS信息化 交通行业 机场:集成信息系统,安检系统,广播系统、离港系统、智能楼宇(如门禁系统). 高速:收费系统,结算系统,隧道监控,ETC营运管理,办公协同,资产管理系统. 港头水运:计算机监控系统,水运调度系统,企业信息化等 市政:城市隧道,高架立交、水处理等 电力行业 火电:主控系统DCS、ECMS/NCS、辅网控制、SIS监控、MIS信息化 输配电:数字化电站SCADA、电网调度、输配电集控、电力企业信息化 矿产行业 煤矿:矿井瓦斯监控,人员定位、综合监控、管控一体化、数字化矿山,集团企业信息化. 非煤矿:计算机监控系统,企业信息化. 水利水电行业 计算机监控系统、微机继电保护系统、视频监控系统、大坝监测系统、水情监测系统、厂级信息化系统 冶金行业

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 工业设计

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号