容错计算机网络系统综合可用性基本理论与分析方法研究

上传人:平*** 文档编号:25271975 上传时间:2017-12-12 格式:PPT 页数:82 大小:9.45MB
返回 下载 相关 举报
容错计算机网络系统综合可用性基本理论与分析方法研究_第1页
第1页 / 共82页
容错计算机网络系统综合可用性基本理论与分析方法研究_第2页
第2页 / 共82页
容错计算机网络系统综合可用性基本理论与分析方法研究_第3页
第3页 / 共82页
容错计算机网络系统综合可用性基本理论与分析方法研究_第4页
第4页 / 共82页
容错计算机网络系统综合可用性基本理论与分析方法研究_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《容错计算机网络系统综合可用性基本理论与分析方法研究》由会员分享,可在线阅读,更多相关《容错计算机网络系统综合可用性基本理论与分析方法研究(82页珍藏版)》请在金锄头文库上搜索。

1、容错计算机网络系统可用性分析方法,计算机网络可用性研究的意义,各种计算机网络的应用越来越广泛;计算机网络发生故障将会造成无可估量的生命和财产损失;为了提高网络的可靠性,产生了容错计算机网络;计算机网络可用性的研究至今还没有形成一个完整的理论体系;如何评价网络的可用性没有统一的定义。,计算机网络的组成及特点,计算机网络可靠性影响因素,网管员差错,网络问题,软件问题,硬件问题,海量存储问题,虽然高性能的海量存储设备的MTBF可以达到106个小时以上,但在系统拥有大量硬盘驱动器时,这仍意味着几乎每个月都需要更换硬盘。一般来说,实际能够达到的MTBF要远低于理论MTBF值。据统计,在理论MTBF时间内

2、,只有大约30%的硬盘可以始终保持正常工作状态, RAM芯片: 个小时 硬盘驱动器: 个小时 10Base-T网卡: 个小时 FDDI、ATM网卡: 个小时 CPU: 个小时,在企业内联网和互联网的发展过程中,应用软件的更新周期越来越短,使得软件在发布之前根本没有足够的时间来测试其可靠性。目前,导致系统失效的新软件问题已不再仅仅局限在应用层上,而且还经常出现于驱动程序差错、安装或备份程序差错以及操作系统差错上,与网络操作直接相关的软、硬件问题(如网卡故障、应用软件的个别组件有问题以及协议和网卡驱动程序有错等),计算机网络的容错技术,网络连接端容错,在图 (a)所示的局域网中,每台主机通过一个网

3、卡与集线器相连,没有采用容错措施。(b)中每台主机通过两块网卡与一个集线器相连。主机上的两块网卡作为一个网卡使用。当一个网卡故障时,系统可以立即启用另一个网卡,对应用程序没有影响。由于两个网卡作为一个网卡使用,因此两块网卡只能连接在同一网段上。(c)中所示的局域网采用两个独立的网络,每台主机分别接在两个网络上。在正常情况下,两个网络同时工作,当一个网络故障时,另一个网络能完成所有的网络功能,因此(c)所示的网络具有较强的容错能力。,服务器系统的容错技术,镜像磁盘存储技术廉价冗余磁盘阵列技术群集技术双服务器系统,工作站容错技术及其它,对于一些重要的应用站点,一是要考虑备用工作站,注意并不是1个站

4、点配1个备用工作站,而是多个站点配1个工作站;二是选用元件可靠性高的机器用作工作站。 其它容错技术主要采用冗余智能网卡、冗余处理器功能模块、ECC(纠错码)内存和ECC保护的主机总线等措施改善其容错性能。,计算机网络软件容错,计算机网络的软件容错技术极为关键的是选择网络操作系统,不同的网络操作系统对整个系统的软硬件容错都有很大的影响。 网络系统中通常包括服务器、工作站、打印机、集线器、交换机、路由器、软件及数据等多种设备和资源,对这些设备和资源进行管理就是网络操作系统的基本任务,随着不停机系统的普及,网络操作系统逐步增加了容错的处理措施及对容错软件的管理。这些措施和软件包括UPS电源监控保护、

5、热修复、写后读校验、磁盘镜像、磁盘双工、双机热备份、群集和事务跟踪等。不同的网络操作系统容错措施及所支持的容错软件不同,如Novell Netware基本上不支持群集技术,而Unix和Windows NT群集技术在支持服务器数量上不同,Unix所支持的服务器数量多,而且技术成熟。另一方面,Unix抵御病毒的能力最强,Novell Netware最弱。 随着网络系统越连越大,特别是不停机系统的逐步增多,应用软件容错要求越来越高。如Xbase系列的Dbase和Foxbase没有考虑事务处理能力,Foxpro开始有所考虑,但还不完善,所以Foxbase在网络系统上运行的效果很差。Foxpro已有所改

6、善,Visual Foxpro在大部分功能上逐步向大型数据库靠拢。 各种应用软件对容错的适应性不同。Sybase和Oracle等大型数据库几乎都不支持自动热备份,但支持共享磁盘的群集来提高系统的容错性;Oracle能比较充分的发挥群集技术的优势,在系统中做到任务均衡,Sybase则做不到任务均衡。,计算机网络可靠性研究现状,网络是一个图,它是否可靠当然在于它是否能够连通,网络拓扑可靠性,节点和链路都存在故障概率,数学家、理论家,网络可靠性研究初期,计算机通信技术刚刚开始,通信媒介质量较差,站点交换设备的性能比较低,网络的管理水平也没有跟上,网络经常处在断路状态,客户更关心计算机网络的站点之间能

7、否通信。因此需要借助图论解决系统可靠性预计。,网络怎么这么慢?电影都看不了,网络拓扑可靠性的局限,随着计算机网络应用的发展,网络的应用环境恶化,拥塞崩溃成为网络应用中的一个突出的故障模式。,网络用户,网络性能评价,网络能不能用当然与性能相关,性能测量,计算机网络科学家,随着现代信息技术的发展,电子产品的可靠性得到了迅速的提高,电子产品的连续无故障工作时间由原来的几百小时延长到30到40年,通信信道的质量也得到了提高,带宽拓宽,信道的传输误码率达到了109数量级。此时计算机网络站点之间能否通信已不再是网络可靠性研究的重点,人们更关心现在的计算机网络完成功能的能力,即用完成性来衡量计算机网络的性能

8、。,网络性能评价的局限性,如何设计一个健壮的网络,?,?,以网络性能(如网络延迟、吞吐量等)为主要研究内容的计算机网络性能评价由于没有考虑网络故障对性能造成的影响而往往高估网络性能。因此,离开以网络故障为主要内容的可靠性指标而单纯的进行网络性能评价和仅仅考虑网络是否连通而不考虑网络的性能指标均不能全面的评价一个网络是否真实可用。综合考虑容错计算机网络存在故障的条件下网络的性能问题,成为容错计算机网络系统综合可用性研究的主要内容。,工程师,关键节点,网络可靠性评价方法比较,从目前的研究情况看来,对计算机网络可用性的定义大体可以分为以下5种:定义1:在人为或自然的破坏作用下,网络在规定的条件下和规

9、定的时间内的生存能力。定义2:在人为或自然的破坏作用下,网络在特定环境下和规定时间内,充分完成规定的通信功能的能力。环境、时间和充分完成功能是这一定义的三要素。定义3:当传输和交换发生故障时网络可以维持正常业务的程度。定义4:网络由源点到终点能够成功地传输所需信息地概率。定义5:在给定时间间隔,设备能在给定条件下执行要求功能地概率。,迫切解决的关键性问题,网络可靠性评价指标混乱基于拓扑连通方法不考虑网络设备故障网络业务性能在网络可靠性分析中考虑不足极少考虑网络协议的影响尚未形成网络综合可用性体系结构,网络可用性评价指标体系,基于网络拓扑连通和基于网络性能的分析方法始终是迥然不同的两条研究途径,

10、尽管各个领域的专家学者均发现计算机网络可靠性研究非常重要,但仁者见仁智者见智的研究结果是造成了计算机网络可靠性研究概念混乱、评价指标繁杂,往往使人感觉到无所适从,因此迫切需要建立计算机网络可用性的统一理论和分析方法体系。,网络设备故障分析,在面向可靠性理论的网络可靠性分析中,通常忽略对网络设备可靠性分析,而简单的将网络设备的可靠度定义为一个常值或认为绝对可靠 在实际的网络可靠性分析中,一方面在使用中现有的可靠性分析方法往往很难预先估计出关键设备的可靠度,另一方面却发现尽管计算机网络设备目前可靠性很高,但网络的关键性设备(如数据交换设备)中软硬件故障共同作用的结果常常不仅影响设备硬件也影响系统软

11、件的正常运行。虽然许多文献对于这种软硬件相关系统的可靠性进行过分析,但是同时考虑软硬件故障相关性的研究并不多。由于容错计算机网络系统中大量使用硬件冗余和软件容错技术,使得对于设备的可靠性分析更加的困难。,网络业务性能对网络可用性影响,网络可靠性分析中通常假定网络的故障主要由网络设备软硬件的失效造成,因而在计算网络的可靠度时将设备失效概率定义为常值。但是实际上,在计算机网络中的数据交换设备(如路由器、交换机等)存在两种主要的故障模式:固有故障和拥塞故障。设备的固有故障主要由设备软硬件本身的失效模式决定,不随网络业务量等因素的影响。设备的拥塞故障产生的主要原因在于:设备的缓冲区有限,而注入到设备中

12、的网络的业务流量超出了设备的处理能力,因而造成了设备的阻塞,使设备处于不可用状态。,局域网可用性分析,结构特殊协议特殊,仅仅分析局域网的结构可靠性和协议的效率均无法反映出局域网的真实可用度。根据可用度的定义,可用度应该是在规定的时间内完成规定任务的能力。局域网的任务是实现信息的传输,因此局域网中除了存在主机软硬件故障外,信道的信息拥塞、传输时延过长也是其关键故障模式,这突出的表现为:当一台主机有数据收发时,在局域网内并不能实现数据的实时传输。对于网络的用户来讲,过大的网络延迟时间往往令人难以忍受,甚至导致传输任务失败。因此,在分析局域网可用性时,应当考虑基于用户的可用度模型。,计算机网络体系结

13、构,广域网,局域网,经济性能、响应速度,网络吞吐量,网络拓扑连通性,MTBF、MTTF,传输的差错率,计算机网络可靠性体系结构,物质基础,结构保证,性能可用,网络设备层,网络设备包括交换设备和传输设备硬件容错分服务器端容错、网络连接端容错;服务器端的容错包括镜像磁盘存储技术、廉价冗余磁盘阵列(RAID)、双服务器及群集技术;连接端设备主要包括网卡、通信电缆、集线器、交换器和路由器等。通常采用的容错办法:一是选择本身具有一些容错功能的设备,二是在设计系统时,采用备用设备。,网络拓扑层,根据网络的路由选择规则,网络总是在可用的路由集中选取一条最短路由作为输出路由 ;源节点s到目的节点d间的路由集,

14、网络业务层,网络的通讯业务性能(网络吞吐量S、数据传输延迟时间D等),这是用户和管理者最关心的问题,也是体现网络可用性能的一个重要因素。计算机网络业务性能不仅与网络的配置(网络的拓扑结构G(V, E)、路由、通信介质容量C)和流入网络的信息流f有关,也与网络设备的可靠性(、)有关。,网络可用性分析模型,N(G, C, f, , S, T) 其中:G = G(V, E)为计算机网络的拓扑结构图;C表示链路的容量集;f表示链路上的稳定数据流量集;表示网络设备的故障率集;表示网络设备的维修率集;S表示源节点的集合;D表示信宿节点的集合。,网络设备层,故障树中描述的容错网络服务器系统的各个部件之间的故

15、障相互独立,因此在故障树中没能反映出系统的软件和硬件故障之间的相互影响。事实上,网络的服务器系统是典型的故障相关性设备,服务器硬件在运行过程中的临时故障如处理器过热或系统盘存储的溢出,将有可能导致软件运行的异常,在极端的情况之下,甚至可能导致死机等故障模式。在这种情况下,对服务器的用户来讲,将是服务器的不可用状态。但是由服务器的故障树中,根本无法反映出这种故障机理,因此,由故障树分析得到的服务器系统的可用度并不准确。,基于Petri网的可靠性建模,定义:一个三元组PN是一个Petri网,当且仅当:(1) (网非空);(2) (二元性);(3) (流关系仅在于和的元素之间)(4) (没有孤立元素);,可修系统模型,注:,故障率: /h维修率: /h,串联系统GSPN可用性模型,注:,/h,/h,/h,/h,/h,/h,并联系统GSPN可用性模型,注:,/h,/h,/h,/h,/h,/h,表决系统GSPN可用性模型,注:,/h,/h,/h,/h,/h,/h,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号