计算机系统结构多指令流多数据流

上传人:ji****72 文档编号:50953012 上传时间:2018-08-11 格式:PPT 页数:160 大小:3MB
返回 下载 相关 举报
计算机系统结构多指令流多数据流_第1页
第1页 / 共160页
计算机系统结构多指令流多数据流_第2页
第2页 / 共160页
计算机系统结构多指令流多数据流_第3页
第3页 / 共160页
计算机系统结构多指令流多数据流_第4页
第4页 / 共160页
计算机系统结构多指令流多数据流_第5页
第5页 / 共160页
点击查看更多>>
资源描述

《计算机系统结构多指令流多数据流》由会员分享,可在线阅读,更多相关《计算机系统结构多指令流多数据流(160页珍藏版)》请在金锄头文库上搜索。

1、多指令流多数据流计算机MIMD计算机结构模型l 并行向量处理机PVPVPVPVP交叉开关网络SMSMSMCray C-90、Cray T-90、NEC SX4和我国的银河1号l 对称多处理机系统SMPP/CP/CP/C总线或交叉开关SMSMI/OIBM R50、SGI Power Challenge、DEC Alpha服务器 8400和我国的曙光1号l 对称性,即每个处理器可以等同地访问共享存储器、I/O设备和操作系统服务l 由于对称,才能开拓较高的并行度l 由于共享存储,限制了系统中的处理器不能太多,用于互连的总线或交叉开关也难以扩展l 大规模并行处理机系统MPP定制网络P/CLMNICMB

2、P/CLMNICMBIntel Paragon、IBM SP2、Intel TFLOPS和我国的曙光-1000等l 处理结点采用商品微处理器l 系统中有物理分布的存储器l 采用高通信带宽和低延迟的互连网络l 系统的处理结点可以扩放到成百上千个处理器l 它是一种异步的MIMD机器,程序由多个进程组成,每个进程都有其私有地址空间,进程之间采用消息传递相互作用。l 分布式共享存储系统DSMP/CLMDIRNICMB P/CLMDIRNICMB定制网络Stanford DASH、Cray T3D和SGI Origin 2000l 高速缓存目录DIR用于支持分布式高速缓存的一 致性l DSM的共享存储器

3、是由物理的分布在各处理结点 中的本地存储器LM组成l 通过系统硬件和软件为用户提供一个单地址的编 程空间l 工作站机群P/CMBLDNICMBIOBP/CMBLDNICMBIOB商品网络(以太网、ATM等)l Berkeley NOW、Alpha Farm、Digital TruCluster都属于工作站机群l COW的每个结点都是一个完整的工作站l 各结点通过一种低成本的商品网络互连,例如,以太网、FDDI和ATM开关等l COW的每个结点内都有本地磁盘(LD),而MPP的结点内没有LDl COW的结点的网络接口NIC是松耦合到结点的I/O总线上,而MPP的结点的NIC是紧耦合到结点的存储总

4、线(MB)上l COW的每个结点驻留有一个完整的操作系统,而MPP的每个结点中通常只驻留操作系统的微核MIMD计算机访存模型l 均匀存储访问模型(UMA Uniform Memory Access )系统互连 (总线,交叉开关,多级网络)P1P2PnI/OSM1 SMml 物理存储器被所有处理器均匀共享,所谓均匀共享是指所有处理器访问任何存储器所需的时间均相同l 每个处理器可带有私有高速缓存l 外围设备以一定的形式被共享由于高度共享资源而称为紧耦合系统l 对称多处理机系统 所有处理机都能等同地访问所有I/O设备,能同 样地运行执行程序l非对称多处理机系统 只有一个或一组处理机能执行操作系统并能

5、操纵 I/O,而其他处理器(称从处理器)只能在主处 理器的监控之下执行用户代码,不能直接运行 I/O程序l 非均匀存储访问模型(NUMA)LM1P1LM2P2LMnPn互连网络l 被共享的存储器在物理上分布在所有的处理器中 ,所有本地存储器的集合组成全局地址空间l 处理器访问存储器所需的时间不相等l 每个处理器可带有私有高速缓存,外设也可以以 某种形式共享全局互连网络(GIN)GSMGSMGSMCINPPPCSMCSMCSM群1CINPPPCSMCSMCSM群Nl 全高速缓存存储访问模型(COMA Cache-Only Memory Access)互连网络DCPDCPDCPl 各处理器结点中没

6、有存储层次结构,全部 高速缓存组成全局地址空间l 利用分布的高速缓存目录D对远程高速缓 存进行访问l COMA中的高速缓存容量一般都大于二级 高速缓存容量l 开始使用COMA时,数据可以任意分配到高速缓存C中,在运行过程中,数据将被迁移到使用该数据的处理器结点的高速缓存中l 高速缓存一致性非均匀存储访问模型(CC-NUMA Cache-Coherent NonUniform Memory Access)总线或交叉开关I/OP/CP/CMNIC, DIR, RC结点1 总线或交叉开关I/OP/CP/CMNIC, DIR, RC结点N系统互连网络l 绝大多数商用CC-NUMA多处理机系统都使用基

7、于目录的高速缓存一致性协议来维护Cache的一 致性 l 保留了SMP结构的易于编程的优点,同时也改善 了常规SMP结构的可扩放性问题l 该模型实际上是一个分布共享存储(DSM)多处 理机系统模型 l 该模型最显著的优点是程序员无需明确地在结点 上分配数据。由系统的硬件和软件自动对各结点 分配数据,在程序运行期间,由高速缓存一致性 硬件自动地将数据迁移到要使用它的地方l 非远程存储访问模型(NORMA NO-Remote Memory Access )消息传递互连网络 (网络、环网、超立方、立方环等)MPMPMPPMPM PMP MP MM PM Pl所有存储器都是私有的,仅能由本地存储 器访

8、问 l每个结点都是由处理器P、本地存储器M和 (或)I/O设备组成的自治计算机,多个结 点由基于消息传递的互连网络相连l绝大多数NORMA都不支持远程存储器的访 问对称多处理机系统l 对称多处理机的结构总线或交叉开关P/CP/CP/CSMSMI/Ol SMP结构的特点 对称性l 系统中任何处理器都可以访问共享存储器的任何存储 单元和I/O设备,且具有相同的访存时间 单一物理地址空间l 共享存储器的所有存储单元都按单一地址空间编址只需要一个OS副本驻留在共享存储器中,OS可以按工 作负载情况在多个处理器上调度进程,从而易于达到 动态负载平衡和有效利用系统资源 高速缓存一致性l 多级高速缓存支持数

9、据局部性,而且用硬件自动实现 高速缓存一致性 低通信延迟l 处理器之间的通信采取对共享存储单元使用简单的读/ 写指令来完成 直接支持共享地址空间编程模型,任何处理器可 以用普通的读/写指令来高效地存取单一地址空间 中的共享数据,并且共享数据在本地高速缓存之 间进行自动复制和移动 在大多数SMP机器上实现了消息传递编程模型 ,将共享地址空间的一部分空间指派给每个进程 ,同时显式地给每个进程指定消息缓冲区,通过 在消息缓冲区之间复制数据来实现数据的发送与 接收SMP的扩展存储层次结构l 共享Cache的SMP结构P1Pn互连网络一级高速缓存(交叉编址)主存(交叉编址) 高速缓存和主存系统都可以采用

10、交叉编址的并行 访问方式工作 当多个对称处理器同时存取共享Cache时,对 Cache的带宽要求很高 对Cache存取数据必须通过处理器与Cache之间 的互连网络,从而增大了对Cache的存取时间 可扩放性差,只适用于机器规模很小的情况l 基于总线的共享内存的SMP结构P1Pn高速缓存高速缓存内存I/O设备总线 受共享总线和内存系统的带宽限制,基于总线的 共享内存的SMP结构的可扩放性也不是很好。l 基于互连网络的共享内存的SMP结构(舞厅结构 )P1Pn高速缓存高速缓存内存互连网络内存 采用可扩放的点到点的互连网络 内存被划分为若干逻辑模块,分别连接到互连网 络的不同端点上 所有处理器访问

11、内存的任何模块所需时间相等 由于所有处理器访问内存都要经过互连网络,当 互连网络规模较大时,访问内存的存取时间也增 大l 分布式内存结构P1Pn高速缓存高速缓存内存互连网络内存 所有本地内存组成共享内存 处理器对本地内存的存取时间比对远程内存的存 取时间小得多高速缓存一致性问题l 出现不一致的原因 共享可写数据引起的不一致性P1P2XXX处理机高速缓冲存储器共享存储器更新之前P1P2XXX写通过P1P2XXX写回 进程迁移引起的不一致P1P2XX处理机高速缓冲存储器共享存储器更新之前P1P2XXX写回P1P2XXX处理机高速缓冲存储器共享存储器更新之前P1P2XXX写通过 I/O传输引起的不一

12、致P1P2XXX处理机高速缓冲存储器存储器I/OP1P2XXXX存储器I/O写通过P1P2XXXX存储器I/O写回P1P2XXX处理机高速缓冲存储器存储器I/Ol I/O传输引起不一致的原因 两个处理机共享I/O处理机 I/O传输发生在I/O处理机与内存之间l 解决方法 把I/O处理机连接到私有高速缓存上 使处理器和I/O处理机共享高速缓存侦听高速缓存一致性协议l 侦听一致性协议利用总线的以下特点实现 一致性: 总线上的所有事务对所有的高速缓存控制器都是 可见的 总线上的所有事务以相同的次序被所有的高速缓 存控制器可见l 在侦听一致性协议的实现中,需要保证实 现: 与内存操作有关的所有的必要事

13、务都应出现在总 线上 高速缓存控制器能采取适当的措施来处理有关的 事务l对于高速缓存中的每一个块,除了读/写标 记和数据外,还要附加一个“状态” 采用“写直达”,刚开始时高速缓存中的所有块都 是无效的。当处理器执行读操作时,高速缓存控 制器产生读缺失,向总线发出一个访问内存的总 线事务,该总线事务将从内存中装入该块,并置 该块状态为有效 当处理器执行写操作时,高速缓存控制器产生一 个总线事务去更新内存中的相应块,如果该块在 高速缓存中且处于有效状态,则也更新高速缓存 中的块内容,但不改变该块的状态l 在侦听高速缓存一致性协议中,每个高速 缓存控制器都接收来自两方面的输入: 处理器发出的访存要求

14、 总线侦听器侦听到的总线上的事务l 侦听协议由以下三部分组成: 状态集合l 高速缓存中块的状态的集合 状态转换图l A/B,A表示引发该转换的条件,B表示转换产生的动 作 动作集合l 是总线、高速缓存和处理器与一致性有关的动作集合侦听协议的策略l 写直达策略与写回策略是用于维护本地Cache中的块与相应内存块 拷贝一致性的两种策略 写直达无论对本地Cache是否写命中,都要同时对内存 中的相应块进行改写使内存块与Cache的内容随时保持一致增大了写操作的平均延时 写回策略当处理器执行写操作时,若对本地Cache写命中 ,则无需对内存中的相应块进行改写,直至 Cache的块被替换时,才用该块去更

15、新内存中的 相应块在第一次写命中后至被替换前的这一段时间内, Cache中的块与内存中的相应块的内容不一致更新内存的次数较少,写操作平均时延较小写无效策略与写更新策略用于维护本地Cache中的块与其他Cache中 的块拷贝一致性的两种策略l 写无效策略 当本地Cache中的块被改写后,使其他Cache中 与该块内容相同的块拷贝都无效l 写更新策略 当本地Cache中的块被改写后,通过总线把改写 后的块广播到含有该块的其他Cache来更新相应 的块拷贝写更新策略保持多个高速缓存的一致性比写无效 策略要好,但是,写更新策略在每次对高速缓存 写命中后都需要对其他高速缓存中的相应块进行 更新,需要占用

16、总线较多的带宽。三态写回无效协议l 协议状态集 无效状态(I)在Cache中是无效的,或者该块还没有进入Cache 。在其他Cache中可能有也可能没有该块的有效 拷贝 共享状态(S)该块在Cache中未被修改过,主存中的相应块是 最新的。在其他Cache中可能有也可能没有该块 的有效拷贝 修改过状态(M)表示只有该Cache中有该块的最新拷贝,主存中 的相应块是过时的。在其他Cache中没有该块的 有效拷贝l 处理器请求 处理器读(PrRd) 处理器写(PrWr)l 总线事务 总线读高速缓存控制器把访存地址放到总线上,请求 一个不准备修改的块,这个块由内存或另一个高 速缓存提供 总线互斥读Cache把访存地址放到总线上,请求一个准备修 改的块,这个块由内存或另一个Cache提供。互斥块是指所有其他Cache中的块拷贝都必须被 置为无效状态 总线写回高速缓存控制器把Cache中一个块的内容和写

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号