计算机系统结构第7章.

上传人:我** 文档编号:117871363 上传时间:2019-12-11 格式:PPT 页数:44 大小:408.50KB
返回 下载 相关 举报
计算机系统结构第7章._第1页
第1页 / 共44页
计算机系统结构第7章._第2页
第2页 / 共44页
计算机系统结构第7章._第3页
第3页 / 共44页
计算机系统结构第7章._第4页
第4页 / 共44页
计算机系统结构第7章._第5页
第5页 / 共44页
点击查看更多>>
资源描述

《计算机系统结构第7章.》由会员分享,可在线阅读,更多相关《计算机系统结构第7章.(44页珍藏版)》请在金锄头文库上搜索。

1、第8章 并行处理机 8.1 并行处理机模型 8.2 并行处理机结构 8.3 并行处理机实例 8.4 并行处理机算法举例 Date1计算机系统结构 第八章 并行处理机 两种并行性概念: (1)同时性并行Simultaneity:两个或两个以上 事件在同一时刻发生。 (2)并发性并行Concurrency:两个或两个以上 事件在同一时间间隔内发生。 三条技术途径: (1)资源重复:重复设置多个部件来提高速度 。 (2)时间重叠:流水线 (3)资源共享:分时系统,分布式系统 8.1 并行处理机模型 Date2计算机系统结构 第八章 并行处理机 1. 并行处理机的定义: 多个处理部件PU按照一定方式互

2、连,在 同一个控制部件CU控制下,对各自的数据 完成同一条指令规定的操作。从CU看,指 令是串行执行的,从PU看,数据是并行处 理的。 并行处理机也称为阵列处理机,按照按照佛 林分类法,它属于SIMD处理机。 2. 并行处理机的主要应用领域: 用于高速向量或矩阵运算。 Date3计算机系统结构 第八章 并行处理机 3. 并行处理机的操作模型可用五元组来表示: M(N,C,I,M,R), 其中: N为PE个数。如IlliacIV有64个PE。 C为控制部件CU执行的指令集,包括标量指令 和程序控制指令。 I为所有PE并行执行的指令集,包括ALU、数 据传送等操作 M为屏蔽操作集,将PE划分为允许

3、操作和禁止 操作两个子集 R是数据寻径集,互连网络中PE间通信所需要 的各种模式 Date4计算机系统结构 第八章 并行处理机 4. H.J.Siegel提出的并行处理机模型 Date5计算机系统结构 第八章 并行处理机 8.2 并行处理机结构 8.2.1 并行处理机的基本结构 8.2.2 分布存储器并行处理机 8.2.3 共享存储器并行处理机 8.2.4 并行处理机的特点 Date6计算机系统结构 第八章 并行处理机 8.2.1 并行处理机的基本结构 一台并行处理机由五个部分组成: 多个处理单元PE, 多个存储器模块M, 一个控制器CU, 一个互连网络ICN, 一台输入输出处理机IOP。 并

4、行处理机有两种典型结构: 分布存储器并行处理机, 共享存储器并行处理机。 Date7计算机系统结构 第八章 并行处理机 8.2.2 分布存储器并行处理机 目前的大部分并行处理机属于基于分布式存储器模 型。 分布式存储器并行处理机比较容易构成 MPP(Massively Parallel Processor),可以有几十万 个处理部件PE。 CU是控制部件。对于标量指令,在CU中直接执行; 对于向量指令,CU把它广播到各个PE中去执行。 在CU中通常有一个较大容量的存储器,用来存放程 序和共享数据。 Date8计算机系统结构 第八章 并行处理机 IOP是输入输出处理机,或称为主机。在IOP 上安

5、装操作系统,它除了负担输入输出工作 外,还负责程序的编辑、编译和调试等工作 。 IOP可以是一台通用计算机。 分布式存储器并行处理机必须依靠并行算法来 提高PE的利用率。因此,应用领域有限,可 以认为是一种专用计算机。 数据在局部存储器中的分布是一个很关键的问 题。 标量指令与向量指令可以并发执行。 Date9计算机系统结构 第八章 并行处理机 分布式存储器并行处理机的结构框图 Date10计算机系统结构 第八章 并行处理机 8.2.3 共享存储器并行处理机 共享多体并行存储器SM通过互连网络与各处 理单元PE相连。 存储模块的数目等于或略大于处理单元的数目 。为了实现无冲突访问,存储模块的个

6、数为 质数。 在存储模块之间合理分配数据,通过灵活、高 速的互连网络,使存储器与处理单元之间的 数据传送在大多数向量运算中都能以存储器 的最高频率进行,而最少受存储器冲突的影 响。 Date11计算机系统结构 第八章 并行处理机 共享存储器模型的处理单元数目一般不多, 几个至几十个。 Burroughs Scientific Processor(BSP)采用了这 种结构。16个PE通过一个1617的对准互 连网络访问17个共享存储器模块。 存储器模块数与PE数互质可以实现无冲突并 行访问存储器。 对互连网络的要求很高。 Date12计算机系统结构 第八章 并行处理机 共享存储器并行处理机的结构

7、框图 Date13计算机系统结构 第八章 并行处理机 8.2.4 并行处理机的特点 并行处理机的主要特点如下: 1. 速度快,而且潜力大 2. 模块性好,生产和维护方便 3. 可靠性高,容易实现容错和重构 4. 效率低 与流水线处理机、向量处理机等比较。 依靠的是资源重复,而不是时间重叠,它的 每个处理单元要担负多种处理功能,其效 率要低一些。 Date14计算机系统结构 第八章 并行处理机 5. 潜力大 主要依靠增加PE个数,与流水线处理机主 要依靠缩短时钟周期相比,其提高速度的潜 力要大得多。 6. 依赖于互连网络和并行算法 互连网络决定了PE之间的连接模式,也决 定了并行处理机能够适应的

8、算法。 7. 需要有一台高性能的标量处理机 如果一台机器的向量处理速度极高,但标 量处理速度只是每秒一百万次,那么对于标 量运算占10的题目来说,总的有效速度就 不过是每秒一千万次。 Date15计算机系统结构 第八章 并行处理机 8.3 并行处理机实例 IlliacIV 是最先采用SIMD结构的并行处理机。 随后一个方向是用位片PE制造的并行处理机, 如Goodyear MPP、AMT/DAP610和TMC/CM-2 CM-5是以SIMD模式运行的同步MIMD计算机 另一方向是字宽运算PE的中粒度SIMD计算机 并行处理机的两个发展方向: 保留阵列结构,但每个处理单元的规模减小,如一 个bi

9、t。 去掉阵列结构和分布存储器。Burroughs公司的BSP 是代表。 Date16计算机系统结构 第八章 并行处理机 8.3.1 IlliavIV 并行处理机 1963年,美国西屋电器公司提出“Slotnick,The SOLOMON Computer,Simultaneous Operation linked Ordinal Modular Network”。 1966年美国国防远景研究规划局ARPR与伊利诺依大 学签定合同。原计划:256个PE,运算速度为 1GFLOPS。 Burroughs公司和伊利诺依大学于1972年共同设计和 生产,1975年实际投入运行。用了4倍的经费,只 达

10、到1/20的速度。只实现了8864个PE,只达到 50MFLOPS。 IlliacIV的影响非常大。它是并行处理机的典型代表, 也是分布存储器并行处理机的典型代表。 Date17计算机系统结构 第八章 并行处理机 IlliacIV由三大部分组成 IlliacIV处理机阵列: 包括 88 PE、PEM和互连网络 。 阵列控制器CU。 输入输出处理机:一台标准 的Burroughs B6700计算机 。 Date18计算机系统结构 第八章 并行处理机 1. 阵列控制器 阵列控制器CU实际上是一台小型计算机。 对阵列处理单元实行控制和完成标量操作。 标量操作与各PE的数组操作可以重叠执行。 控制器的

11、功能有以下五个方面: (1)对指令进行译码,并执行标量指令; (2)向各PE发出执行数组操作指令的控制信号; (3)产生并向所有处理单元广播公共的地址; (4)产生并向所有处理单元广播公共的数据; (5)接收和处理PE、I/O操作以及B6700产生的陷阱 中断信号。 Date19计算机系统结构 第八章 并行处理机 2. 输入输出系统 IlliacIV的输入输出系统包括: 磁盘文件系统DFS, I/O分系统, 一台B6700处理机组成。 I/O分系统由三个部分组成: 输入输出开关IOS, 控制描述字控制器CDC, 输入输出缓冲存储器BIOM。 Date20计算机系统结构 第八章 并行处理机 3.

12、 IlliacIV处理阵列 IlliacIV处理阵列由64个PU组成。每个PU由 处理部件PE和它的局部存储器PEM组成。 每一个PUi只和它的东、西、南、北四个近邻: PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64直接连接。 南北方向同一列PU连成一个环, 东西方向构成一个闭合螺线。 闭合螺线网络直径为7步, 环形网格的直径为8步。 Date21计算机系统结构 第八章 并行处理机 Date22计算机系统结构 第八章 并行处理机 例如:从PU0到PU36,采用环行网格必须8步: PU0PU1PU2PU3PU4PU12PU20PU28PU3

13、6 或 PU0PU8PU16PU24PU32PU33PU34PU35PU36 或 如果采用闭合螺旋线,只需要7步: PU0PU63PU62PU61PU60PU52PU44PU36 或 PU0PU63PU55PU47PU39PU38PU37PU36 或 对于nn个单元的阵列,网络直径为n-1。 Date23计算机系统结构 第八章 并行处理机 二维闭合螺旋线网格网 结点度为4,网络直径为n-1。 Date24计算机系统结构 第八章 并行处理机 8.3.2 BSP处理机 BSP(Buroughs Scientific Processor)计算机是由美国 宝来公司和伊利诺依大学于1979年制造的。 B

14、SP是共享存储器并行处理机的典型代表。 BSP由5个部分组成: 控制处理机、 并行处理机、 文件存储器、 并行存储器模块、 对准网络。 Date25计算机系统结构 第八章 并行处理机 1. 并行处理机 17个存储模块,每个模块512K字,周期160ns 5级流水线: (1)从17个存储模块中读出数据 (2)通过输出对准网络把数据送入16个并行 处理部件 (3)16个并行处理部件并行处理机数据 (4)通过输入对准网络把数据从并行处理部 件送到并行存储器 (5)把接收到的数据写入并行存储器 时钟周期160ns,向量运算速度50MFLOPS。 Date26计算机系统结构 第八章 并行处理机 Date

15、27计算机系统结构 第八章 并行处理机 2. 控制处理机 控制处理机主要用来控制并行处理机。 提供与系统管理机相连的接口。 执行存放在控制存储器中的操作系统和用户 程序的标量部分。 把全部的向量指令及成组的标量指令送给并 行处理机。 控制维护单元是系统管理机与控制处理机之 间的接口,用来进行初始化、监控命令通 信和维护。 Date28计算机系统结构 第八章 并行处理机 3. 文件存储器 计算任务文件从系统管理机加载到文件存储 器,由控制处理机执行。 文件存储器是在BSP直接控制下的唯一外围设 备。 程序执行过程中所产生的暂存文件和输出文 件,在将它们送给系统管理机输出给用户之 前是存在文件存储

16、器中的。 文件存储器的数据传输率较高,大大地缓解 了I/O受限问题。 Date29计算机系统结构 第八章 并行处理机 4. 对准网络 对准网络采用全交叉开关实现。 数据从一个源广播至几个目的地,几个源寻 找一个目的地时能分解冲突。 存储器模块和对准网络的组合实现了无冲突 访问并行存储器。 对准网络还可以实现快速傅里叶变换、数据 压缩和扩展操作。 Date30计算机系统结构 第八章 并行处理机 5. 无访问冲突存储系统 只有数组存取和I/O访问并行存储器。等效存 储周期为10ns。 两次算术运算中需要用到三个变量,产生一 个结果,共访问存储器4次,并行存储器和 浮点运算之间的频带保持完全平衡。 对于长向量来,中间

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号