计算机系统结构 第6章 向量处理机

上传人:kms****20 文档编号:51406731 上传时间:2018-08-14 格式:PPT 页数:71 大小:454.50KB
返回 下载 相关 举报
计算机系统结构 第6章 向量处理机_第1页
第1页 / 共71页
计算机系统结构 第6章 向量处理机_第2页
第2页 / 共71页
计算机系统结构 第6章 向量处理机_第3页
第3页 / 共71页
计算机系统结构 第6章 向量处理机_第4页
第4页 / 共71页
计算机系统结构 第6章 向量处理机_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《计算机系统结构 第6章 向量处理机》由会员分享,可在线阅读,更多相关《计算机系统结构 第6章 向量处理机(71页珍藏版)》请在金锄头文库上搜索。

1、6.1 向量数据表示方式 6.2 向量处理机的结构 6.3 向量处理方式 6.4 向量处理机的关键技术 6.5 向量处理机实例 6.6 向量处理机的性能评价 6.7 向量处理机的发展第6章 向量处理机Date1计算机系统结构 第六章 向量处理机具有向量数据表示和向量指令系统的处理机 向量处理机是解决数值计算问题的一种高性能计算机 向量处理机属大型或巨型机,也可以用微机加一台向 量协处理器组成 向量处理机一般都采用流水线结构,通常有有多条并 行工作的流水线 必须把要解决的问题转化为向量运算,才能发挥向量 处理机的效率Date2计算机系统结构 第六章 向量处理机6. 向量数据表示方式6.1.1 从

2、标量到向量 6.1.2 等间距向量表示法 6.1.3 带位移量的向量表示法 6.1.4 稀疏向量表示法Date3计算机系统结构 第六章 向量处理机例6.1:一个简单的C语言程序如下: for (i = 10; i =N/64; i+) 4:VoB 将B向量读入向量 寄存器 5:V1S1 Vo B数组的每个分量乘常 数 6:V2S2V1 C和5 B(x)相加 7:AV2将结果向量存入 A数组Date43计算机系统结构 第六章 向量处理机6.4.4 向量递归技术向量指令一般为3地址,但递归运算用两地址。 用递归向量技术求和: V0V0+V1 C0和C1分别是与向量寄存器V0和V1相关的分 量计数器

3、。初始时,计数器C0和C1都置成0, V00中的初始值也置成0。 浮点加法流水线的延迟时间为8个周期。 假定向量长度为64,只作一个向量循环。 在开始的8个周期,计数器C0一直为0,在此之 后,每个周期期加1。C1每个周期加1。Date44计算机系统结构 第六章 向量处理机V00=V00+V10=0+V10 V01=V00+V11=0+V11 V07=V00+V17=0+V17 V08=V00+V18=V10+V18 V015=V07+V115=V17+V115 V016=V08+V116=V10+V18+V116 V056=V048+V156=V10+V18+V116+V124+V132+V

4、140+V148+V156 V063=V055+V163=V17+V115+V123+V131+V139+V147+V155+V163 经过8次运算,得到8个结果,分别是8个数的和第1次加法第2次加法第8次加法Date45计算机系统结构 第六章 向量处理机6.5 向量处理机实例6.5.1 典型向量处理机6.5.2 CRAY Y-MP向量处理机6.5.3 向量协处理器Date46计算机系统结构 第六章 向量处理机向量处理机主要出自美国和日本。 美国著名的向量计算机公司有:CRAYCDCTI等 日本公司有:NECFujitsuHitachi等6.5.1 典型的向量处理机Date47计算机系统结构

5、第六章 向量处理机机器型号美国和日本制造的向量处理机Cray IS配置特点 有10条流水线的 单处理机,12.5 ns,COS/CF72.1第一台基于ECL 的超级计算机,1976年问世 典型向量处理机Cray 2S/4-256256M字存储器 的4台处理机, 4.lns, COS或 UNIX/CF77 3.016K字的本地存 储器,移植了UNIXV, 1985问世Date48计算机系统结构 第六章 向量处理机机器型号CrayX-MP 416配置特点 16M字存储器的 4台处理机,128 M字SSD, 8.5ns, COS CF77 5.0使用共享寄存器组用于IPC, 1983年问世CrayY

6、-MP 832128M字存储器的 8台处理机, 6ns, CF77 5.0XMP的改进 型,1988年问世 每台处理机2条 向量流水线, 16 台处理机, 4.2ns, Unicos/CF77 5.0Cray Y-MP C-90最大的Cray机器 1991年问世Date49计算机系统结构 第六章 向量处理机机器型号CDCCyber 205配置特点 有4条流水线的 单处理机, 20ns, 虚拟OS/FTN200存储器到存储器 系统结构,1982年问世ETA 10E单处理机, 10.5ns, ETAV/FTN 200Cyber 205的后 继型号,1985年问世 每台处理机4组 流水线, 4台处理

7、 机, 2.9ns, F77SX, 22GflopsNEC SX-X/441991年问世Date50计算机系统结构 第六章 向量处理机机器型号Fujitsu VP2600/10配置特点 5条流水线的单 处理机和双标量处理机, 3.2ns, MSP. EX /F77 EX/VP使用可重构微 向量寄存器和 屏蔽,1991年问世512MB存储器, 18条流水线的单 处理机,4ns, FORT77/HAP V23-OCHitachi820/8064个通道,最大 传输速率288MB/S, 1988年问世Date51计算机系统结构 第六章 向量处理机6.5.2 CRAY Y-MP向量处理机由1至8个处理机

8、组成,共享中央存储器、I/O子系统 、处理机通信子系统和实时钟。 中央存储器由256个交叉访问的存储体组成。每个处 理机对4个存储器端口交叉访问。 CPU的时钟周期为6ns。 每个CPU由14个功能部件组成,分为向量、标量、地 址和控制四个子系统。 使用了大量地址寄存器、标量寄存器、向量寄存器、 中间寄存器和临时寄存器。 可以实现功能流水线灵活的链接。 I/O子系统支持三类通道,传输速率分别为6兆字节/秒 ,100兆字节/秒和1G字节/秒。Date52计算机系统结构 第六章 向量处理机536.5.3 向量协处理器以中小型机或微机作主机,向量处理部件作为外围设 备,加速向量的处理速度。 向量协处

9、理器是为中小型用户设计的,解决科学计算 中大量向量处理任务的一种装置。 FPS-164是最典型的向量协处理器,美国浮点系统公 司生产。每个向量处理器有两个乘加部件,两组向量 寄存器,两组标量寄存器。向量寄存器有2组4个 个操作数,每个操作数个字节。 各向量处理器同步地运算,但它们处理的数据各不相 同。 向量操作可以和标量处理器中的标量操作同时进行Date54计算机系统结构 第六章 向量处理机 FPS-164向量协处理器的结构 Date55计算机系统结构 第六章 向量处理机6.6 向量处理机的性能评价衡量向量处理机性能的主要指标有: 向量指令处理时间Tvp、最大性能R、 半性能向量长度n1/2等

10、。 1. 向量指令处理时间Tvp执行一条长度为n的向量指令的时间Tvp表示为 :TvpTs + Tvf + (n - 1) Tc其中:Ts为向量流水线的建立时间。Tvf为向量流水线的流过时间。Tc为流水线“瓶颈”段的执行时间。Date56计算机系统结构 第六章 向量处理机如果每段执行时间都等于一个时钟周期,则有 :Tvps + e + (n - 1) 其中:s为向量流水线建立所需的时钟 周期数。e为向量流水线流过所需的时钟周 期数。n为向量长度。为时钟周期长度 。 通常把几条能在一个时钟周期内同时开始执行 的向量指令称为一个编队 (Chime)。同一个编队中的指令不存在功能部件冲突和数 据相关

11、。Date57计算机系统结构 第六章 向量处理机例6.3:假设一台向量处理机中功能部件的启动 开销为:取数和存数部件12个时钟周期、乘法 部件7个时钟周期、加法部件6个时钟周期。先 把下列向量操作分成编队,然后计算每个编队 的开始时间、获得第一个结果元素的时间和获 得最后一个结果元素的时间。LV V1,Rx ;取向量xMULTSV V2,F0,V1 ;向量和标量相乘 LV V3,Ry ;取向量Y ADDV V4,V2,V3 ;加法 SV Ry,V4 ;存结果Date58计算机系统结构 第六章 向量处理机解:第一条指令LV为第1个编队。 MULTSV指令和第2条LV指令为第2个编 队。 ADDV

12、指令为第3个编队。 SV指令为第4个编队。 如果向量长度为n,则每个编队的开始 时间、获得第一个结果元素和最后一个结果元 素时间如下表所示:Date59计算机系统结构 第六章 向量处理机如果有3个访问存储器部件,并且不考虑控制的 复杂性,采用向量链接技术,只需要:12 + 7 + 6 + 12 + n 136 + n个周期。 如果考虑向量长度大于向量寄存器长度时,则 需要分段开采。向量长度为n的一组 向量操作的整个执行时间为:其中:Tloop为执行标量代码的开销,Tstart为每个编队的向量启动开销 ,MVL是向量寄存器的长度,Tloop是一个常数,在Cray 1中机 为15。Date60计算

13、机系统结构 第六章 向量处理机例6.5:在一台向量处理机上实现ABs操作 ,其中A和B是长度为200的向量,s是一个标量 。向量寄存器长度为64。各功能部件的启动时 间与上例相同。求总的执行时间。 解:因为向量长度超过了向量寄存器的长度, 所以要采取分段开采方法。每次循环主要由下 面三条向量指令组成:LV V1, Rb ;取向量BMULTVS V2,V1,Fs ;向量和标量相乘SV Ra,V2 ;存向量假设A和B分别放在Ra和Rb之中,s放 在Fs中Date61计算机系统结构 第六章 向量处理机三条指令之间存在有写读数据相关,因此必须把 它们分成3个编队,Tchime= 3。T2004(15

14、+ Tstart) + 200360(4Tstart)+ 600660(4Tstart)其中:Tstart=12 + 7 + 12 = 31,因此,T200660 + 431784每个结果元素的平均执行时间为:768/200 3.9个周期。Date62计算机系统结构 第六章 向量处理机例6.6:在某台向量处理机上的执行代码由如下 5条指令组成:1:LV V1,Rx;取向量x2:MULTSV V2,F0,V1 ;向量和标量相 乘3:LV V3,Ry;取向量Y4:ADDV V4,V2,V3 ;加法5:SV Ry,V4;存结果 主要参数与上例相同,求总的执行时间。Date63计算机系统结构 第六章

15、向量处理机解:指令1、2,指令3、4和指令5分成三个编 队,前两个编队中两条指令采用向链接技术执 行。 Tchime=3, Tloop=15,Tstart=12+7+12+6+12=49,MVL=64。Date64计算机系统结构 第六章 向量处理机2. 最大性能R R表示当向量长度为无穷大时的向量流水线的 最大性能。常在评价峰值性能时使用。其中:n为向量长度;Tn为一组向量操作的整个执行时 间。 对于例6.6,假设时钟频率为200MHZ。每个循 环有2个浮点操作,则有:Date65计算机系统结构 第六章 向量处理机3.半性能向量长度n1/2 为达到一半R值所需的向量长度称为半性能向量长度n1/2。 主要用来评价向量流水线的建立时间对性能的 影响。 CRAY-1的n1/21020,CYBER 205的n1/2100。 由MFLOPS定义可知:Date66计算机系统结构 第六章 向量处理机对于例6.6,如果向量处理机的时钟频率为 200MHz。 因为:R=100MFLOPS,因此有:1002 2 n1/2Tn1/2 200 假设:n1/2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号