体系结构课件chapter53章节

上传人:E**** 文档编号:90649962 上传时间:2019-06-14 格式:PPT 页数:35 大小:440KB
返回 下载 相关 举报
体系结构课件chapter53章节_第1页
第1页 / 共35页
体系结构课件chapter53章节_第2页
第2页 / 共35页
体系结构课件chapter53章节_第3页
第3页 / 共35页
体系结构课件chapter53章节_第4页
第4页 / 共35页
体系结构课件chapter53章节_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《体系结构课件chapter53章节》由会员分享,可在线阅读,更多相关《体系结构课件chapter53章节(35页珍藏版)》请在金锄头文库上搜索。

1、1,5.3 向量的流水处理与向量流水处理机,将向量数据表示和流水线技术结合起来,构成向量流水处理机,简称向量处理机(Vector Processor) 向量的流水处理 向量流水处理机,2,向量的流水处理,提高流水性能方法: 增加流水线段数,以减少t 减少相关,减少功能变换次数,增加处理指令条数。 每个时钟同时启动多条指令,3,向量操作特点 向量元素间操作相互独立,且为相同操作 相当于标量循环,对指令带宽的访问要求不高。 可采用多体交叉存储器,减少访存延迟。 向量操作很适合于流水处理或并行处理 流水处理机:向量的分量间采取的是流水方式。 并行处理机(SIMD): 处理向量时采取的是并行方式。,4

2、,向量处理工作方式 如:D=A(B+C) 其中,A、B、C、D都是具有N个元素的向量 横向处理:bi+ci - k, k*ai-di +*+*+* 产生N次相关,2N次功能切换,适合标量循环 纵向处理:bi+ci - ki, ki*ai di + * 产生1次相关,1次功能切换,可流水处理,5,向量处理工作方式 纵横处理: 如果向量的长度N太长,超出了向量寄存器组中寄存器的个数,可以将该向量分割成若干个组,使每组都能装得进向量寄存器组中。 这样,每一组内均按纵向方式处理,而组和组之间则采用软件方法编制循环程序的方法依次循环处理。 对向量分组,组内纵向、组间横向处理,6,向量流水处理机,向量流水

3、处理机的指令系统 向量流水处理机的结构 超级向量流水处理机举例,7,向量流水处理机的指令系统,包含有向量型和标量型两类指令 向量型运算类指令一般又可以有如下几种: 向量V1运算得向量V2, 如V2=SIN(V1); 向量V运算得标量S, 如 ; 向量V1与向量V2运算得向量V3,如V3=V1V2; 向量V1与标量S运算得向量V2, 如V2=S*V1。 特殊操作指令 向量比较指令;向量压缩指令 归并指令 ; 向量传送指令 向量指令结构 操作码、源目的操作数(基地址、地址偏移量、地址增量、向量长度),8,向量流水处理机的结构,1972年首次交付使用CRAY-1向量流水处理机 分布异构型多处理机系统

4、,由中央处理机、诊断维护控制处理机、大容量磁盘存储子系统、前端处理机组成; 6个流水线单功能部件:整数加、逻辑运算、移位、浮点加、浮点乘和浮点迭代求倒数; 向量寄存器由512个64位寄存器组成,分成8组 中央处理机的运算部分有12条可并行工作的单功能流水线,可分别流水地进行地址、向量、标量的各种运算。 流水线功能部件直接访问的向量寄存器组V0V7、标量寄存器S0S7及地址寄存器A0A7。,9,10,为发挥向量寄存器和可并行工作的6个流水线功能部件的作用, 加快对向量的处理,将CRAY-1设计成每个Vi组都有连到6个功能部件的单独总线,而每个功能部件也都有把运算结果送回向量寄存器组的输出总线。

5、只要不出现Vi冲突和功能部件冲突,各个Vi之间和各个功能部件之间都能并行工作,大大加快了向量指令的处理; 这是CRAY1向量处理的一个显著特点。,11,超级向量流水处理机举例,1972年成立CRAY公司,至今生产了400台以上的超级计算机 1979年CRAY-1S,CRAY-1改进型,有10条流水线 1983年CRAY X-MP,用4台CRAY-1 1985年CRAY-2S 1988年CRAY Y-MP,8台处理机 1991年CRAY Y-MP C-90 1996年12月,克雷研究公司也被SGI公司以7.5亿美元收购 目前产品:MTA、SV1、SX_6、T3E 2002年Cray X1。运算速

6、度最高为每秒52万亿次,支持65.5TB存储器。 宣布了在2010年以前实现能够连续地处理每秒1000万亿次 网址:,12,5.4 指令级高度并行的超级计算机,超标量处理机 超流水线处理机 超标量超流水线处理机 超长指令字处理机,13,超标量处理机,采用多指令流水线(度=m) 配置多套功能部件、指令译码电路和多组总线,并且寄存器也备有多个端口和多组总线。 编译时,由编译程序来优化编排指令的执行顺序,将可以并行的指令搭配成组,硬件不调整执行指令的顺序,以利于执行。 适合于求解稀疏向量、矩阵 IBM RS/6000、DEC 21064、Intel i960CA、Tandem Cyclone(飓风)

7、等,14,图 5.35 常规(度m=1)的标量流水机时-空图,15,图 5.36 度m=3的超标量处理机时-空图,16,超标量处理机基本结构,一般流水线处理机: 一条指令流水线 一个多功能操作部件,每个时钟周期平均执行指令的条数小于1。 多操作部件处理机: 一条指令流水线 多个独立的操作部件,操作部件可以采用流水线,也可以不流水 多操作部件处理机的指令级并行度小于1 超标量处理机典型结构: 多条指令流水线 超标量处理机有:定点处理部件CPU,浮点处理部件FPU,图形加速部件GPU 大量的通用寄存器,两个一级高速Cache 超标量处理机的指令级并行度大于1,17,超流水线处理机,两种定义: 一个

8、周期内能够分时发射多条指令的处理机称为 超流水线处理机。 指令流水线有8个或更多功能段的流水线处理机称为超流水线处理机。 提高处理机性能的不同方法: 超标量处理机是通过增加硬件资源为代价来换取处理机性能的。 超流水线处理机则通过各硬件部件充分重叠工作来提高处理机性能。 两种不同并行性: 超标量处理机采用的是空间并行性 超流水线处理机采用的是时间并行性,18,指令执行时序,每隔1/n个时钟周期发射一条指令,流水线周期为1/n个时钟周期 超流水线处理机是采用多相的高频时钟。 在超标量处理机中,流水线的有些功能段还可以进一步细分。 例如:ID功能段可以再细分为译码、读第一操作数和读第二操作数三个流水

9、段。也有些功能段不能再细分,如WR功能段一般不再细分。因此,有8个或8个以上流水段的处理机称为超流水线处理机,19,超流水线处理机(续),每个时钟周期分时发送3条指令的超流水线,20,超标量超流水线处理机,把超标量与超流水线技术结合在一起,就成为超标量超流水线处理机 DEC公司的Alpha 指令执行时序 超标量超流水线处理机在一个时钟周期内分时发射指令n次,每次同时发射指令m条,每个时钟周期总共发射指令mn条。,21,每时钟周期发射3次,每次3条指令,22,三种指令级并行处理机性能比较,超标量处理机、超流水线处理机和超标量超流水线处理机相对于单流水线普通标量处理机的性能曲线。,23,结论,三种

10、处理机的性能关系超标量处理机的相对性能最高,其次是超标量超流水线处理机,超流水线处理机的相对性能最低,主要原因如下: 超标量处理机在每个时钟周期的一开始就同时发射多条指令,而超流水线处理机则要把一个时钟周期平均分成多个流水线周期,每个流水线周期发射一条指令;因此,超流水线处理机的启动延迟比超标量处理机大。,24,结论(续),条件转移造成的损失,超流水线处理机要比超标量处理机大。 在指令执行过程中的每一个功能段,超标量处理机都重复设置有多个相同的指令执行部件,而超流水线处理机只是把同一个指令执行部件分解为多个流水级;因此,超标量处理机指令执行部件的冲突要比超流水线处理机小。,25,结论(续),实

11、际指令级并行度与理论指令级并行度的关系 当横坐标给出的理论指令级并行度比较低时,处理机的实际指令级并行度的提高比较快。 当理论指令级并行度进一步增加时,处理机实际指令级并行度提高的速度越来越慢。 在实际设计超标量、超流水线、超标量超流水线处理机的指令级并行度时要适当,否则,有可能造成花费了大量的硬件,但实际上处理机所能达到的指令级并行度并不高。 目前,一般认为,m 和 n 都不要超过4。,26,结论(续),最大指令级并行度 一个特定程序由于受到本身的数据相关和控制相关的限制,它的指令级并行度的最大值是有限的,是有个确定的值。这个最大值主要由程序自身的语义来决定,与这个程序运行在那一种处理机上无

12、关。对于某一个特定的程序,图中的三条曲线最终都要收拢到同一个点上。当然,对于各个不同程序,这个收拢点的位置也是不同的。,27,超标量处理机 Intel公司的i860, i960, Pentium处理机 Motolora公司的MC88110 IBM公司的Power 6000 SUN公司的SuperSPARC等 超流水线处理机 SGI公司的MIPS R4000, R5000, R10000等 超标量超流水线处理机 DEC公司的Alpha等,28,超标量、超流水、超标量超流水处理机的主要性能,29,超长指令字处理机 (VLIW-Very Long Instruction Word),VLIW是将水平

13、型微码和超标量处理两者结合的结构。 编译时,将多个能并行执行的不相关或无关的操作组合在一起,形成一条有多个操作码字段的超长指令字。运行时,直接控制机器中多个相互独立的功能部件并行操作,来实现同时执行多条指令。 指令字长可达数百位,多个功能部件并发工作,共享大容量寄存器堆,是一种单指令多操作码多数据的系统结构(SIMOMD),30,1、向量计算机系统结构的发展趋势 提供多种向量运算指令。 除具有向量处理功能外还有其它功能。 采用多层次的存储器系统。 流水线技术与并行技术相结合。,向量处理机的发展,2、向量计算机系统结构要解决的六个技术问题: 处理机带宽,两种方法: 运算部件采用流水线结构; 用多

14、个运算器构成并行系统。 存储器带宽,多种解决方法: 用多个独立的存储体构造一个大容量的存储器系统。 采用多层次的存储器系统提高访问速度。 采用高速缓冲存储器和可寻址的寄存器组效果最好。 采用流水线技术,存储系统的访问速度快520倍。,输入输出带宽 许多高性能向量处理机配备10 29个DMA通道。 通信带宽。共享存储器或互连网络。 同步。多流水线结构通过控制程序使所有流水线同步工作。 Cray-1系统采用流水线互锁来控制向量操作,不冲突的操作可以并行地执行,相关的操作尽可能链接起来重叠地进行。 多用途。非数值计算问题。,3、向量计算机系统结构的主要优点是: 通过流水线存取方式有效地提高了存储器的带宽。 流水结构的运算器有很高的性能价格比。 非常简单的机制就能满足通信和同步的要求。 向量处理机以Mflops (Million floating-point operations per second)作为速度单位。一般认为,标量计算机中执行一次浮点运算需条指令,平均需条指令。,35,小结,流水线方式 相关问题:转移、数据、控制、指令 时空图分析 单功能非线性流水线调度 超标量、超流水线、VLIW,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号