计算机体系结构学发展简介

上传人:ldj****22 文档编号:49003581 上传时间:2018-07-22 格式:PPT 页数:67 大小:2.05MB
返回 下载 相关 举报
计算机体系结构学发展简介_第1页
第1页 / 共67页
计算机体系结构学发展简介_第2页
第2页 / 共67页
计算机体系结构学发展简介_第3页
第3页 / 共67页
计算机体系结构学发展简介_第4页
第4页 / 共67页
计算机体系结构学发展简介_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《计算机体系结构学发展简介》由会员分享,可在线阅读,更多相关《计算机体系结构学发展简介(67页珍藏版)》请在金锄头文库上搜索。

1、计算机体系结构学科 发展简介石教英 浙江大学计算机学院计算机系统研究所 2004年12月目录 一、计算机体系结构学科发展回顾 1计算机性能高速发展及其原因 2计算机的分类 3计算机设计的任务 4技术发展趋向 二、指令级并行性开发技术 1RISC与CISC 2流水线技术 3指令级并行性技术 三、指令多发射技术 1指令多发射技术概述 2超标量处理器 3超长指令字处理器 4多发射处理器的技术难点四、Cache技术 1为什么要引入Cache 2为什么引入Cache能提高计算机性能? 3Cache技术的发展 五、多处理器技术 1 并行计算机体系结构分类 2 集中共享存储器型多处理计算机 3 分布式存储器

2、型多处理器计算机 4 并行处理的难点 六、我国计算机体系结构研究进展 一、计算机体系结构学科发展回顾Computer Architecture定义应用机器语言的程序员为了能正确编 写时序无关的程序所必须了解的计算 机的结构。简单讲:计算机体系结构是一门设计计 算机的学科,包括计算机的指令系统设 计,结构设计,实现技术,以及与系统 软件操作系统和编译器相关的技术。1、计算机性能高速发展及其原因1946年第一台通用电子计算机ENIAS诞生至今 仅56年每秒5000次运算加法计算机技术以惊人速度发展,并将继续高速发 展1980年百万美元机器的性能比不上今年1CPI的作用:CPI数越小,CPU速度越快

3、CPI数越大,CPU速度越慢 CPU性能公式 CPU time = IC CPI CCCPU time 执行一段代码所需的中央处理器 (CPU)时间IC代码的指令条数(Instruction Count), 与指令集设计编译器的优化有关CPI平均执行每条指令的时钟周期数,与 指令集设计、体系结构等技术有关CC时钟周期(Clock Cycle)与计算机组成 ,IC工艺等技术有关 缩短CPI成为缩短CPUtime 的主要技术途径 RISC体系结构追求精减的指令集数据类型、寻址方式精减,指令长度统一, 格式统一,提高流水线的效率,实现了每一 时钟周期能执行一条指令(CPI=1)RISC体系结构进一步

4、提出指令多发射技术即每一时钟周期可发射多条指令,执行多条 指令,进一步实现CPI1CISC计算机速度提高较慢的原因传统CISC体系结构计算机的CPI5-8原因:以DEC公司的VAX机器为例,指令系统复杂,指令 集有304条指令,指令长度:1 Byte64 Byte,操作 数可达:0-6个,数据类型达十几种,寻址方式达几 十种;采用微程序控制。导致流水线结构复杂,效率低下,速度提高有 困难目前几乎所有微处理器,包括传统著名的CISC 微处理器,如Intel系列和Motorola系列微处理 器都采用RISC体系结构 2流水线技术 这是理想流水线的性能:达到每一个时钟周期 可以完成一条指令 与指令串

5、行执行相比较,速度提高5倍 简介:流水线是一种多条指令重叠执行的实现 技术流水线的竞争 实际流水线不可能像上述理想流水线那 样完美存在三种流水线竞争结构竞争:由硬件资源不足造成流水线停顿数据竞争:由前后指令之间存在数据相关性 造成流水线停顿控制竞争:由转移指令造成流水线停顿 实际流水线的性能实际流水线的CPI=理想流水线的CPI + 结构竞争造成的停顿周期+ 数据竞争造成的停顿周期+ 控制竞争造成的停顿周期要提高CPU的性能就是要消除或减少三 种竞争造成的停顿周期 流水线竞争的解决结构竞争可以通过增加硬件资源来解决数据竞争和控制竞争只有通过挖掘代码 指令之间的平行性,即通过开发和发现 指令之间

6、存在的可并行(重叠)执行的 可能性,然后对指令执行顺序进行调度 ,即用不相关的指令来填补本来应该停 顿周期的方法,达到消除或减少停顿周 期,提高指令执行速度 3指令级并行性(ILP)开发技术 ILP开发技术分两大类:基于硬件的ILP开发技术,又称动态开发ILP 技术基于软件的ILP开发技术,又称静态开发ILP 技术 用于解决数据竞争的ILP开发技术 静态调度技术动态调度技术采用改名技术的动态调度技术编译分析数据相关性软件流水线路经调度用于解决控制相关性的ILP开发技术 静态转移预测技术动态转移预测技术静态投机技术动态投机技术循环体展开技术延时转移技术 三、指令多发射技术 1指令多发射技术概述从

7、CPUtime = ICCPICC公式出发,进一 步提高CPU性能的途径是令CPI1要达到CPI1的目的,必须做到每个时钟 周期发射多条指令,有多个处理部件和 足够的硬件资源来并行处理多条指令, 达到平均每条指令的处理时间小于1个时 钟周期指令多发射处理器有两类:超标量处理器(Superscalar processors) 超长指令字处理器(VLIWvery long instruction word)根据指令发射机制,即调度、组织可同 时发射指令的机制,也可分为两类:动态多发射机制,即由硬件在程序执行过程 中调度静态多发射机制,即由编译器在程序编译过 程中调度 2超标量处理器 超标量处理器流

8、水线操作超标量处理器的特点 在一个周期里能发射可变数量的指令,通常为 18条指令/周期同时发射的指令按规定搭配,不能自由搭配 ,即有限制:如同时发射的指令必须是独立的 ,即无数据竞争,以及满足访存次数规定等等 。采用静态调度(compiler完成)和/或动态调度 (硬件完成)方法确定可同时发射的指令 3超长指令字处理器(VLIW ) VLIW处理器特点一次发射一条超长指令,其中包含7个 操作,而不像超标量处理器那样一次 发射多条指令在超长指令当中多个操作按规定搭配 顺序排列,即指令类型不能任意搭配 ,操作顺序不能任意颠倒VLIW究竟有多长? 以一个拥有多个功能单元的VLIW处理器为例 : 设7

9、个功能单元可支持:2个整数操作、2个FP 操作、2个存储器访问操作和1个转移操作,这 样这条含7个操作的VLIW的功能相当于7条指 令,为支持每一功能单元正常工作,应分配每 一功能单元相应的数据域;一般每个数据域为 1624位 这一VLIW长度为:16 bits7 = 112 bits或为: 24 bits7 = 168 bits 比较:一个拥有7个功能单元的超标量处理器 ,一次发射7条指令,总长度为32 bits7=224 bits 超长指令字的组装由编译器完成,即由 编译器作静态调度,选择无相关性指令 按搭配顺序填入超长指令字为充分发挥VLIW处理器功能单元的作用 ,必须要有足够多的可并行

10、执行指令提 供给VLIW,编译器必须采用功能更强的 全局调度技术 4多发射处理器的技术难点 程序固有指令级并行性有限是多发射 处理器的本质困难,需要的可并行执行 的指令数大致等于功能单元数乘以流水 线级数。多发射处理器硬件数量多、速度快,且 复杂性高,从而成本高。超标量处理器的特殊困难发射逻辑复杂且高速动态调度硬件极其复杂超长指令字处理器的特殊困难 对编译器的要求高 VLIW系列机二进制代码兼容困难 四、Cache技术Cache一种小容量的高速缓冲存储器Cache 在计算机中的位置1、为什么要引入Cache?首先看一下CPU芯片速度与内存储器DRAM芯 片速度的差别有多大CPU与DRAM速度差

11、意味着什么 ? 说明单纯地改善CPU的设计,一味追求 提高CPU的速度,并不能提高计算机整 机的性能,因为高速CPU的性能被低速 的存储器访问所抵销。为了提高计算机整机性能,必须消除两 者性能差,或者仅可能缩小两者性能差 。 解决办法 在高速CPU与低速Memory之间引入一个 小容量的高速缓冲存储器(Cache), Cache速度与CPU速度之差(不足1个数 量级)远远小于CPU与DRAM速度差(3 个数量级4个数量级),通过将存储器 分级的方法来缓解这一巨大的速度差, 提高计算机的性能。 2、为什么引入Cache能提高计算机性能 ? 问: 既然用作Cache的SRAM芯片的速度远远高 于用

12、作主存储器的DRAM芯片,那么为什么 主存储器不用SRAM芯片来实现?答案:SRAM的价格远高于DRAM,而且主存储器 的容量大,采用高速SRAM使成本急剧上升 ,因此从性能/价格综合考虑只能采用小容 量的Cache。 问: 小容量的Cache能否满足程序存取指令 和数据的需求? 答案:计算机设计定量原理中有一条局部性原理告 诉我们:程序总是倾向于重用那些刚刚用过 的数据和指令,这是计算机程序非常重要的 性质。局部性原理的另一种表述:程序90% 的执行时间是花在10%的代码上。局部性原理告诉我们:可以根据程序最近访 问的数据和指令来预测程序将要调用的数据 和指令,且这一预测正确度是比较高的。所

13、以小容量的Cache能满足程序存取数据和 指令的需求 3. Cache技术的发展 采用多级Cache1980年代的微处理器大多没有片上Cache,只有片 外Cache2001年的微处理器大多都有2级片上Cache,再加上 一级片外Cache 增加Cache容量1980年代的片外Cache通常只有几十KB2001年的微处理器三级Cache的容量可达16MB 采用各种优化技术来提高Cache性能,包括减少失配造成的代价减少失配率减少命中时间五、多处理器技术单处理器计算机性能是否已接近其极限?然而从1985起到2000,这一段正是单 处理器计算机性能突飞猛进的时代单处理器计算机至少在未来5年仍将以目

14、 前速度发展多处理器计算机将越来越重要的理由 微处理器已主宰单处理器计算机技术,因此为 了提高单处理器计算机性能而将多个微处理器 连接起来就成为很自然的选择现在还不清楚使计算机体系结构不断创新的指 令级并行技术能否继续无限地发展下去曾经是并行机发展障碍的软件有了新的发展和 进展,主要是在服务器和嵌入式系统方面为多 处理器计算机发展带来曙光 1.并行计算机体系结构分类 Flynn在1966年提出的计算机分类方法,即按 指令流和数据流进行计算机分类的方法仍适 用至今 单指令流,单数据流(SISD)单处理器计算机单指令流,多数据流(SIMD)矢量计算机多指令流,单数据流(MISD)市场上无此类计算

15、机多指令流,多数据流(MIMD)通用多处理器并行 计算机,是广泛应用的多处理器并行计算机体系 结构 MIMD多处理器计算机分类可按处理器数目,存储器组织以及互连 网络的策略来分类 按存储器组织进行分类的两种多处理器 计算机 :集中共享存储器体系结构 分布式存储器体系结构 2.集中共享存储器型多处理器计算机基本结构 此类计算机适用于处理器数目相对较少 的场合,对于只有几个、十几个处理器 ,有可能共享一个主存储器,以及采用 总线实现处理器和主存的互连对于含有二、三十个处理器的机器需用 多总线,甚至用交换器才能满足存储器 带宽的要求 集中共享存储器型多处理器计算机只有 一个主存储器,对所有处理器都是

16、对称 的,访问存储器的时间都是均等的,所 以这种体系结构又称为对称(共享存 储器)处理器(SMP)集中共享存储器型多处理器是目前最成 功的多处理器计算机 3.分布式存储器型多处理器计算机 基本结构 此类计算机适用于处理器相对较多的场 合,可以是上百个、上千个、甚至数千 个之多。此类计算机要求互连网络的带宽较高, 通常采用交换机或多维网格实现处理器 之间的直接互连。分布式存储器型体系结构的最大缺点是 处理器之间的数据通信变得非常复杂( 一致性问题),并且延时较长。 4.并行处理的难点 程序固有并行性不足,导致并行计算机 很难达到理想的加速比 处理器之间通信代价高(即延时长), 同样将导致加速比下

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号