第2章-Intel-IA-32处理器结构与原理ppt课件

上传人:资****亨 文档编号:145854368 上传时间:2020-09-24 格式:PPT 页数:78 大小:596.50KB
返回 下载 相关 举报
第2章-Intel-IA-32处理器结构与原理ppt课件_第1页
第1页 / 共78页
第2章-Intel-IA-32处理器结构与原理ppt课件_第2页
第2页 / 共78页
第2章-Intel-IA-32处理器结构与原理ppt课件_第3页
第3页 / 共78页
第2章-Intel-IA-32处理器结构与原理ppt课件_第4页
第4页 / 共78页
第2章-Intel-IA-32处理器结构与原理ppt课件_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《第2章-Intel-IA-32处理器结构与原理ppt课件》由会员分享,可在线阅读,更多相关《第2章-Intel-IA-32处理器结构与原理ppt课件(78页珍藏版)》请在金锄头文库上搜索。

1、.,1,基本概念,超标量、超流水线 CISC、RISC 高速缓存cache,.,2,超标量 and 超流水线,流水线是Intel首次在486芯片中开始使用的。 流水线的工作方式就象工业生产上的装配流水线。在CPU中由5-6个不同功能的电路单元组成一条指令处理流水线,然后将一条X86指令分成5-6步后再由这些电路单元分别执行 这样就能实现在一个CPU时钟周期完成一条指令,因此提高CPU的运算速度。 经典奔腾每条整数流水线都分为四级流水,即指令预取、译码、执行、写回结果,浮点流水又分为八级流水。,.,3,超流水线,通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取

2、空间。 例如Pentium 4的流水线就长达20级。将流水线设计的步(级)越长,其完成一条指令的速度越快,因此才能适应工作主频更高的CPU。 但是流水线过长也带来了一定副作用,很可能会出现主频较高的CPU实际运算速度较低的现象 Intel的奔腾4就出现了这种情况,虽然它的主频可以高达1.4G以上,但其运算性能却远远比不上AMD 1.2G的速龙甚至奔腾III,.,4,超标量,超标量是通过内置多条流水线来同时执行多个处理,其实质是以空间换取时间。,.,5,CISC的缺点,各种指令的使用率相差悬殊:一个典型程序的运算过程所使用 的80指令只占一个处理器指令系统的20 复杂的指令系统必然带来结构的复杂

3、性这不但增加了设计的时间与成本还容易造成设计失误 尽管VLSI技术现在已达到很高的水平,但也很难把CISC的全部硬件做在一个芯片上,这也妨碍单片计算机的发展 在CISC中,许多复杂指令需要极 复杂的操作,这类指令多数是某种高级语言的直接翻版,因而通用性差由于采用二级的微码执行方式,它也降低那些被频繁调用的简单指令系统的运行速度 提出了精简指令的设想即指令系统应当只包含那些使用频率很高的少量指令,并提供一些必要的指令以支持操作系统和高 级语言 MUL ADDRA, ADDRB,.,6,RISC的特点,RISC的着眼点不简单地放在简化指令系统上,而是通过简化指令使计算机的结构更合理,从而提高运算速

4、度。RISC的设计要点为: 选取使用频度最高的一些简单指令和很有用但并不复杂的指令; 指令的长度固定,指令格式种类少,寻址方式种类少; 只有取数存数指令访问存储器,其余指令操作都在寄存器之间进行; 采用指令流水线操作,实现指令并行操作; 大部分指令在一个时钟周期内完成; CPU中通用寄存器的数目相当多; 以硬布线控制为主,不用或少用微程序控制,以加快指令执行速度。,.,7,RISC,但由于使用精简指令所编写出来的代码会更长,所以执行任务所需的内存也就更大。因此,对于复杂的程序来说,由于要考虑到各种可能的情况,最终的程序代码可能非常大 MOV A, ADDRA; MOV B, ADDRB; MU

5、L A, B; STR ADDRA, A,.,8,CACHE,速度上的匹配,提高处理器访问存储器的速度 保存主存储器当前正在执行信息的副本 设立依据:局部性原理,.,9,第2章 Intel IA-32处理器结构与原理,.,10,2.1 Pentium处理器,80 x86系列微处理器兼容 有64位数据总线、 32位地址总线,寻址空间4GB。 RISC型超标量结构 - 两个5级整数指令流水线,一个8级浮点流水线。 具有超级流水线技术的高性能浮点运算器。 数据-代码分离式高速缓存,符合MESI协议。 增强的错误检测和报告功能。 利用片上分支目标缓冲器提高分支指令预测准确性。 常用的指令不采用微程序设

6、计,而改用硬件实现。 支持64位外部数据总线突发传输方式 通过APIC总线支持多处理器系统 Pentium MMX(与浮点运算共用寄存器),2.1.1 Pentium处理器的特性,.,11,=指令预取 =首次译码 =二次译码 =指令执行 =写回R,2.1.2 Pentium处理器的内部结构与工作原理,.,12,整数处理部件 浮点处理部件 分离型cahce 指令预取 指令配对,.,13,下面是连续传送100个字节的循环程序段,MOV SI,0200H ;源数据区偏移地址给SI MOV DI,0500H ;目的数据区偏移地址给DI MOV CX,64H ;待传送字节数为100,赋给CX ABC:M

7、OV AL,SI ;从源区取出一个字节 MOV DI,AL ;存入目的数据区 INC SI ;源地址指针加1 INC DI ;目的地址指针加1 DEC CX ;CX=CX-1 JNZ ABC ;若CX0,转ABC,.,14,指令配对规则,配对的指令必须是简单指令 两条指令之间不可存在“写后读”或“写后写”这样的寄存器相关性 一条指令不能同时既包含位移量又包含立即数 带前缀(JCC指令的0F除外)的指令只能出现在U流水中 浮点运算指令不能和任何指令配对(FCXH除外),下面两条指令是否可配对?,MOV AX, 200 MOV CX, AX,MOV AX, 200 MOV AX, 412,写后读,

8、写后写,.,15,2.2 P6微结构的处理器,2.2.1 P6微结构概述,采用12级3流水超标量结构 多路分支预测-预测分支未来的方向,为处理器预 先译码分支之后的指令提供依据 动态数据流分析 - 处理器分析几条指令的数据相关性和资源可用性- 以优化的执行顺序高效地乱序执行这些指令 推测执行 - 在假设分支走向基础上,执行其中一路指令流 双独立总线结构- 后端总线连接到L2 Cache上- 前端总线FSB主要负责主存储器的信息传送操作,.,16,关于乱序执行技术,为了提高指令流的执行效率,乱序执行核心监视很多条指令,然后在不损失数据完整性的前提下,采用能充分发挥多个处理部件并行工作的指令顺序来

9、执行。这个指令顺序可能和原始程序的不一样。,1)A=B+C 2)P=A*2 3)Q=D-E,1)和3)可配对同时执行,.,17,2.2.2 Pentium III处理器内部结构及工作原理,.,18,2.3 NetBurst微结构的处理器,2.3.1 NetBurst微结构概述,1. 超级流水线技术,衡量CPU的性能指标是CPU完成应用程序所需的总时间。其计算公式如下: CPU性能=CPU的主频IPC IPC是每时钟执行的指令条数。 要提高CPU性能,可采用提高CPU主频和提高IPC。 要提高主频减少每个流水级的执行周期要减小每个流水级的任务量将任务再分解增加流水线深度 预测失败,.,19,2.

10、快速执行引擎,NetBurst微结构中配置了一种时钟缓冲器电路,可以使该结构下2个执行简单指令的ALU和2个存储地址AGU运行在两倍的CPU核心频率下,3.高级动态执行,一个高达126条指令的超大指令窗口,避免了处理器为了等待配对指令而出现暂时的停顿,也减少了因Cache没命中,到主存中获取数据而产生等待的次数。 一个4KB的分支目标缓冲器BTB记录更多的过去分支的历史细节,再配以改进的分支预测算法,使分支预测失误率比Pentium III下降了33 。,.,20,4. 执行跟踪Cache(execution trace Cache),放弃L1 指令Cache的设计,采用执行跟踪Cache,它

11、在译码器的后面,按程序流顺序存放已经译码好的最多12,000条微指令,,5. 高速系统总线,采用了一种 “四倍速”技术quad pumping,使得前端总线能很方便的工作再4倍于系统总线的频率上。,6. 高级传输Cache,采用8路相联的片内L2 Cache ,与核心同频工作,与CPU核心的专用总线宽度为256位,是过去的4倍,这样主频为2.8GHz的Pentium 4其数据带宽将为89.6GBps。,.,21,2.3.2 Pentium 4处理器内部结构及工作原理,.,22,2.3.3 NetBurst微结构处理器的新技术,57条MMX指令操作8个64位长的MMX寄存器内的紧缩字节(8个字节

12、打包成一个64位长的数据)、字或双字整型数上执行SIMD 70条SSE指令处理在8个128位的XMM寄存器中的单精度浮点数和在MMX寄存器中的紧缩整数。高速缓存控制指令通过增加主存到Cache和处理器到主存的数据流,改善存储性能,SIMD浮点指令使处理器能同时执行4个浮点操作。 144条SSE2指令处理在XMM寄存器中的紧缩双精度浮点数和在MMX与XMM寄存器中的紧缩整数。 13条SSE3指令增强SSE, SSE2和x87FPU数学能力的性能。,1. SIMD技术,.,23,2. 超线程(Hyper-Threading, HT)技术,允许物理上单个的处理器采用共享执行资源的方法同时执行两个或更

13、多的分离代码流(线程) HT技术由单处理器上的2个或者多个逻辑处理器组成,每个逻辑处理器都有自己的IA-32结构状态(AS) 每个逻辑处理器都有自己的IA-32通用寄存器、段寄存器、控制寄存器、调试寄存器等 逻辑处理器共享的资源包括执行引擎和系统总线接口,.,24,3. 双核(Dual-Core)技术,通过在一个物理封装中包含两个分离的完整执行核来提供硬件多线程能力 每个完整的执行核不仅有自己的AS,还拥有自己的执行引擎,总线接口与L2 Cache 。 结构上有支持HT技术的和不支持HT技术的双核结构 多核(Multi-Core)、众核(Many-Core)技术,.,25,AMD的双核,Int

14、el的Pentium D双核,.,26,AMD双核,AMD公司的Athlon X2双核处理器采用的是AMDK8架构,K8架构的优点是功耗低,执行效率高,在硬件上集成内存控制器,因而响应更快。 并且采用与PD双核相同的独享式使用二级缓存,所以X2在性能上战胜PD也是很正常的。,.,27,PD双核,Inter公司的PD820、PD915系列双核处理器采用英特尔netburst架构,该架构特点是走高主频之路。 PD双核处理器采用的是独享二级缓存,即每个核心只能使用固定的二级缓存。(这一点与最新coro架构有明显的区别, coro为共享二级缓存)。 对于二级缓存大小的理解,一般来说L2缓存越大性能越好

15、。 netburst架构流水线为31级,这样的设计对付大数据的任务非常有效,但是对付小数据量的简单任务时,超长流水线的设计会存在很大的延迟,单周期处理的指令数有限,效率不高。 所以PD双核因为架构缺陷,没等全面普及就被后推出的酷睿2双核处理器所取代。,.,28,PD双核,Pentium D谈不上是一套完美的双核架构,Intel只是将两个完全独立的CPU核心做在同一枚芯片上,通过同一条前端总线与芯片组相连。 两个核心缺乏必要的协同和资源共享能力,而且还必须频繁地对二级缓存作同步化刷新动作,以避免两个核心的工作步调出问题。 从这个意义上说,Pentium D带来的进步并没有人们预想得那么大!,.,

16、29,4. Intel的EM64T技术,完全兼容现在的IA-32结构 具有传统IA-32模式和IA-32e模式,IA-32e模式包括64位模式和兼容模式(允许现有程序无需修改就运行在传统IA-32模式和兼容模式下) 64位模式下具有以下特性: 64位平板线性地址 增加8个新的通用寄存器 增加8个新的流SIMD扩展(SSE, SSE2和SSE3) 64位宽的通用寄存器和指令指针寄存器,.,30,5. Intel的虚拟化技术,在硬件层面上提供多虚拟系统功能 一个机器可以虚拟成多个机器,甚至同时可以运行多个相同或不同的操作系统。 虚拟机监控程序(VMM)为每个操作系统提供一个虚拟的硬件环境,.,31,虚拟化技术与多任务以及超线程技术是完全不同的。 多任务是指在一个操作系统中多个程序同时并行运行,而在虚拟化技术中,则可以同时运行多个操作系统,而且每一个操作系统中都有多个程序运行,每一个操作系统都运行在一个虚拟的CPU或者是虚拟主机上; 而超线程技术只是单CPU模拟双CPU来

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号