多核处理器 核心结构分析报告

上传人:xmg****18 文档编号:121234168 上传时间:2020-02-19 格式:DOC 页数:34 大小:2.03MB
返回 下载 相关 举报
多核处理器 核心结构分析报告_第1页
第1页 / 共34页
多核处理器 核心结构分析报告_第2页
第2页 / 共34页
多核处理器 核心结构分析报告_第3页
第3页 / 共34页
多核处理器 核心结构分析报告_第4页
第4页 / 共34页
多核处理器 核心结构分析报告_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《多核处理器 核心结构分析报告》由会员分享,可在线阅读,更多相关《多核处理器 核心结构分析报告(34页珍藏版)》请在金锄头文库上搜索。

1、. . .英特尔新一代处理器Core 2 Duo架构分析“我们大致回顾了从Pentium到Pentium4架构的演进,细数了Conroe体系结构的特点并以大量的测试结果和深入地分析为大家更透彻地了解Conroe的优缺点。”英特尔Core 2微体系架构的前世今生从586到NetBurst 在1993年3月22日,英特尔引入了该公司的第5代x86处理器,由于x86兼容处理器大量冒起,许多兼容处理器厂商(NEC、西门子、AMD、富士通、Harris、德州仪器、IBM、Cyrix、UMC、NexGen、IDT、SGS-Thomson、C&T等等)都早就把xxx86当成其自己产品的生招牌使用(例如199

2、5年就出现了NexGen公司的Nx586),而单纯的数字代号是不能作为商标受到保护的。为了巩固品牌的知名度,英特尔希望给这个原本代号586(也被称作P5)的处理器注册一个商标,最后选择了内含数字“5”玄机的商标“Pentium”,中文名称为奔腾。Pentium(P5)微架构体系图Pentium处理器是英特尔第一枚桌面超标量处理器,能够最高同时执行两条指令,在执行条件跳转指令的时候,U-Pipe的预测失误带来的性能损失是4个周期,V-Pipe的预测失误带来的性能损失是5个周期,其余的控制转移指令预测失误性能损失是4个周期。Pentium拥有8KB数据cache和8KB指令cache,初期的Pen

3、tium 60/66使用600纳米的BiCMOS工艺,采用273 pin的PGA封装,晶体管数量是3.1百万(大约是1971年4004处理器晶体管数量(2250只)的一千三百倍),L2 cache集成于主板上(常见的预安装容量为256KB)。Pentium是一枚32位处理器,拥有64位的外部总线,物理内存定址空间为32位(据说工程样品出现过36位物理定址,但是正式产品降回32位),逻辑内存能力为64TB。Pentium Pro家族微架构 1995年11月1日,英特尔推出了当时看来可以用“硕大”来形容的Pentium Pro处理器(中文名称是高能奔腾),这款代号P6的产品和Pentium相比革新

4、相当大,例如整数流水线采用了10级工位的超级流水线(预测失误的性能损失为1020个周期);能作多重分支预测和猜测执行;具备三个能够把x86指令转换成118位定长的RISC风格微操作的译码器(其中一个能把复杂x86指令转换成4个RISC风格微操作,另外两个解码器则是各可以把一条简单x86指令转换成一条RISC风格微操作,即所谓的“4+1+1”的3路解码格局)、实现了乱序执行等。Coppermine微架构(180纳米Pentium III,属于Pentium Pro家族第3代的改进型)把x86转换成RISC风格的微操作,有利于简化处理器执行流水线的设计,而且在提高性能的同时能确保兼容性。由于x86

5、指令转换成若干个RISC风格指令,因此Pentium Pro的实际指令率要低于理论值(只有部分寄存器-寄存器的ALU/Mov x86指令以及内存-寄存器 Mov x86 Load指令能转换成一条微操作,其他的x86指令大都需要转换成两条以上的微操作来拼凑)。此外,由于指令队列的问题,Pentium Pro的16bit指令执行能力其实要低于Pentium,不过它的32位指令执行能力的确给当时的人们留下了深刻的印象。Pentium Pro的内存定址能力提高到了64GB,而虚拟内存空间能力就和Pentium一样都是64GB。Pentium Pro把L2 cache和CPU做到同一个封装上,但是依然是

6、两枚芯片,只是两枚芯片做到了同一个封装的两个腔体内。Pentium Pro最初采用600纳米的BiCMOS工艺制造,CPU管芯5.5百万晶体管,管芯面积高达306平方毫米(这里未包含同一封装另一腔体内的L2 cache)。Pentium Pro 256KB L2 cache的电压是3.1伏特,耗电为23瓦特。到了Pentium III 180nm版(Coppermine)的时候,英特尔终于把L2 cache集成到了和CPU同一枚管芯(die)内。也是在Pentium III,英特尔引入了71条SSE扩展指令集,显著加强了x86处理器在流媒体处理方面的能力。AMD虽然也尝试在K6上引入3D No

7、w!指令集,但是3D Now!缺乏SSE所具备的IEEE-754兼容性、视频加速能力以及内存流式传输能力,因此虽然3D Now!一开始的时候威势不少并且有大量媒体借机炒作,但事实证明3D Now!的确有不少地方不如SSE。NetBurst体系架构 然而在Pentium III的时候英特尔却遭遇到了有史以来的第一次挫折,突破1GHz的头衔被AMD的Athlon处理器提前数个小时夺去了,别小看这几个小时,对于奉行摩尔定律的英特尔来说这样的局面是无论如何也抬不起头的。英特尔的上层做出了一个惊人的举措,决定把P6架构的发展暂时冻结,转向激进的甚深流水线架构P68,也就是Pentium 4,英特尔为这个

8、流水线工位多达20级的架构起了一个当时非常时髦的名字NetBurst。Willamette(第一代Pentium 4,180纳米工艺)微架构模块图采用甚深流水线的目的是为了在同样的工艺下获得更快的时钟频率,传统上,频率提升对开发人员这意味着程序不需要特别的更改就能获得性能提升。然而对于Pentium 4来说,这样的法则似乎不再是百试百灵的了。流水线越长,对于采用乱序+猜测执行的处理器来说,预测失败的成本就越高。Pentium III的流水线在预测失败的时候会损失10个周期,而在第一代的Willamette Pentium 4 上就达到了20个周期(极端的情况下例如流水线塞满了长延迟、低吞吐量的

9、微操作时,就会出现上100个周期的损失)。2004年推出的Prescott Pentium 4采用31级流水线,因为预测失败造成的性能损失也就更大了。此外,流水线大幅度增长同时也带来了耗电、管芯成本显著提高,特别是耗电问题,在Prescott Pentium 4的时候更加突出,原本计划突破4GHz以上的Prescott最后只是止步于3.8GHz。不过令英特尔蒙羞的是,英特尔当初决定不把IA-64架构快速迁移到桌面平台上,导致64 bit指令集的主导权落到了AMD手上,这个事件所发酵出来的效果比当初1GHz桂冠被AMD首先夺去更具戏剧性。但是不管怎样,Pentium 4都是英特尔非常有意义的尝试

10、,在它身上我们看到了Trace Cache、超线程、Quad Pump总线、SSE2/SSE3扩展指令集、LGA封装等诸多新技术的首次实际采用。英特尔Core新体系架构问世背景 2002年4月份推出的第二代Pentium 4(130纳米时代,Northwood微架构)取得了相当大的成功,在耗电、发热、性能等指标上都已经比第一代的Pentium 4好得多。在笔记本市场方面,Pentium 4的耗电、发热问题依然难以克服,此时的大部分笔记本电脑还是采用130纳米的Tualatin微架构Mobile Pentium III-M而非Mobile Pentium 4-M。2003年3月12日英特尔推出了

11、代号Banias的Pentium-M处理器,这款出自英特尔以色列研究室的微架构被认为在很大程度上和Pentium III相似。处理器前端相对Pentium III来说,Pentium M改进很大。例如分支预测单元上就使用了Pentium 4的分支预测技术并作了较大的增强(这部分增强后来也被回用到Prescott内核的Pentium 4里),引入了相当复杂、高效的节电电路,采用微操作融合技术,具备更大的Cache,流水线工位比Pentium 4短但是比Pentium III略长(没有确切的官方数字,有传闻是12级工位,但是P6微架构的流水线其实也可以说是12级),增加了专门的堆栈引擎,前端总线和

12、Pentium 4一样都是quad pump方式(100MHz时钟,等效400MT/s)。Banias计划刚刚出现的时候其实并没有引起广泛的注意,但是当Pentium M真的摆到大家面前的时候,不少人都开始疑惑,一个性能如此出众的微结构为什么英特尔不把它用(也许应该说重返)到桌面平台上呢?此时英特尔其实还是希望NetBurst微架构的Pentium 4继续往更高的时钟频率推,Prescott微架构最初计划是能达到4GHz,英特尔为此还提前给大家准备了诸如BTX等新的机箱/散热方案。此外,这个时候AMD的AMD64指令集和Intel的IA64指令集都还在争夺微软的64位操作系统支持,英特尔此时如

13、果有什么大的动作都可能出现不少的变数。Prescott微架构的表现的确差强人意,31级流水线工位带来了更大的预测失误性能损耗,而4GHz的频率屏障却由于高发热、耗电问题被迫宣布取消了。按照英特尔的资料,Prescott Pentium 4 3.4GHz(model 550)和Prescott Pentium 4 3.6GHz(model 560)的TDP(热量设计功率)为115瓦特,而竞争对手AMD Athlon 64同级别的产品TDP也不过是89瓦特。在英特尔的LGA775插座连接中,775个连接点中的523个触点都被用作于电力传输,给处理器提供119安培的电流,即便是如此强大的电力供应方案

14、,英特尔也表示如果不对Prescott重新设计的话,4GHz的目标依然是无法达成的。经过这些改动的话英特尔也许有能力推出4GHz的处理器,至少Alienware就推出过水冷的4GHz整机。此外也许还有一个生产能力富裕上的原因,那就是英特尔当时至少拥有三家300毫米直径的晶圆铸造厂,2005年年底的时候增加到五家,2007年将至少有七家。如此庞大的生产力如果都切换到Pentium M上,一片300毫米直径的晶圆用来生产90纳米的第二代Pentium M的话可以生产出最多741枚管芯,相对来说用来生产Prescott 1MB版Pentium 4的话则是568枚,2MB Prescott Penti

15、um 4是438枚,而生产130纳米的Pentium 4 XE(Gallatin微架构,实际上就是Northwood 2MB版 iL3版)是288枚。这就是说,一旦直接切换到90纳米的Pentium M(即Dothan微架构),英特尔所多家晶元厂生产出来的处理器数量将很可能达到市场消化能力的两倍甚至更多,如果只开一半的工厂,那也将是巨大的生产资源浪费。如何才能很好地利用这些生产资源呢,英特尔在左思右想中。新方向全面切换至双核、多核方案 凭借庞大生产力制造出大面积的处理器并以此获得时脉、性能、竞争上的优势,这是英特尔推出Pentium 4的背景和着力点,但是这样的优势随着耗电壁垒的出现而即将嘎然

16、而止,英特尔当初2007年推出10GHz Pentium 4的设想已经不再现实。在2003年秋季IDF(英特尔开发者论坛)上,时任英特尔首席营运总裁(COO)的Paul Otellini首次向外界表示正计划在其产品线中引入双内核(dual core)产品。2004年4月英特尔向其合作伙伴以及媒体以正式文档的方式通知,取消Prescott接替者Tejas微架构计划,转而全力推动双核以及多内核产品,这个重大的变动英特尔称之为“Right-Hand Turn”。NetBurst又或者Pentium 4微架构的不少部分晶体管都被用于拆分流水线以提高时钟频率,而英特尔现在的Right Hnad Turn方向就希望把这些晶体管用于更多的虚拟加速、安全加速以及增加更多内核上。更多的内核能够让英特尔的庞大生产能力

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号