毕业设计翻译 10031124陈扬

资源描述

《毕业设计翻译 10031124陈扬》由会员分享，可在线阅读，更多相关《毕业设计翻译 10031124陈扬（22页珍藏版）》请在金锄头文库上搜索。

1、本科生毕业设计（论文）外文科技文献译文译文题目（中文）：时钟频率的变化和多核处理器的吞吐量对模具对模具和内模参数的影响（英文）： Impact of Die-to-Die and Within-Die Parameter Variations on the Clock Frequency and Throughput of Multi-Core Processors 学院工学院专业班级 10 电子信息工程 1 班学生姓名陈扬学号 10031124 指导教师许晓洁日期 2014 年 1 月 2 日外文科技文献译文 1译文时钟频率的变化和多核处理器的吞吐量对模具对模

2、具和内模参数的影响基思答：鲍曼，会员，IEEE，阿拉河 Alameldeen，会员， IEEE，SRIKANTHT.斯里尼瓦桑，会员，IEEE，和 Chris B.威尔克森，会员， IEEE摘要一个统计性能模拟器被开发用来探索参数变化的最大时钟的影响多核的频率（ FMAX ）和吞吐量的分布处理器在将来的 22 纳米技术。该模拟器捕获的管芯到管芯（ D2D ）和内模（ WID）晶体管的影响并在关键路径延迟互连参数变化死。模拟器的一个关键组成部分是分析性的多核处理器的吞吐量模型，使计算高效，准确的吞吐量的计算，比较与周期精确模拟器的性能，对于单线程和高度并行的多线程（MT ）的工作负荷。基于以前的

3、微处理器，三角架构设计多核心处理器与任何小型，中型或大型核预计在 22 纳米技术进行调查一个广泛的设计选择。这三个多核心处理器最大吞吐量恒定的管芯面积内进行优化。传统的单核处理器也缩小到 22 纳米技术提供一个基准比较。其显著的贡献从本论文主要有： 1 ））产品层面的变化分析多核处理器必须注重吞吐量，而不是仅仅 FMAX ，和 2 ）多核心处理器更宽容的变化比单核处理器由于内存延迟的影响较大和带宽的吞吐量。为了阐明这两点，统计模拟表明，多核和单核与等效的总核心面积的处理器也有类似的 FMAX 分布（平均为 9和标准差下降5 ）为 MT 的应用。而相比之下，单核处理器，内存延迟和带宽限制显著限

4、制上 FMAX 吞吐量依赖于多核处理器，从而降低了吞吐量意味着退化和标准偏离 50为中小型核心设计，30的大型核心设计。这种改进的通量分布表明，多核心处理器外文科技文献译文 2能显著降低了产品的设计和工艺开发由于参数变化较复杂单核处理器，从而实现更快的上市时间高性能的微处理器产品。关键词：时钟频率分布，关键路径延迟的变化，裸片到裸片（ D2D ）变型中，管芯间的变化，内模的变化，最大时钟频率（ FMAX ）分布，多核，参数的波动，参数变化性能分布，通量分布，内模（WID ）的变化。1.引言微处理器一直是脆弱的参数变化在生产过程中。如收稿 2008 年 5 月 17 日，经修订的 2008 年

5、 8 月 15 日。首次出版 2009 年 5 月 19 日，公布 2009 年 11 月18 日当前版本。作者是与英特尔公司，希尔斯伯勒， OR 97124 美国（电子邮箱： keith.a.bowman ; alaa.r.alameldeen ; SRIKANTH 。t.srinivasan ; chris.wilkerson ）。数字对象标识符 10.1109/TVLSI.2008.2006057工艺技术的不断扩展，不同的晶体管和互连特性增加相对于标称设计目标。参数变化带来的不利影响在最大时钟频率（ FMAX ）和微处理器的功率也变得更加显着的技术定标1 ， 2。参数的变化可以

6、被分类分为两类：芯片对芯片（ D2D ）和内模（ WID ）。D2D 的变化，从很多到很多，晶圆到晶圆，以及所产生的在晶圆内变化的部分，影响到所有晶体管和在模具互连平分。相反，WID 的变化，由随机和系统组件，诱导不同穿过模具的电特性3。随机 WID参数变化波动随机和独立地从设备到设备（即，设备到设备相关为零）。一从重复的 WID 系统参数变化结果和指导原则，其中设备到设备的相关性根据经验确定的之间的距离的函数的设备。虽然系统 WID 的变化呈现出相关行为，这些变化的轮廓可以随机从模具更改为死亡。从设计的角度，系统地参与发展变化表现为连续的，平滑相关随机 WID 变化1 ， 3 - 6。在

7、设计高性能微处理器的重要性准确估计参数变化的影响对产品级性能直接关系到整体收入的公司。高估增加了设计的复杂性，这可能导致更高的功率消耗，增加了在设计时，增加了芯片尺寸，排斥其他好的设计方案，甚至错过外文科技文献译文 3市场窗口3。相反，低估可能危及产品性能和总产率以及增加的硅调试时间3。综上所述，高估变化影响的设计努力和低估变化影响的制造努力。在最近几代技术，多核心处理器拥有成为一个高能效的方法来设计高性能微处理器。多核心处理器采用更大于 1 芯上的管芯，其中核心和核心的数量复杂性是一个关键的设计折衷。多核心处理器可以实现比单核处理器更好的性能通过在执行线程多线程（MT）的应用整个内核平行。

8、以往的研究已经调查了 D2D 的影响，在 FMAX 和功率分布 WID 参数变单核处理器的1 ，2 ，4 ，5 ，7，8。该参数变化对功率，泄漏的地方是thedominant 变化分量，并不能从根本上改变的影响从单核到多核处理器。多核处理器可以使更精细的粒度配售部分芯片进入睡眠状态。当芯片上的所有晶体管都在一个操作模式，然而，D2D 的相对效果和在泄漏的 WID 参数变化预计是相似单核和多核处理器之间。与此相反，多核设计代表了微处理器的根本性转变从传统的单核心设计的性能，凡在 MT 应用的并行性在整个开发芯在模具中。本文的 D2D 和 WID 参数变化的影响在多核心的 FMAX 和吞吐量的分布

9、处理器 9 进行了探讨。吞吐量指标表示实际的微处理器的性能，从而提供了一个器件和电路参数的构架层次的角度来看变性。在第二节中，一个分析多核处理器通过模型推导，以实现准确的吞吐量计算对于高度并行的工作负载运行时的效率。在第三节中，三多核处理器和单核处理器预计在未来的 22 纳米技术根据历史数据和传统的比例趋势。施加的分析通过模型中，多核心处理器优化是在第四节描述，最大限度地通过三个多核心处理器。在第五节，分析通过模型集成到一个统计性能模拟器，其拍摄 D2D 的影响，并在整个模具关键路径延迟 WID 参数变化生成 FMAX 和吞吐量的分布对于给定的多核设计。在第六节，参数变化的影响在三个 FMAX

10、和吞吐量的分布和分布最佳的多核处理器和单核处理器提出。第七节最后结的关键见解。2.多核处理器的吞吐量模型外文科技文献译文 4紧凑的吞吐量分析模型推导，使多核的计算效率和精确预测处理器的吞吐量为高度并行 MT 的应用程序。自带统计性能仿真器，其中将要描述在第五部分，进行上千吞吐量计算每多核心的设计，运行时效率是一个重要的特征。出于这个原因，一个分析建模方法是理想而不是在计算上昂贵的吞吐量模拟器。吞吐量模型推导开始通过分离模面积（）在两个主要部分作为dieA(1).(2NLcoresdieA是总面积分配给内核，其中每个芯假定包含私有级（L1 ）指令和数据缓存。coresA与芯的总电平 2（L

11、2）高速 N 缓存区域共享缓存。以兆字)(2NL MBNLLAS1)(2)(2节为单位的二级缓存大小为计算公式为MBNLNLAS1)(2)(2(2)其中是每 1 字节的高速缓存区域，如由下式确定工艺技术。MBA1对于一个给定的工作负载，每个指令（CPI）的周期为一单核被建模为 (3) ).()()( 1(2clkmisLratecomFSCPII消费物价指数的计算组成部分，是核心 CPI 具有完善的 L2 缓存（即，无comCP缓存未命中）。是独立处理器的时钟频率的（ clk）。，命中率。comI )(12LmisSM是每个指令未命中的高速缓存中的数的大小。，丢失率，是平均)1(

12、2LS )(clkisFL每个 L2 高速缓存未命中周期数。是一种 l的函数。和)(clkmisFL)(clkmis的产物指内存延迟和内存带宽的组件的消费物价指数。是有效)(12LrateM )1(2LS的二级缓存大小为一个核心。如果铁心没有在高速缓存共享的代码或数据，则平均每个核心的缓存大小为整个二级高速缓存的大小。Nth/1 )/(2)1NL对于共享的代码或数据应用，工作集大小是由平均数调整（）内核共享的share 外文科技文献译文 5L2 高速缓存行的，是一个 N 函数。平均缓存大小为一个单一的核心是)(Nshare计算如10（4）)1()2)1(2 SSshareNLL投

13、影的命中率对于不同大小的高速缓存中，平方根规则的拇指是典型的应用，该款机型缓存缺失率(5)MBLrateLrate SSM1)(2)1(2/是一兆。对于一些应用，所述平方根模型（5）中比工作集模型，不准确的BS1地方的命中率保持不变，为高速缓存大小的增加，直到工作组适合在高速缓存中，随后，在命中率急剧脱落。由于高速缓存大小的命中率相关性是应用具体的，单个核心的命中率是在模拟多个高速缓存大小与工业周期精确模拟器以确定个别适当的命中率模型应用程序。根据在宽的应用范围的模拟，平方根模型提供了最准确的逼近平均命中率。建模每个周期指令（IPC）的多核处理器，有限的片外存储器带宽的影响被捕获通过分离成两

14、个分量为)(clkmisFL).()()( clklinprclkmeclkmis FLNL（6），片外 DRAM 内存延迟，计算作为周期的平均数目 DRAM 阵列中使)(clkmeFL用了取得数据。在建模外的顺序利用非阻塞核心内存级并行（MLP），是因为平均数并行内存请求（）分每个请求块中的处理器总数的)(clkme prN一小部分内存延迟11 。对于顺序阻断核心，等于之一。，总的链r )(clklinFL 外文科技文献译文 6路延迟，包括延迟 OFTHE 物理片环节，排队等待时间（例如，守候在思念处理状态寄存器（MSHRs）和总线队列）。被计算为周期为一个平均数片外)(clklinFL存储器的访问。被分离成两个分量如)(clklinFL)()(clkqclksclklink （7）和是服务和排队延迟每个高速缓存未命中，分别。是物)(clksFL)(clkq )(clksFL理片链路延时数据对面的链接遍历处理器的 DRAM 芯片和背部，在没有传输假设错误。被计算为平均排队延迟。假设物理片连接到内存代表一个)(clkqM/D/1 队列（马尔可夫到达率与要求一个确定性的服务时间和

展开阅读全文