多核与众核处理机芯片技术发展页PPT课件

上传人:工**** 文档编号:567614661 上传时间:2024-07-21 格式:PPT 页数:83 大小:7.15MB
返回 下载 相关 举报
多核与众核处理机芯片技术发展页PPT课件_第1页
第1页 / 共83页
多核与众核处理机芯片技术发展页PPT课件_第2页
第2页 / 共83页
多核与众核处理机芯片技术发展页PPT课件_第3页
第3页 / 共83页
多核与众核处理机芯片技术发展页PPT课件_第4页
第4页 / 共83页
多核与众核处理机芯片技术发展页PPT课件_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《多核与众核处理机芯片技术发展页PPT课件》由会员分享,可在线阅读,更多相关《多核与众核处理机芯片技术发展页PPT课件(83页珍藏版)》请在金锄头文库上搜索。

1、高性能多核和众核处理机高性能多核和众核处理机芯片技术发展芯片技术发展李三立教授李三立教授清华大学清华大学1引言引言o处理机永远是计算机技术和产业的重要驱动力。处理机永远是计算机技术和产业的重要驱动力。o要进一步发展千亿次(要进一步发展千亿次(Petaflops)高性能计算机,)高性能计算机,是离不开多核与众核芯片的发展的是离不开多核与众核芯片的发展的;计算机体系结构的计算机体系结构的新技术大多体现在高性能多核与众核芯片上。希望我新技术大多体现在高性能多核与众核芯片上。希望我们关注高性能计算技术的发展;们关注高性能计算技术的发展;o现在计算机体系结构是现在计算机体系结构是“系统系统”都做到都做到

2、“芯片上芯片上”去了去了(SOC)。希望我们计算机学院的)。希望我们计算机学院的“计算机组织计算机组织”和和“计算机体系结构计算机体系结构”课程的老师和学生能够在教学与学习课程的老师和学生能够在教学与学习中增加这方面内容,老师在申请自然科学基金和其它中增加这方面内容,老师在申请自然科学基金和其它科研经费方面也注意加重这方面的研究方向;科研经费方面也注意加重这方面的研究方向;o希望我们年轻教师和学生把兴趣放在这一领域,把我希望我们年轻教师和学生把兴趣放在这一领域,把我国的处理机芯片技术搞上去。国的处理机芯片技术搞上去。2我国万万亿次超级计算机我国万万亿次超级计算机CPU有望全部国产化有望全部国产

3、化 世界第一的世界第一的“天河一号天河一号”超级计算机系统采用了超级计算机系统采用了“飞腾飞腾-1000”高高性能多核微处理器。性能多核微处理器。“天河一号天河一号”:4700万亿次的峰值速度和万亿次的峰值速度和2566万亿次的持续速度万亿次的持续速度 ;1000万亿次万亿次/秒为:秒为:1Petaflops2019-3-8日环球网报道国防科大校长张育林谈话日环球网报道国防科大校长张育林谈话3我国天河一号千万亿次超级计算机我国天河一号千万亿次超级计算机世界世界500强第一名,奥巴马专门提到它强第一名,奥巴马专门提到它4世界世界500强第一名天河强第一名天河1号插件版号插件版5提纲提纲o1。多核

4、与众核处理机结构芯片技术的需要。多核与众核处理机结构芯片技术的需要o2。多核和众核体系结构处理机芯片的发展。多核和众核体系结构处理机芯片的发展o3。异构多核众核结构芯片。异构多核众核结构芯片o4。片上系统片上系统SOC互联网络的发展互联网络的发展o5。微电子工艺的进一步发展。微电子工艺的进一步发展o6。未来。未来exaFlops高性能计算机芯片预测高性能计算机芯片预测o7。结论。结论6(一)。(一)。多核与众核处理机多核与众核处理机结构芯片技术的需要结构芯片技术的需要77/21/20248 8高性能计算应用需求高性能计算应用需求1 Zettaflops100 Exaflops10 Exaflo

5、ps1 Exaflops100 Petaflops10 Petaflops1 Petaflops100 TeraflopsSystem PerformancePlasma Fusion Simulation Jardin 03Simulation of more complex biomolecular structures200020202019No schedule provided by sourceApplicationsJardin 03 S.C. Jardin, “Plasma Science Contribution to the SCaLeS Report,” Princeto

6、n Plasma Physics Laboratory, PPPL-3879 UC-70, available on Internet.Malone 03 Robert C. Malone, John B. Drake, Philip W. Jones, Douglas A. Rotman, “High-End Computing in Climate Modeling,” contribution to SCaLeS report.NASA 99 R. T. Biedron, P. Mehrotra, M. L. Nelson, F. S. Preston, J. J. Rehder, J.

7、 L. Rogers, D. H. Rudy, J. Sobieski, and O. O. Storaasli, “Compute as Fast as the Engineers Can Think!”NASA/TM-2019-209715, available on Internet.NASA 02 NASA Goddard Space Flight Center, “Advanced Weather Prediction Technologies: NASAs Contribution to the Operational Agencies,” available on Interne

8、t.SCaLeS 03 Workshop on the Science Case for Large-scale Simulation, June 24-25, proceedings on Internet a pnl.gov/scales/.DeBenedictis 04, Erik P. DeBenedictis, “Matching Supercomputing to Progress in Science,” July 2019. Presentation at Lawrence Berkeley National Laboratory, also published asSandi

9、a National Laboratories SAND report SAND2019-3333P. Sandia technical reports are available by going to sandia.gov and accessing the technical library.HEC04 Federal Plan for High-End Computing, May, 2019.Compute as fast as the engineer can thinkNASA 99 100 1000 SCaLeS 03 Geodata Earth Station Range N

10、ASA 02Full Global Climate Malone 03 Courtesy of Erik P. DeBenedictis simulation of medium biomolecular structures (us scale) simulation of large biomolecular structures (ms scale)protein folding50 TFLOPS250 TFLOPS1 PFLOPSHEC04cpeg421-2019-F/Topic-3-I等离子体等离子体全球气候模型全球气候模型海量海量地球地球数据数据更复杂生物更复杂生物分子结构模拟分子

11、结构模拟蛋白质结构蛋白质结构生物生物分子分子结构结构系统性系统性能能应用应用1万万万亿万亿次次100万万万亿次万亿次1000万万亿万万亿次次8晶体管数目增长晶体管数目增长-Intel320亿晶体管亿晶体管9芯片上频率不能持续增长芯片上频率不能持续增长功耗问题功耗问题停顿了停顿了10功耗引起发热直观图片11CPU的水冷和风冷的水冷和风冷水冷系水冷系统统风风冷系冷系统统12解决功耗增长和晶体管增长的矛盾解决功耗增长和晶体管增长的矛盾o解决方案:解决方案:新制造材料;新制造材料;新制冷技术;新制冷技术;多核和众核体系结构多核和众核体系结构13多核和众核的发展对于性能的影响多核和众核的发展对于性能的影

12、响多核三年的变化多核三年的变化性性能能年份年份Intel着重在着重在PC机发展机发展14体系结构进展:体系结构进展:单核单核多核多核众核众核-片上互联片上互联1993, Pentium2019, Pentium MMX2019, Pentium II2019, Pentium III2019, Tualatin2019, Pentium 4Northwood2019, Pentium D2019, Core 2 Duo (Conroe)2019, Core 2 Quad(Kentisfield)2019, TeraScale 80-core prototypeSingle core with

13、increased performanceMulticore processor with more and more cores!Key for Multicore:Interconnection15AMD通用通用单核的内部结构单核的内部结构 AGUAGUInt Decode & RenameFADDFMISCFMUL44-entryLoad/StoreQueue36-entry FP schedulerFP Decode & RenameALUAGUALUMULTALUResResResL1Icache64KBL1Dcache64KBFetchBranchPredictionInstruc

14、tion Control Unit (72 entries)FastpathMicrocode EngineScan/Align/Decodeops取指取指转移转移预测预测微码微码硬布线硬布线微操作微操作数据缓存数据缓存指令缓存指令缓存16AMD双核芯片的布局双核芯片的布局o双核双核AMDOpteron处理机处理机o199mm290nm工艺工艺o单核单核AMDOpteron处理机处理机o193mm2130nm工艺工艺17AMDOpteron的多核架构的多核架构18Intel多核与众核解决路线多核与众核解决路线2005200920062008200720102004201120122013201

15、420152016201720182019202012481625632641285121024Pentium DCore DuoCore 2 DuoConroe, Allendale, Wolfdale, Merom, PenrynCore 2 DuoKentsfield, YorkfieldCore i7Sandy BridgePolaris TeraScale80 Cores / 80 ThreadsSingle Chip Cloud Computing48 Cores / 48 ThreadsKnight Corner50 Cores / 200 ThreadsCommercial P

16、athResearch PathNehalem核核数数商业路径商业路径研究路径研究路径19Intel的的Nehalem多核结构多核结构要有图形要有图形核核快速快速通道通道接口接口20Intel的的Nehalem四核芯片布局四核芯片布局快快速速通通道道连连接接96GB/S 快快速速通通道道连连接接96GB/S21IntelNehalem多核处理机层次式存储结构多核处理机层次式存储结构CPU Core32KB L1 D$32KB L1 I$256KB L2$8MB Shared L3$CPU Core32KB L1 D$32KB L1 I$256KB L2$4-8 CoresDDR3 DRAM M

17、emory ControllersQuickPath System InterconnectEach direction is 20b6.4Gb/sEach DRAM Channel is 64/72b wide at up to 1.33Gb/sQPI是重是重要特点要特点22Intel通用通用Nehalem的单核结构的单核结构预取缓冲预取缓冲预译码预译码指令队列对准指令队列对准转移预测转移预测循环流译码循环流译码快速通道访存快速通道访存QPI乱序执行缓冲乱序执行缓冲第三级第三级Cache23J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAM

18、J JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASOND J FMAMJ JASONDPower4 (2019)1.1 to 1.3 GHz(1)(2)(2)Power4+ (2019)1.9 GHz(1)(2)(2)Power5 (2019)1.5-1.9 GHz(1)(2)(4)Power5+ (2019)1.5-2.26 GHz(1)(2)(4)CBE (2019)3.2 GHz(1)(9)(10)PowerXCell8i (2019)3.2GHz(1)(9)(10)Xenon

19、(2019)3.2 GHz(1)(3)(6)Power63.5-4.7 GHz(1)(2)(4)Power6+5 GHz(1)(2)(4)Power6+5 GHz(1)(2)(4)Pentium D3.8 GHz(1)(2)(4)Core 21.8-3.2 GHz(1)(4)(8)Dual Core Atom0.8-2.06 GHz(1)(2)(2)Sandy Bridge4.6 GHz(1)(8)(16)Xeon2.863.56 GHz(1)(2)(2)Xeon Quad Code2.133.56 GHz(1)(4)(8)Xeon Beckton2.83.56 GHz(1)(8)(16)Co

20、re 7i2.663.33 GHz(1)(4)(8)Opteron Denmark1.6-2.8GHz(1)(2)(2)Opteron Barcelona1.76-2.6GHz(1)(4)(4)Opteron Istanbul2.26-2.66GHz(1)(6)(6)Opteron Sao Paolo?(1)(6)(6)Opteron Magny Cours?(1)(12)(12)Opteron Interlagos?(1)(16)(16)Ultra SPARC IV1-1.356 GHz(1)(2)(2)Ultra SPARC IV+1.5-2.16 GHz(1)(2)(2)Ultra SP

21、ARC T11-1.46 GHz(1)(4)(32)Ultra SPARC T21-1.66 GHz(1)(8)(64)Ultra SPARC VII2.4-2.56 GHz(1)(4)(16)Ultra SPARC VIIIfx2.4-2.56 GHz(1)(8)(16)IBMSUN / ORACLEAMDINTEL20192019201920192019201920192019200920192019NameHertz(Processor)(Cores)(Threads)7/21/202424JPL-Dec-01-2009Chips with 8 physical cores or mor

22、e其他公司多核其他公司多核/众核发展计划众核发展计划24晶体管数(千)单线程性能单线程性能(SpecINT)频率(MHz)典型功耗(瓦瓦)核数目小结:小结:35年处理机发展综合趋势年处理机发展综合趋势25(二)。多核和众核体系结构(二)。多核和众核体系结构处理机芯片的发展处理机芯片的发展26为何要多核?为何要多核?CoreCacheCoreCacheCoreVoltage = 1Freq = 1Area = 1Power = 1Perf = 1Voltage = -15%Freq = -15%Area = 2Power = 1Perf = 1.8In the same process tech

23、nology27GPGPGPGPGPGPGPGPGPGPGPGPGeneral Purpose Cores进一步多核异构芯片进一步多核异构芯片-SOCSPSPSPSPSpecial Purpose HWCCCCCCCCCCCCCCCCInterconnect fabricHeterogeneous Multi-Core PlatformSOCHeterogeneous Multi-Core PlatformSOC通用核通用核专用硬件专用硬件互联网络互联网络28多核技术将要多样化多核技术将要多样化!Multipleparallelgeneral-purposeprocessors(GPPs)Mu

24、ltipleapplication-specificprocessors(ASPs)Sun Niagara8 GPP cores (32 threads)IntelXScale Core32K IC32K DCMEv210MEv211MEv212MEv215MEv214MEv213Rbuf64 128BTbuf64 128BHash48/64/128Scratch16KBQDRSRAM2QDRSRAM1RDRAM1RDRAM3RDRAM2GASKETPCI(64b)66 MHzIXP28IXP28000016b16b16b16b1 18 81 18 81 18 81 18 81 18 81 1

25、8 81 18 864b64bSPI4orCSIXStripeE/D QE/D QQDRSRAM3E/D Q1 18 81 18 8MEv29MEv216MEv22MEv23MEv24MEv27MEv26MEv25MEv21MEv28CSRs -Fast_wr-UART-Timers-GPIO-BootROM/SlowPortQDRSRAM4E/D Q1 18 81 18 8Intel Network Processor1 GPP Core16 ASPs (128 threads)IBM Cell1 GPP (2 threads)8 ASPsPicochip DSP1 GPP core248

26、ASPsCisco CRS-1188 Tensilica GPPs处理机上有处理机上有上千个线程上千个线程处理机就是摩尔定理中的处理机就是摩尔定理中的晶体管晶体管“The Processor is the new Transistor” Rowen29AMD做的做的GPU多核多核SIMD芯片结构芯片结构30多核伴随指令的扩展多核伴随指令的扩展-加速加速31众核处理机结构众核处理机结构3232Intel Terascale 80 核处理机Tilera 64核处理机云存储服云存储服务器务器无线网络无线网络32NVIDIAsFermiGPUarchitectureconsistsof16stream

27、ingmultiprocessors(SMs),eachconsistingof32cores,eachofwhichcanexecuteonefloating-pointorintegerinstructionperclock.TheSMsaresupportedbyasecond-levelcache,hostinterface,GigaThreadscheduler,andmultipleDRAMinterfaces.NVIDIA的新的新GPU众核芯片众核芯片FERMI结构结构SM32核核33EachFermiSMincludes32cores,16load/storeunits,fou

28、rspecial-functionunits,a32K-wordregisterfile,64KofconfigurableRAM,andthreadcontrollogic.Eachcorehasbothfloating-pointandintegerexecutionunits寄存器堆寄存器堆32K字字浮点浮点定点定点每个每个CUDA核核34多核芯片的片上、片外访存速度多核芯片的片上、片外访存速度设计考虑设计考虑(数据访问速度数据访问速度MemoryWall)处处理理部部件件64 寄存器寄存器片上片上Cache16MB/32KBLoad 1, Store 11.92TB/sLoad 2,

29、Store 1640GB/s片外片外静态静态CacheSRAM 2.5MB Load 20 cycles, Store 10 cycles 320GB/s (片外差(片外差6倍)倍)板外动板外动态存储态存储器器DRAM16GBLoad 36 cycles, Store 18 cycles 16GB/s (板外差(板外差120倍)倍)35(三)。异构多核结构芯片(三)。异构多核结构芯片36为什么要发展异构众核芯片为什么要发展异构众核芯片o1。要研制千万亿次。要研制千万亿次(PetaFlops)高性能计算机,单靠高性能计算机,单靠Intel或或AMD通用同构型众核芯片是不行的,必须要有通用同构型众

30、核芯片是不行的,必须要有加速器加速器;o2。同构众核芯片又会遇到功耗问题,每个核都要有它。同构众核芯片又会遇到功耗问题,每个核都要有它Cache等配合硬件;因此,加速器要用较大量的等配合硬件;因此,加速器要用较大量的“小核小核”;o3。如果。如果CPU和和GPU芯片合用,因为芯片合用,因为GPU要求大量数据,所要求大量数据,所以在芯片之间以在芯片之间传送大量数据,是瓶颈传送大量数据,是瓶颈,很难达到峰值;,很难达到峰值;o4。因此,。因此,CPU和和GPU应该做在一个芯片上,芯片上的数据应该做在一个芯片上,芯片上的数据传输频带要宽很多;更进一步,传输频带要宽很多;更进一步,GPU仍然有编程困难

31、仍然有编程困难的问题,的问题,如有针对专门用途的、算法和编程都比较能简化的小核,更为如有针对专门用途的、算法和编程都比较能简化的小核,更为合适。合适。另一个办法是在众核中扩充指令、实现加速。另一个办法是在众核中扩充指令、实现加速。o5。高性能计算机有分向的趋势,一般通用。高性能计算机有分向的趋势,一般通用HPC用现有的刀片用现有的刀片式服务器、再加上式服务器、再加上Infiniband就可以很快造成,价廉、研制就可以很快造成,价廉、研制速度快;而自己专门设计板级产品的、几个速度快;而自己专门设计板级产品的、几个PetaFlops的的HPC一般都只能针对一、二种应用,有一般都只能针对一、二种应用

32、,有专用化专用化的趋势。的趋势。37Enabled by: Moores Law Voltage ScalingSingle-Core EraMulti-CoreEraHeterogeneousSystems EraEnabled by: Moores Law Desire For Throughput20 years of SMP archPowerParallel SW availabilityPerformance ScalabilityMicro-Architecture受限于:受限于: Power Complexity受限于:受限于: Enabled by: Moores Law A

33、bundant data parallelism Power efficient GPUs当前受限于:当前受限于: Programming models Communication overheads处理机性能的三个时代处理机性能的三个时代单单线线程程性性能能吞吞吐吐率率性性能能针针对对应应用用目目标标的的性性能能We are hereWe are hereWe are here?单核单核多核多核异构异构38IBM异构型异构型Cell-NOC:八个八个64位向量部件位向量部件SXU和标量部件和标量部件PXUCell处理机处理机39Observed clock speed: a wide ran

34、ge of operating frequencies are supported to optimize for power and yield; Peak performance (single precision): 256 GFlopsPeak performance (double precision): 26 GFlopsIBM Cell 异构多核处理器结构详细结构图异构多核处理器结构详细结构图双精度双精度单精度单精度向量部件向量部件SIMD标量部件标量部件互联网络互联网络40下一步:千万亿次高性能计算机怎么办?下一步:千万亿次高性能计算机怎么办?Intel 或或 AMD通用通用处

35、理机再多,也无法达到;处理机再多,也无法达到;只有具有只有具有加速器加速器功能的功能的异构异构众核处理机芯片才可以达到!众核处理机芯片才可以达到!硬件可以达到,软件没有充硬件可以达到,软件没有充分准备好(分准备好(我们大学以后不我们大学以后不一定造一定造HPC机器,可以搞软机器,可以搞软件,和结合算法的软件)件,和结合算法的软件)。41GPU对于超级计算机并非理想对于超级计算机并非理想oGPU对于高性能计算的编程不适当,解决办法是把对于高性能计算的编程不适当,解决办法是把CPU和和GPU结合结合。 oJackDongarra说:说:“The obvious upside of GPUs is

36、that they provide compelling performance for modest prices. The downside is that they are more difficult to program, since at the very least youwillneedtowriteoneprogramfortheCPUsandanotherprogramfortheGPUs. Another problem that GPUs present pertains to the movement of data. Any machine that require

37、s alotofdatamovementwillnevercomeclosetoachievingitspeakperformance. The CPU-GPUlinkisathinpipe, and that becomes the strangle-point for the effective use of GPUs. In the future this problem will be addressed by having the CPU and GPU integrated in a single socket。”42Cell处理机对于高性能计算机已经死亡处理机对于高性能计算机已经

38、死亡oCellisDeadforHPCoChips that contain both x86 general processing cores as well as graphics processing cores are essentially heterogeneous multi-core processors, which AMD calls Fusion. The vast majority of multi-core chips today are homogenous chips that contain a number of similar processing engi

39、nes. There are processors with different types of cores the Cell chips jointly developed by IBM, Sony Corp. and Toshiba Corp. which originally promised to redefine the market of multimedia chips as well as CPUs for HPC market. However, since allthreecompaniesceasetodevelopCell,ithasnofuture.oJackDon

40、garra说说:“TheCellarchitectureisnolongerbeingdeveloped,soitiseffectivelydead.NonewsupercomputerswilluseCell。”43CPUmulti-threadingmulti-coremany-corefixed functionpartially programmablefully programmable?programmabilityparallelismA Likely Trajectory - Collision or Convergence?CPUGPUmulti-threadingmulti

41、-coremany-corefixed functionpartially programmablefully programmablefuture processor by 2019?programmabilityparallelismafter Justin Rattner, Intel, ISC 2019未来可能未来可能的轨迹的轨迹多线程多线程多核多核众核众核全部可编程全部可编程部分可编程部分可编程并行度并行度可可编编程程度度通用性和并行度的结合通用性和并行度的结合-异构众核异构众核44IBMCyclops-64(C64)芯片)芯片体系结构体系结构On-chip bisection BW

42、 = 0.38 TB/s, total BW to 6 neighbors = 48GB/sec80个核个核45异构型处理机构成异构型处理机构成1.1PetaFlops 超级计算机的组装超级计算机的组装46其他多用途的异构多核芯片oCombinationofdifferentcoresoTwomainoptions:oDifferenttypesoMicrocontroller+DSP,Processor+Accelerator.oDifferentperformanceoBigprocessor+smallprocessoroAdvantagesoProcessorscanbeoptimiz

43、edfordifferenttasksoOperatingsystem,multimedia,graphics,lowpowerappsoProcessorsaredecoupledoIndependentSWdevelopmentoDisadvantagesoDifferentarchitectures-moretolearn.oDifferenttoolsoMorecomplexSW47Texas的用于的用于移动终端移动终端的异构多核结构芯片的异构多核结构芯片各个核并行执行不同的任务,各个核并行执行不同的任务,可用在可用在移动终端移动终端48(四)。片上系统(四)。片上系统SOC互联网络的

44、发展互联网络的发展49NOC的发展的发展片上互联网络随工艺进步而发展片上互联网络随工艺进步而发展片上互联必然发展到片上互联必然发展到NOC(NetworkOnChip)80386奔腾奔腾多核多核50片上众核系统的互联网络之一片上众核系统的互联网络之一片上众核片上众核 + 通道通道SOC上面:上面:P是处理机的核是处理机的核51片上众核系统的互联网络之二片上众核系统的互联网络之二片上众核片上众核 + 通道通道 + 路由器路由器R路由器结构图路由器结构图开关开关52片上互联网络的两种典型拓扑结构片上互联网络的两种典型拓扑结构Torus 拓扑结构拓扑结构Mesh 拓扑结构拓扑结构53时钟:时钟:NO

45、C的的SOC的片上时钟是的片上时钟是分布分布式的式的RRRRRRRRRRRRRRRR每一个颜色块代每一个颜色块代表一个时钟域表一个时钟域两种研究领域两种研究领域: 非同步路由器非同步路由器 设计简单,低设计简单,低功耗功耗 非同步互联非同步互联 高频宽,低功高频宽,低功耗耗图中图中R是是NOC路由器路由器54未来Exa-Scale片上网络NOCParallelismreplacesclockfrequencyscalingandcorecomplexityResulting ChallengesuScalabilityuProgramminguPower55未来Exa-Scale片上网络NOC

46、Unpredictable Traffic LoadApplication2Application1ConventionalNoC System(number of cores102)TimeExa-Scale Micro-Networking System(number of cores:102104)UnbalancedResource AllocationScalabilityGood Performance onSmall-Scale NetworkFaulty Router & LinkComplex Design & VerificationNoC FeaturesRegular

47、ArchitecturePacket-based TransmissionFlexible Bandwidth Utilization56MIT:对于众核结构的分析和考虑:对于众核结构的分析和考虑u阵列式上千个小核可以解决芯片面积和阵列式上千个小核可以解决芯片面积和扩展性问题,但是,编程将成为难于逾扩展性问题,但是,编程将成为难于逾越的壁垒;越的壁垒;u上千个核的并行化应用是非常艰难的:上千个核的并行化应用是非常艰难的:1.任务和数据的划分;任务和数据的划分;2.通信会导致延迟的增加;通信会导致延迟的增加;3.较远距离的通信会引起沿路上的资源竞争;从而较远距离的通信会引起沿路上的资源竞争;从而

48、降低功能增加功耗;降低功能增加功耗;4.没有有效的广播式通信(硅片上金属线太长)。没有有效的广播式通信(硅片上金属线太长)。57MIT:对于众核结构的分析和考虑:对于众核结构的分析和考虑u为提高上千众核芯片性能,必须为提高上千众核芯片性能,必须有效管理通信有效管理通信和和局域性局域性:p任务和数据两者都要优化划分和(位置)置放:任务和数据两者都要优化划分和(位置)置放:分析通信模式以便使延迟最小化;分析通信模式以便使延迟最小化;数据必须放在经常使用它的执行部件附近;数据必须放在经常使用它的执行部件附近;某些常用程序要靠近某些常用程序要靠近DRAM和和I/O;p动态的和不可预测的通信是很难优化的

49、;动态的和不可预测的通信是很难优化的;u为此,为此,MIT提出用提出用广播式光通信广播式光通信代替电连线的代替电连线的阵列式通信:阵列式通信:广播式通信广播式通信容易实现容易实现共享存储共享存储模式,从而易于编程;模式,从而易于编程;减少减少局域性的管理局域性的管理;价廉而且功耗小。价廉而且功耗小。技术基础研究的好题目技术基础研究的好题目5859ATAC Architecturepswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswitchmpswit

50、chmpswitchmpswitchmOptical Broadcast WDM InterconnectElectrical Mesh InterconnectMIT麻省理工学院提出麻省理工学院提出的上千个众核芯片上的的上千个众核芯片上的广播式光通信广播式光通信ATAC电连线的阵列电连线的阵列式互联网络式互联网络广播式光通广播式光通信互联网络信互联网络59MIT提出的众核芯片提出的众核芯片广播式光通信广播式光通信的优点的优点o光导通过众核芯片上光导通过众核芯片上的每一个核;的每一个核;o光导的不同波长可以光导的不同波长可以完全消除资源竞争;完全消除资源竞争;o型号全部可以在型号全部可以在2n

51、s到达所有上千个到达所有上千个核核o所有核都可以接收到所有核都可以接收到同样的信号,实现真同样的信号,实现真正的广播式传播。正的广播式传播。广播式光通信互联托扑结构广播式光通信互联托扑结构60(五)。微电子工艺的(五)。微电子工艺的进一步发展进一步发展61Terascale Integration CapacityTotal Transistors,300mm2 die1.5B LogicTransistors100MB Cache片上集成度到几千亿个晶体管片上集成度到几千亿个晶体管62Freq scaling will slow downFreq scaling will slow down

52、V Vdddd scaling will slow down scaling will slow downPowerwillbetoohighPowerwillbetoohigh300mm2 Die频率频率、电压电压和和功耗功耗的扩展性问题的扩展性问题频频率率电电压压功功率率63连线:连线:芯片工艺线条变细引起的问题:芯片工艺线条变细引起的问题:影影响响时钟分布、延迟设计、互联结构等等时钟分布、延迟设计、互联结构等等金属层金属层4金属层金属层3金属层金属层2金属层金属层164Package封装问题:封装问题:System in a Package系统系统Limited pins: 10mm /

53、 50 micron = 200 pinsLimited pinsSignal distance is large 10 mm higher powerComplex package65从两维到三维的从两维到三维的SOC20个芯片堆叠(TSV)66Package散热问题散热问题:Anatomy of a Silicon ChipHeat-sinkHeatPowerSignals67PackageDRAM at the BottomHeat-sinkPower and IO signals go through DRAM to CPUThin DRAM dieThrough DRAM viasT

54、he most promising solution to feed the beast68(六)。未来(六)。未来exaFlops高性高性能计算机芯片预测能计算机芯片预测69PetaFlops以后的进展以后的进展oThefirst10to20petaflop/ssupercomputersshouldbeinserviceby2019andafterthatcomesamachineinthe100petaflop/srange(2019).Scientistsaremoderatelyoptimisticthatexaflop/s(1000petaflop/s)mainframescanb

55、econstructedby2018-2020.However,aresomeoftheseexpectationsjustplainirrational?(2019:1-2万万次);(万万次);(2019:10万万次);(万万次);(2018-2020:100万万次)万万次)oNumberofcoresperchipwilldoubleeverytwoyearsClockspeedwillnotincrease(possiblydecrease)NeedtodealwithsystemswithmillionsofconcurrentthreadsNeedtodealwithinter-ch

56、ipparallelismaswellasintra-chipparallelismothefuturemachinesarchitecture.Atbest,itwillrequire20Megawattstorun.Sogettingtotheexaflop/slevelorbeyondmaybeextremelydifficult.o500xperformance(peak)100xmemory5000xconcurrency3xpoweroSpecializedsoftwarewillbeneededtobestmakeuseofthemassiveparallelism.oArgon

57、nesLeadershipComputingFacility(ALCF)willinstallMira,anextgenerationBlueGenesystem(BG/Q),in2019.TheALCFsstatedrequirementsforthe10petaflopssystemincludeapproximately0.75millioncoresand0.75petabytesofmemory,with16coresand16gigabytesofmemorypernode.70$200M,20MWatt,64PBofRAM的的exaFlops高性能计算机高性能计算机o“The c

58、urrent memory paradigm is hierarchical, based on registers,L1andL2caches, localmemory,sharedmemory,anddistributedmemoryamongnodes. That is a potential model for exaFLOPS systems. However, we want exaFLOPS systems to be designed to be relatively easy to program. We therefore want a globallysharedaddr

59、essspace(全局地址空间全局地址空间), and explicitmethodstopassdatabetweentheprocessors in order to orchestrate the unfolding computation. That paradigm may be necessary for a machine that has a billionthreads(百万线程百万线程)” 71预计的两种预计的两种exaFLOPSHPC途径途径“Therearetwomodelsthatwecanusetogettoanexaflopwhilestayingwithina2

60、0megaWbudget.Thefirstmodelemployshugenumbersoflightweightprocessors,suchasIBMBlueGeneProcessorrunningat1.0GHz.Ifweuse1millionchips,andeachchiphas1000cores,thenwecangettoapotentialbillionthreadsofexecution.TheotherapproachisahybridthatmakesextensiveuseofcoprocessorsorGPUs.Itwouldusea1.0GHzprocessoran

61、d10000floatingpointunitspersocket,and100000socketspersystem,” 72IBMMIRA1万万亿次超级计算机万万亿次超级计算机oscientistswillhavetoscaletheircurrentcomputercodestomorethan750,000individualcomputingcores,providingthempreliminaryexperienceonhowscalabilitymightbeachievedonanexascale-classsystemwith100sofmillionsofcores.oD

62、espiteapopulartrendtousebothcentralprocessingunits(CPUs)andgraphicsprocessingunits(GPU),theMirawillbebasedonlyonIBMsPowerPCchips.oTheIBMBlueGene/Qsupercomputerdesignisbasedonsixteen-coreIBMPowerPCA2chipwith4-waysimultaneousmulti-threadingtechnology.Eachprocessorhasatleast1GBofDDR3memory.Featuring750

63、thousandprocessingcores,thenewsupercomputerwillbecooled-downusingaspecialwater-coolingsystem.IBMBlue/GeneQ-USDepartmentofEnergys(DOE)ArgonneNationalLaboratoryIBM要为要为LaurenceLivermore国家实验室做国家实验室做20PetaFlops的的Sequoia,IBM把把Blue/Gene结构发展到结构发展到50Petaflops和和100Petaflops73Mira10PetaFlops的的PowerPCA2处理机处理机oP

64、owerPCA2是具有高度多核和多线程能力的是具有高度多核和多线程能力的64位位Power架构的处架构的处理器。理器。IBM称之为称之为“线速处理器线速处理器”,他被设计为进行切换和路由工作,他被设计为进行切换和路由工作的传统网络处理器与处理和封装数据的典型服务器处理器的混合体。以的传统网络处理器与处理和封装数据的典型服务器处理器的混合体。以A2核心为基础的处理器版本从核心为基础的处理器版本从16核心核心,2.3G频率频率,65W功耗到一功耗到一个个4核心,核心,1.4G频率,频率,20W功耗。功耗。每一个每一个A2核心可以同时执行核心可以同时执行4个多线个多线程(补充:程(补充:Intel的

65、超线程是两个)。每个核心有的超线程是两个)。每个核心有8M缓存,并且除了缓存,并且除了通用计算处理器外,还有一系列任务通用计算处理器外,还有一系列任务专用引擎,例如专用引擎,例如XML,加密解密,加密解密,压缩和传统的压缩和传统的表达加速表达加速,4个个10G以太网接口以太网接口和和2个个PCIe线路。不需线路。不需要其他支持芯片的情况下,最多可以链接有四个芯片为要其他支持芯片的情况下,最多可以链接有四个芯片为SMP(对称多(对称多处理器)系统处理器)系统。这些芯片据说极其复杂,使用了这些芯片据说极其复杂,使用了14亿亿3千万的晶体管千万的晶体管,在,在45纳米制程纳米制程下核心大小下核心大小

66、428平方毫米。平方毫米。注:线速处理器注:线速处理器“wire-speedprocessor”.指处理器的数据吞吐指处理器的数据吞吐量和通信标准的数据量相当。此概念量和通信标准的数据量相当。此概念IBM解释为,处理器不再是消化解释为,处理器不再是消化数据的地方,即数据停滞。而是一个过滤或者修改数据并再发送的地方。数据的地方,即数据停滞。而是一个过滤或者修改数据并再发送的地方。74IBMPowerPCA2的体系结构的体系结构PLLPLLPLLPLLPLLEnginePLLPLLPLLPLLPLLPatternAccessx8 PHYx8 PHYx4 PHYx8 PHYEI3EI3EI3Misc

67、 I/O4x 10GE MAC or4x 1GE MACPervasivePCI ExpGen 2PCI ExpGen 2Host Ethernet Controller / Packet ProcessorRootEngineRoot/EP EnginePbusMacroPBus ExternalControllerPBICPBICPBusPBICPBICComp / DecompCryptoXMLMCMCMem PHYMem PHYAT32MB L2AT22MB L2AT12MB L2AT02MB L2加加速速器器75IBMPowerPCA2的加速和互联的加速和互联四个芯片互联成四个芯片互

68、联成SMP4 Channels 800-1600MHzTechnologyIBM 45nm SOICore Frequency2.3GHz 0.97V (Worst Case Process)Chip size428 mm2 (including kerf)Chip Power (4-AT node) Chip Power (1-AT node)65W 2.0GHz, 0.85V Max Single Chip20W 1.4GHz, 0.77V Min Single ChipMain Voltage (VDD)0.7V to 1.1VMetal Layers11 Cu (3-1x, 2-1.3

69、x, 3-2x, 1-4x, 2-10x)Latch Count3.2MTransistor Count1.43BA2 Cores / Threads16 / 64L1 I & D Cache16 x (16KB + 16KB) SRAML2 Cache4 x 2MB eDRAMHardware AcceleratorsCrypto, Compression, RegX, XMLIntelligent NetworkInterfacesHost Ethernet Adapter/Packet Processor2 Modes: Endpoint & NetworkMemory Bandwidt

70、h2x DDR3 controllersSystem I/O Bandwidth4x 10G Ethernet, 2x PCI Gen2Chip-to-Chip Bandwidth3 Links, 20GB/s per linkChip Scaling4 Chip SMPPackage50mm FCPBGA (4 or 6 layers)76AcceleratorUnitAlgorithm# ofEnginesProjected BandwidthTypicalPeakHEAnetwork node mode440 Gbps40 Gbpsendpoint mode440 Gbps40 Gbps

71、Compressiongzip (input bandwidth)18 Gbps16 Gbpsgunzip (output bandwidth)18 Gbps16 GbpsEncryptionAES341 Gbps60 GbpsTDES819 GbpsARC415.1 GbpsKasumi15.9 GbpsSHA623-37 GbpsMD5631 GbpsAES/SHA319-31 GbpsRSA/ECC (RSA with 1024/2048 bit key)345000/7260XMLCustomer workload410 Gbps30 GbpsBenchmark workload420

72、 GbpsRegXFor typical pattern sets820-40 Gbps70 GbpsIBMPowerPCA2加速器设计加速器设计压缩压缩解密解密77Blue/GeneP(3.56Petaflops)机箱装配图机箱装配图78Nvidia要做要做20万亿次万亿次/秒的秒的GPU芯片芯片-Echelon128SM,1024streamcores,2.6Peta/racktheEchelondesignincorporatesalargenumber(1024)ofstreamcoresandasmaller(8)numberoflatency-optimizedCPU-likeco

73、resonasinglechip,sharingacommonmemorysystem.Justlikeincurrentarchitectures,eightstreamcoreswillformastreamingmultiprocessor(SM)and128ofSMswillforumthelargepoolofthroughput-optimizedprocessingelements.Suchachipcoulddeliver20teraFLOPSwithdoubleprecisionandanumberofthemwillforma2.6petaFLOPSrack.Atprese

74、ntNvidiaFermi(GF110)chip512withstreamprocessorsoperatingat1544MHzcandeliver0.79TFLOPSofDPcomputeperformance.Considerintthe25timesdifferenceinperformance,itishighlylikelythattheEchelonwillemploypost-Maxwell(20192019)NvidiaGPUdesign.79功耗和光纤互联功耗和光纤互联Inordertokeeppowerconsumptionofsuchachiprelativelylow

75、,streamprocessorshavetoprocessadouble-precisionfloatingpointoperationusingjust10picojoulesofpower,downfrom200picojoulesonNvidiascurrentFermichips,EETimesweb-sitequotedMr.Dallyassaying.Tofacilitatethatdropinenergyconsumption,eachof1024streamprocessorsperchiphavetoperformfourFLOPSpercycle.飞龙互联网络飞龙互联网络

76、80EXaFlops:模块:模块20TF,机柜,机柜2.56PFTofurthertrimusageofpower,Nvidiaintendstointegratealarge(1024)numberofconfigurable256KBSRAMbanksintothechip.Thehugeamountofon-chipmemoryshouldallowtokeepasmanydataonboardaspossibleandasclosetoprocessingelementsaspossibletoavoidpower-costlyfetchingoperationswheredoable

77、.AtpresenttheEchelonisonlyaresearchprojectandnotachipfromNvidiasroadmap.Fromsomepointofview,theEchelonismuchlikeIntelssingle-chipcloudcomputer(SCC)whichbelongstoTera-Scaleresearchproject.81结论:结论:o1。我国要进一步发展千万亿次高性能计算机,必须。我国要进一步发展千万亿次高性能计算机,必须自己发展多核与众核处理机芯片;自己发展多核与众核处理机芯片;o2。对于一些有专门用途的千万亿次高性能计算机,。对于一些

78、有专门用途的千万亿次高性能计算机,尤其要注意发展尤其要注意发展异构众核异构众核结构的处理机芯片,即几个结构的处理机芯片,即几个通用大核、上百个加速小核;既可以加速,又易于编通用大核、上百个加速小核;既可以加速,又易于编程;还要注意异构众核的互联网络连接技术;程;还要注意异构众核的互联网络连接技术;o3。也可以发展。也可以发展同构众核、指令扩展加速同构众核、指令扩展加速的处理机;的处理机;o4。发展异构众核处理机,不仅是硬件设计和芯片设。发展异构众核处理机,不仅是硬件设计和芯片设计问题,关键在于对于软件必须更加重视。计问题,关键在于对于软件必须更加重视。o5。大学生课程内容要更新、大学教师在申请自然科。大学生课程内容要更新、大学教师在申请自然科学基金和科研经费时供参考。学基金和科研经费时供参考。82谢谢!谢谢!83

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号