多核处理器体系结构分析

上传人:ap****ve 文档编号:119568379 上传时间:2020-01-19 格式:PPT 页数:55 大小:1.82MB
返回 下载 相关 举报
多核处理器体系结构分析_第1页
第1页 / 共55页
多核处理器体系结构分析_第2页
第2页 / 共55页
多核处理器体系结构分析_第3页
第3页 / 共55页
多核处理器体系结构分析_第4页
第4页 / 共55页
多核处理器体系结构分析_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《多核处理器体系结构分析》由会员分享,可在线阅读,更多相关《多核处理器体系结构分析(55页珍藏版)》请在金锄头文库上搜索。

1、 多核处理器体系结构分析 提纲 多核处理器基本概念多核处理器的发展格局多核处理器软硬件挑战 2 多核处理器概念 片上多处理器 CMP ChipMultiprocessor 基于单个半导体芯片上拥有两个或多个一样功能 完整的处理核心 多核心通常共享2或3级cache 核的设计简单 功耗低 CMP可分为同构多核和异构多核计算内核相同 地位对等的称为同构多核计算内核不同 地位不对等的称为异构多核异构多核多采用 主处理核 协处理核 的设计 3 单核技术的瓶颈 多年来 在单线程性能方面已取得重大的进展为提高单线程性能 采用了各种微体系结构技术超标量发射乱序发射超流水技术推测执行但近年来 通过这些技术并未

2、获得更好的性能能量和存储延时问题 已经成为提高单线程性能的障碍一些高频率芯片方案已被取消 4 能耗问题 能量消耗大约与主频成立方关系P c f3处理器能量的消耗已经到了现有技术的极限对于有足够多线程的应用加倍并发线程的数目 能量消耗 2减半线程的工作频率 能量消耗 8故获得同等性能 能量仅为原来的1 4 5 多核技术的优势 6 多核的并行运行 在每个核中 线程是并发的 多核与多处理器的比较 多处理器 两个或两个以上的CPU及主板上的多个CPU插槽多核处理器 一颗CPU搭载两个核芯 即1die2cores 即在一个单晶硅上集成了多个核芯 9 多核与多处理器的比较 10 双核两个核在一个芯片内直接

3、连接多线程和多进程自动并行处理热量消耗增加的很少封装成本降低 两个处理器两个分开的芯片通过外在系统总线连接需要外在软件支持更多的热量消耗 多核与超线程的比较 超线程 Hyper ThreadingTechnologyHT是Intel对SMT的实现 在最近的P4和Xeon处理器中有2个硬件线程逻辑的 虚拟的双处理器同时执行2个线程性能提升 11 超线程与多核的比较 续 12 超线程与多核的比较 续 13 超线程与多核的比较 续 14 超线程与多核的比较 续 15 超线程与多核的比较 续 16 超线程与多核的比较 续 17 提纲 多核处理器基本概念多核处理器的发展格局多核处理器软硬件挑战 18 多

4、核溯源 1997 IEEE计算机分会组织学术界讨论10亿晶体管级别微处理器结构 多核心处理器 CMP 就被认为是未来最有扩展潜力的方案HammondL NayfehBA OlukotumK ASingle ChipMultiprocessor IEEEComputer 1997 30 9 79 852006年YalePatt教授在IEEE建立60周年纪念演讲中多核心发展已经不再是何时发生 如何进行的问题 它已经是目前的趋势和已经发生的事实YalePat ComputerArchitectureResearchandFutureMucroprocessor WhereDoWeGoFromWher

5、e ISCA 06 19 产业界多核处理器竞争激烈 AMD公司的多核心处理器Intel公司的多核心处理器IBM公司的多核心处理器SUN HP公司的多核心处理器 20 AMD公司的多核心处理器 21 AMD公司的多核心产品 2005年针对企业级服务器Opteron多核心处理器2005年Athlon64和Sempron桌面芯片 Turion移动芯片2007夏季代号为 Barcelona 的真四核AMD皓龙 处理器 AMD真四核AMD皓龙处理器是全球首款将4颗处理核心集成到一个硅片上的x86CPU 22 AMD双核的核心技术 Toledo Manchester两个Venice核心整合 各自有独立的5

6、12KB或1MB二级缓存 共享HyperTransport采用了SRQ SystemRequestQueue 系统请求队列 技术 每一个核心都将其请求放在SRQ中 当获得资源之后请求将会被送往相应的执行核心缓存数据的一致性不需要通过北桥芯片 直接在处理器内部就可以完成 23 AMD双核 24 AMD四核酷龙 LargesharedL3cachesharesdatabetweencoresefficientlywhilehelpingreducelatencytomainmemoryDedicatedL1andL2cachepercorehelpsperformanceofvirtualized

7、environmentsandlargedatabasesbyreducingcachepollutionassociatedwithasharedL2cacheTheL1cacheofAMDOpteronprocessorscanhandledoublethenumberofloadspercycleasSecond GenerationAMDOpteronprocessorstohelpkeepCPUcoresbusy 25 AMD皓龙 Opteron AMD速龙 Athlon64 AMD闪龙 Sempron64 处理器AMD羿龙 phenom 处理器AMD炫龙 64 Turion64 核

8、数 2 3 4 6 8 16 26 产业界多核处理器竞争激烈 AMD公司的多核心处理器Intel公司的多核心处理器IBM公司的多核心处理器SUN HP公司的多核心处理器 27 RoadmapofIntelProcessors 28 ENERGY EFFICIENTPERFORMANCE TIME Single core single thread Hyper Threading DualCore Quad Core Intel多核处理器 2005年取消了4GHz主频的P4处理器终止了采用主频为处理器命名2006 Woodcrest Xeon5100 和Clovertown四核 推出移动 Cen

9、trinoDuoMobile CoreDue 桌面 PentiumD CoreDue 工作站 Dual CoreXen 高性能服务器 Dual CoreItanium2 Multi everywhere单芯片中处理器核心数目提高到10 100数量级 Tera Scale项目要求处理万亿量级浮点运算能力 2015year 29 Intel双核的核心技术 HomogeneousMulti coreEachwithitsownexecutionresourcesEachwithitsownL1cache32Kinstructionand32Kdata8 waysetassociative 64 by

10、telineBothcoressharetheL2cache2MB8 waysetassociative 64 bytelinesize10clockcycleslatency WriteBackupdatepolicy 30 Intel双核的核心技术 续 SharedbetweenthetwocoresAdvancedTransferCachearchitectureReducedbustrafficBothcoreshavefullaccesstotheentirecacheDynamicCachesizing 31 EnablesGreaterSystemResponsiveness I

11、ntel双核的核心技术 续 32 StreamingSIMDExtensions SSE DecoderThroughputImprovement HighPerformanceComputingDigitalPhotographyDigitalMusicVideoEditingInternetContentCreation3D 2DModelingCADTools SSE SSE2InstructionOptimization FloatingPointPerformanceEnhancement NewEnhancedStreamingSIMDExtensions3 SSE3 Provid

12、ingTrueSIMDInteger FloatingPointPerformance Intel四核 33 IntelCore微架构 34 ManyIntegratedCoreArchitecture 35 Singlechipcloud50 core 产业界多核处理器竞争激烈 AMD公司的多核心处理器Intel公司的多核心处理器IBM公司的多核心处理器SUN HP公司的多核心处理器 36 IBM公司的多核产品 2001 双核RISC处理器Power42006 Cell处理器 37 AHeterogeneousMulti coreArchitecture 非对称多核CPU是将不同功能的专用内

13、核整合到一个芯片上 等待处理的任务先由 任务分析与指派系统 分析其构成 然后把任务分解发送到各内核中 各内核只负责自己的工作 将运算结果交还 结果收集与汇总 38 AHeterogeneousMulti coreArchitecture 39 CellBroadbandEngineisatrademarkofSonyComputerEntertainment Inc Cell处理器的主要特征 Cell是以IBM所研发的64位元Power微处理器为核心 结合8个独立的浮点数运算单元所构成的非对称多核心处理器 它共有9个CPU内核采用 1 8模式 一个Power架构RISC型64位CPU内核 PP

14、E 和8个浮点处理用的32位8路SIMD型CPU内核 SPE SynergisticProcessingElement Power微处理器内核是Cell处理器的大脑 是运行设备的主操作系统 并为8个 协处理器 分配任务 40 Cell处理器的主要特征 续 Cell的基本构成单元PPE可同时执行2个线程的SMT架构 类似于Intel的HT超线程技术 配备32KB的一级缓存 16指令缓存和16数据缓存 以及512KB的二级缓存 协处理核心SPE可同时执行2条指令超标量 并配备有128位 128个的通用寄存器 1个SPE的最大单精度浮点运算速度为32GFLOPS 9个核心同步时钟运行 41 Cell

15、处理器的主要特征 续 Cell的8个SPE工作方式与普通的多核心处理器不同 各SPE分别在独立的地址空间中运行 因此 每个SPE备有256KB的名为 LocalStore 的内存 由于LocalStore算作SPE的内存 所以不需要进行类似SMP的缓存一致性 CacheCoherency 控制 连接各内核的片上总线 OnChipBus 采用环形 SPE各个之间的最大数据传输带宽高达192GB s 42 产业界多核处理器竞争激烈 AMD公司的多核心处理器Intel公司的多核心处理器IBM公司的多核心处理器SUN HP公司的多核心处理器 43 HP2004 PA RISC8800双核处理器SUN2

16、004 UltraSPARCIV双核处理器2011Niagara16核心 44 提纲 多核处理器基本概念多核处理器的发展格局多核处理器软硬件挑战 45 多核处理器硬件挑战 核结构研究 同构还是异构CMP的构成分成同构和异构两类 同构是指内部核的结构是相同的 而异构是指内部的核结构是不同的 从理论上来看似乎异构微处理器的结构具有更好的性能 核所用的指令系统对系统的实现也是很重要的 采用多核之间采用相同的指令系统还是不同的指令系统 能否运行操作系统等 也将是研究的内容之一 46 多核处理器硬件挑战 续 Cache设计 多级Cache设计与一致性问题处理器和主存间的速度差距必须使用多级Cache来缓解 CMP采用共享二级Cache的CMP结构 即每个处理器核心拥有私有的一级Cache 且所有处理器核心共享二级Cache Cache自身的体系结构设计也直接关系到系统整体性能 但是在CMP结构中 共享Cache或独有Cache孰优孰劣 需不需要在一块芯片上建立多级Cache 以及建立几级Cache等等 由于对整个芯片的尺寸 功耗 布局 性能以及运行效率等都有很大的影响 多级Cache又引发一致性

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号