《高性能处理器体系结构》工艺应用前沿问题和研究方向

上传人:lizhe****0001 文档编号:57475849 上传时间:2018-10-22 格式:PPT 页数:59 大小:6.94MB
返回 下载 相关 举报
《高性能处理器体系结构》工艺应用前沿问题和研究方向_第1页
第1页 / 共59页
《高性能处理器体系结构》工艺应用前沿问题和研究方向_第2页
第2页 / 共59页
《高性能处理器体系结构》工艺应用前沿问题和研究方向_第3页
第3页 / 共59页
《高性能处理器体系结构》工艺应用前沿问题和研究方向_第4页
第4页 / 共59页
《高性能处理器体系结构》工艺应用前沿问题和研究方向_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《《高性能处理器体系结构》工艺应用前沿问题和研究方向》由会员分享,可在线阅读,更多相关《《高性能处理器体系结构》工艺应用前沿问题和研究方向(59页珍藏版)》请在金锄头文库上搜索。

1、Lecture on High Performance Processor Architecture (CS05162),Technology, Applications, Frontier Problems and Research Directions,2018/10/22,2,Outline,从HPC技术的发展现状高性能微处理芯片体系结构面临的重大挑战和研究问题 工艺趋势 对微处理芯片体系结构设计的支持和限制是什么? 应用需求 新的应用特征,现有结构能否很好支持? 前沿问题 重新思考微体系结构的影响因素,寻找突破口 研究方向 候选方案及评价,2018/10/22,3,2004年6月国际T

2、OP10,2018/10/22,4,2005年6月22日TOP500(第25期)前10名,2018/10/22,5,2005年11月13日TOP500(第26期)前10名,2018/10/22,6,TOP500 超级计算机主要类型,对称多处理机(SMP) 机群系统(Cluster) Virginia Tech 星群系统(Constellation) IBM: ASCI White 并行向量处理(PVP) NEC:Earth Simulator 大规模并行计算(MPP) Intel : ASCI Red 定制系统(Custom) IBM:BlueGene/L 东京大学:Grape-6,商品化系统

3、,X,定制系统,2018/10/22,7,Architectures/Systems,TOP500统计(2003.12),Architectures/Performance,CPU Architecture,CPU Family,CPU Generations,System CPU Counts,2018/10/22,8,High Performance Systems is being Built in 3 Ways,Computing resources become cheap and prolific. Increasingly low cost for fast CPUs and l

4、arge memory. Cluster and Internet connect computing nodes easily. Three types of high performance systems: High end systems, e.g. Blue Gene/L, Earth Simulator. Ultra high performance but expensive. (customer designed nodes/networks) Cluster systems, e.g. ICTs Downing, and many Top-500 sys. Low cost,

5、 but low sustained performance. (commodity nodes/networks) Grid systems, such as US NSF sponsored TeraGrid. Utilizing global computing resources, but high Internet cost and overhead. Each type fits its own applications for high productivity and cost effectiveness.,2018/10/22,9,Transfer Bandwidth Tim

6、e,Latency Time,Destination-perceived latency reduction is still limited due to imbalanced improvement of bandwidth and latency,Source,Destination,Date Communication in Computer Systems,2018/10/22,10,2018/10/22,11,Latency Lags Bandwidth (CACM, Patterson),In the last 20 years, 1002000X improvement in

7、bandwidth 5-20X improvement in latency Between CPU and on-chip L2: bandwidth: 2250X increase latency: 20X reduction Between L3 cache and DRAM: bandwidth: 125X increase Latency: 4X reduction Between DRAM and disk: bandwidth: 150X increase latency: 8X reduction Between two nodes via a LAN: bandwidth:

8、100X increase latency: 15X reduction,2018/10/22,12,How Resource Supply/Demand is Balanced?,Slowdown CPU Speed: Earth Simulator: NEC AP, 500 MHz (4-way SU, a VU). Blue Gene/L: IBM Power PC 440, 700 MHz. Columbia: SGI Altix 3700 (Intel Itanium 2), 1.5 GHz. (commodity processors, no choice for its high

9、 speed) Very low latency on-chip data accesses: Earth Simulator: 128K L1 cache and 128 large registers. Blue Gene/L: on-chip L3 cache (2 MB). Columbia: on-chip L3 cache (6 MB). Fast accesses to huge and shared main memory. Earth Simulator: cross bar switches between AP and memory. Blue Gene/L: cache

10、d DRAM memory, and 3-D torus connection. Columbia: SGI NUMALinks data block transfer time: 50 ns. Further latency reductions: prefetching and caching.,2018/10/22,13,HPCS 计划:以高效能为主要目标,性能(Performance):加速关键的国家安全应用1040倍 衡量指标:Time-to-solution 强调系统结构设计的平衡性和可扩展性,在提高系统性能的同时提高计算资源的利用率 目前的状况:大多数应用在当前万亿次计算机上运行

11、时的计算效率平均只有510% 可编程性(Programmability):减少求解应用所需的成本和时间 衡量指标:Time-for-idea-to-first-solution 目前的状况:应用人员为求解问题花在学习使用并行系统,以及开发并行软件上所花的时间和代价可能比在并行系统上实际算题的时间和代价还要大得多,2018/10/22,14,HPCS 计划:以高效能为主要目标,可移植性(Portability ):将科学家和使用应用软件的人员与系统隔离开来 衡量指标:Transparency 系统自动实现串行程序的高效并行化,使科学家和程序员只需关注求解问题本身,不必了解结构细节 目前的状况:当

12、把一个题目从单CPU计算机移植到大型并行计算机运行,困难增加100倍。 鲁棒性(Robustness):应用所有的已知技术来保护不受外部入侵,硬件故障和程序错误 衡量指标:Reliability 目前的状况:目前主流的高性能计算系统的全系统的平均故障间隔时间(MTBF)明显下降。 例如,Intel为ASIC计划研制的 ASIC Red, 9632个P2-333, 每个CPU+MM的MTBF大于10年,但全系统的MTBF仅10小时,2018/10/22,15,HPCS 计划:三个被接受的高效能Petaflops系统方案比较,2018/10/22,16,传统的HPC方法面临的重大挑战(1),体系结

13、构失衡:计算,存储,I/O速度越来越不匹配 计算与存储分离,以计算(处理器)为中心组织系统=von Nuemman瓶颈(存储器墙, 即存储延迟和带宽问题) 处理器主频2.5GH以上,存储总线主频仅400MH 处理器速度每年增长60%,存储器存取延迟每年仅改善7% 通信带宽和延迟是主要性能瓶颈 为了填补这个速度差异,不断增加设计复杂度=体积,功耗,成本急剧增大 数据访问速度成为提高处理器性能的主要瓶颈,系统把大量的复杂性花在了解决访存延迟的问题上,体积,功耗,成本:设计的第一位约束,2018/10/22,CS of USTC AN Hong,17,Earth Simulator与ASCI Q比较

14、,2018/10/22,18,体积和功耗问题,2018/10/22,19,体积和功耗问题,Earth Simulator 的机房: 7.74个篮球场,2018/10/22,20,传统的HPC方法面临的重大挑战(2),应用-结构脱节:应用的物理模型,并行算法,并行程序设计模型和语言,并行体系结构越来越不匹配 应用从计算密集型转向数据密集型 以计算为中心的体系结构方法已不适应 计算密集型:存储系统是瓶颈 数据密集型:文件系统是瓶颈 并行程序开发难 软件效率,正确性难以保证 系统的使用和管理复杂 可靠性和稳定性下降 计算资源利用率低,应用持续性能低:峰值性能的510% 效率:90年代初的向量机 平均

15、4050目前并行机 平均510,并行程序开发难,2018/10/22,21,传统的HPC方法面临的重大挑战(3),结构-实现不适:传统的体系结构方法与Moore定律越来越不匹配 Moore定律至少还能适用10年,但是线延迟将超过门延迟 集中控制的处理器芯片结构已不适应 体系结构方法越来越复杂 浪费(滥用)了Moore定律所提供的计算能力到2010年,用现在的HPC技术构造一台Petaflops系统的代价: $10 billion,500 Mwatts,108-路并行,2018/10/22,22,微处理器体系结构面临的挑战性问题(1),单处理器单指令流结构:集中控制的大结构 串行ISA:对并行计

16、算没有支持 性能来自工艺与结构的结合 工艺的进步提供了更快更多的晶体管:Moore定律 更快的晶体管+更好的电路设计=更高的主频 深度流水 每个流水级用更少的门 更多的晶体管+“更好”(更复杂)的结构设计=更高的ILP 更宽的指令发射(每个周期更多的指令): 重命名,动态调度 更多的运算部件 更大的片上cache 复杂的预测和推测 两个关键的体系结构技术 开发指令级并行性(ILP) 复杂的多级存储体系 已不能支持微处理器性能的持续提高,2018/10/22,23,微处理器体系结构面临的挑战性问题(2),一直在开发更快、更大和更热的处理器 Moore定律至少还能适用10年 但是线延迟将超过门延迟 深度流水问题=功耗问题 加深流水线会提高主频,但也会损害IPC 访存延迟和分支延迟更加突出 每级达8-16个FO4,难以再减少 IPC问题=设计复杂度问题 ILP的提高是有限的 用集中控制的大硬件结构提高ILP难以使频率更快 功耗问题 制造和使用成本(功率分布,封装,散热,) 系统的可靠性和稳定性 设计复杂度问题 20%的面积用于寄存器和运算部件,80%的面积用于开发ILP,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号