gpgpu体系结构综述

上传人:第*** 文档编号:62118890 上传时间:2018-12-17 格式:DOCX 页数:16 大小:75.93KB
返回 下载 相关 举报
gpgpu体系结构综述_第1页
第1页 / 共16页
gpgpu体系结构综述_第2页
第2页 / 共16页
gpgpu体系结构综述_第3页
第3页 / 共16页
gpgpu体系结构综述_第4页
第4页 / 共16页
gpgpu体系结构综述_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《gpgpu体系结构综述》由会员分享,可在线阅读,更多相关《gpgpu体系结构综述(16页珍藏版)》请在金锄头文库上搜索。

1、计算机体系结构作业作业题目: GPGPU综述 姓 名: 学 号: 班 级: 研 1628 2016 年 秋季 学期目录1、引言22、GPU的发展历史33. 最新研究53.1 Tesla P10053.2 Radeon RX 48074. GP-GPU的应用85. GP-GPU语言95.1 CUDA105.2 OpenCL116. 特点127. 展望13参考文献141、引言多核CPU和多核GPU已经出现并逐渐主导最先进的高性能计算。 虽然当代CPU和GPU是使用相同的半导体技术制造的,但是GPU的计算性能比CPU的计算性能更快地增加。 不同的设计选择驱动他们进入不同功能的设备,给定相同的晶体管数

2、量的顺序。 CPU针对高性能,任务并行工作负载进行了优化,因为更多的晶体管专用于控制逻辑,例如每个处理元件中的分支预测和无序执行。 GPU针对高性能数据并行工作负载进行了优化,因为更多的晶体管专用于算术逻辑,例如浮点计算和每个处理元件中的超越函数。GPU(Graphics Processing Unit)早期的主要任务是用来进行3D图形计算和处理。近年来,受游戏市场和视景仿真需求的牵引,并随着人们对计算性能要求的不断提高,GPU得到了飞速的发展,主流GPU 的单精度浮点处理能力和外部存储器带宽都远远超过同期的GPU,而且GPU已经从以往的固定流水线操作模式发展成可编程流水线模式;另一方面,受工

3、艺、材料和功耗的物理限制, 相应的现代 GPU 也采用了多核的架构用来提高 GPU 的并行处理能力。在20032004年左右, 图形学之外的领域专家开始注意到GPU与众不同的计算能力,开始尝试把GPU 用于通用计算(GPGPU)。由此,开启了新的计算时代,即图形处理单元(GPGPU)上的通用计算。GPGPU代表General Purpose Computing on Graphics Processing Unit,就是图形处理器通用计算技术。这种新兴的加速技术试图把个人计算机上的显卡当做CPU这样的通用处理器来用,使显卡的强劲动力不仅发挥在图形处理上。2、GPU的发展历史从 SIGGRAPH

4、 2003大会首先提出GPU通用计算概念,到 NVIDIA公司2007年推出CUDA平台, GPU通用计算依靠其强大的计算能力和很高的存储带宽在很多领域取得了成功。越来越多的信号告诉我们,GPU通用计算是一片正在被打开的潜力巨大的市场。从1991年到2001年,这期间,微软公司的Windows操作系统在全球流行,极大地刺激了图形硬件的发展。S3 Graphics公司推出了公认的全球第一款图形加速器,可以被认为是显卡设备的雏形。早期的GPU只能进行二维的位图(bitmap)操作,但在20世纪90年代末,已经出现了硬件加速的三维的坐标转换和光源计算(transformation and light

5、ing,T&L)技术。从2001年到2006年,这是酝酿现代GPU产品极为重要的一段时间,各种硬件加速技术的出现使显卡的性能突飞猛进。其中标志性的事件是可编程图形处理器的出现。GeForce 3是第一款支持可编程图形流水线(programmable graphics pipeline)的GPU产品。从此,可编程的着色功能被加入了硬件。图形作业的可编程功能使得着色器可以按照用特定编程语言表达的算法来给多边形上色,并按照用户制定的策略来转换顶点坐标。GPU拥有了更大的可扩展性和适应性,不再是一个功能单一的设备,它开始使得复杂的三维图形效果成为可能。这个时期出现的各种令消费者疯狂的电脑游戏和动画产品

6、,从市场的角度为显卡功能的开发更进一步注入了动力。GPGPU技术也是在这个时期开始发展起来的。GPU高度并行化的架构和可编程的着色器使人们渐渐开始用它计算通用任务。在将GPU用到科学计算时,这些可编程的着色器和着色语言(shading languages)就成了技术的核心。把算法用着色语言实现,再加载到着色器里,同时把原本的图形对象替换为科学计算的数据,这就实现了显卡对通用数据的处理。用着色语言实现的GPGPU技术是第一代的GPGPU技术,或称为经典GPGPU、传统GPGPU。着色器编程语言是为复杂的图形处理任务设计的,而非通用科学计算,所以在使用时需要通过一系列非常规的方法来达到目的。200

7、6年至今,这一时期的GPU从硬件设计之初就开始考虑到了GPGPU的应用,因而它们从根本上比早前的GPU更为通用。2006年,NVIDIA公布了统一着色器模型(Unified Shader Model)和它的GeForce 8系列GPU,GPU从此进入了通用计算时代。统一着色器模型整合了顶点着色器(vertex shaders)和片段着色器(fragment shaders),或称为像素着色器(pixel shaders),每一个着色器都可以自由承担原本某种特定着色器的工作。这样,GPU在图形处理时空闲的着色器更少,计算效率更高。同时,这样无差别的着色器的设计,令GPU成了一个多核的通用处理器。

8、2010年, NVIDIA公司推出基于Fermi架构的Tesla20系列GPU, Fermi架构是GPU架构发展史上一次革命性的跨越,其在保持图形性能的前提下,大大提高了GPU通用计算的能力Fermi不仅使得SM功能增强还提高了其可编程性和执行效率为了符合通用计算对于精度和速度的要求,Fermi的流处理器都支持IEEE754-2008的单精度浮点标准和完整的位整数计算,同时Fermi架构使用了新的乘加指令FMA(fused multiply-add)FMA指令和MAD(multiply-add)指令相比,在做乘运算和加运算的时候只在最后运算的时候作一次舍入,避免了在执行加法时出现精度损失双精度

9、浮点计算在高性能计算中具有核心地位Fermi架构下每个SM在一个时钟周期内可以完成16个双精度浮点数的FMA操作我们看到了这样的趋势:单纯的CPU计算渐渐被基于异构计算资源的并行计算所取代;单机计算逐渐被分布式的多用户、多处理器组成的集群计算和云计算所取代;GPGPU技术渐渐成为异构计算的主导技术。3. 最新研究3.1 Tesla P1002015年,英伟达发布了旗下新一代GPU架构Pascal,依靠新的3D memory和NV-Link互连技术,采用Pascal架构的新GPU将在速度和体积上获得飞跃突破。Pascal将被运用在机器学习、超级计算机、云计算和游戏等领域中。英伟达CEO黄仁勋在2

10、016年GTC大会的发言中,介绍了该公司搭载在Tesla P100 高性能运算加速器上的Pascal GP100 图形处理单元。整个Telsa P100系统由包括GPU在内的许多芯片组成,这些芯片总计有超过150亿的晶体管,其特色为适用于总计速率为720GB/s带宽的16GB的堆栈式HBM2 VRAM显存。此外,Tesla P100还拥有史无前例的性能表现和可拓展性,以及在编程效率方面的五大架构突破: 英伟达帕斯卡架构实现指数级的性能飞跃和前代的基于NVIDIAMaxwell的解决方案相比,基于帕斯卡的Tesla P100显卡解决方案在神经网络训练性能上实现了超过12倍的提升。 拥有最大应用拓

11、展性的NVIDIA NVLinkNVIDIA NVLink高速GPU互连可在多个GPU上测量应用程序,可实现5倍于目前顶级解决方案的带宽加速。NVLink可同时连接多达八个Tesla P100 GPU显卡以实现单一节点上的应用程序性能最优化,而且IBM已在它的POWER8 CPU上实行NVLink,用于CPU对CPU快速交流。 具备史无前例的能效的16nm FinFET工艺搭载使用16纳米FinFET制备工艺构建的153亿个晶体管,帕斯卡GPU是目前世界上最大的FinFET芯片。它的设计目的是为运算需要接近无限的负载实现最快性能和最佳能效。 可应对大数据负载的HBM2芯片-晶圆-基底 (CoW

12、oS) 设计帕斯卡架构将处理器和数据统一为一个单独包,以实现史无前例的运算效率。作为存储设计的创新之举,相比于麦斯威尔架构,HBM2芯片-晶圆-基底 (CoWoS) 设计在存储带宽性能上实现了3倍提升。 性能顶级的新型人工智能算法新型的半精度指令在深度学习上实现了超过21 次浮点运算的顶级性能。英伟达表示Tesla P100显卡已进入量产,生产的所有Tesla P100显卡都用于它的DGX-1高密度HPC节点系统和来自IBM、戴尔和克雷的HPC服务器中。DGX-1节点已以12.9万美元的价格发售,来自其他制造商的服务器则有望在2017年的第一个季度开始发售。3.2 Radeon RX 480继

13、Tesla P100发布后,AMD公司的Radeon RX 480也于今年6月进入公众视野。Radeon RX 480的大部分增强源于使用AMD新的“Polaris”GPU内核。 自2011年以来,该行业一直停留在使用28nm GPU核心,自那时以来,所有的显卡都基本上迭代了相同的底层技术,AMD和Nvidia跳过了20nm代。 Polaris拥有14nm晶体管以及先进的“FinFET”技术,使这些缩小的晶体管更加节能。使用14nm工艺,AMD也将更多的技术带入其GPU。 Radeon RX 480包含2,304个流处理器,它们是AMD相当于Nvidia的CUDA核心 - 尽管不可能在纯粹的核

14、心计数中比较两种截然不同的架构。机载计算单元的数量从R9 380中的28个CU扩展到RX 480中的36个CU。4. GP-GPU的应用GPGPU 项目研究中的先行者是英国剑桥大学的 BionicFx 课题组。早在2004年9月,剑桥大学的 BionicFx 课题组便宣布在 NVIDIA 的 GeForce FX 5900 产品中实现了专业的实时音频处理功能,并且准备进行商业化的运作,对其产品进行销售,给音乐创作者带来实惠。在随后的一段时间,GPGPU 进入了深入研究阶段,但是由于编程语言架构和编程环境都难以通用,该领域的发展能力受到广泛质疑。就在人们认为 GPGPU 的研究即将偃旗息鼓的时候

15、, ATI 在2006年8月惊人地宣布即将联手斯坦福大学在其 FoldingHome 项目中提供对ATI Radeon X1900的支持。在显卡加入 FoldingHome 项目后,科研进展速度被成倍提升,人们第一次感受到了 GPU 的运算威力。毫无疑问,在 GPGPU 研究上, ATI 跨出了极具意义的一步。同时将 GPGPU 的应用领域和普及程度推向高潮。随后 NVIDIA 凭借 GeForce 8800GTX 这款业界首个 DirectX 10 GPU,在 GPU 通用计算方面实现了大步跨越,特别是 CUDA 概念的提出,在新的通用计算领域后来居上。不仅应用程序在使用GPGPU技术,最新的操作系统也将它作为架构的一部分。微软使用DirectCompute实现了它更具视觉体验的全新操作系统Windows 7;苹果最新的操作系统Mac OS X 10.6(Snow Leopard)完全支持OpenCL;Linux发行版Ubuntu 10.10也支持基于OpenCL的应用程序硬件加速。这个新兴的技术从研究所走到商业,仅仅用了两年。GPGPU发展速度飞快,许多刚刚取得的成绩都迅速地成为了历史。GPGPU技术的发展与应用是相互

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号