《高等计算机体系结构》文献综述GPU发展

上传人:hs****ma 文档编号:455838032 上传时间:2022-11-08 格式:DOC 页数:10 大小:99KB
返回 下载 相关 举报
《高等计算机体系结构》文献综述GPU发展_第1页
第1页 / 共10页
《高等计算机体系结构》文献综述GPU发展_第2页
第2页 / 共10页
《高等计算机体系结构》文献综述GPU发展_第3页
第3页 / 共10页
《高等计算机体系结构》文献综述GPU发展_第4页
第4页 / 共10页
《高等计算机体系结构》文献综述GPU发展_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《《高等计算机体系结构》文献综述GPU发展》由会员分享,可在线阅读,更多相关《《高等计算机体系结构》文献综述GPU发展(10页珍藏版)》请在金锄头文库上搜索。

1、北京科技大学高等计算机体系结构文献综述题目:GPU的发展研究学院计算机与通信工程学院班级124班学号S20121170姓名陈希时间2012年11月02日一、引言随着半导体工艺的发展,芯片上集成的晶体管数目按照摩尔定律增加,各种处理器的存储和计算能力也因此不断提高。作为最常用的两类处理器芯片.CPU和GPU的性能发展呈现不同的规律oCPU是计算机的主控处理部件.需要应对各种复杂的控制过程.追求的标量性能.注重通用性.因此在其芯片体系结构设计时.不得不将大量的芯片资源用于分支预测、乱序执行等复杂的控制逻辑.从而限制了其计算性能的提升。而GPU原本只负责加速图形计算.功能相对比较单一.芯片的控制逻辑

2、比较简单.主要的芯片资源都用于提升计算性能.因此其计算能力发展更为迅速。例如,AMD公司2009年第一季度发布的专业级流处理GPUFireStream9270订的单精度浮点峰值性能达到1.2TFlops,而Intel公司顶级的Core2Extreme9650四核处理器的浮点处理能力仅有96GFlops,可见在计算性能方面,GPU要高出CPU整整一个数量级。计算性能增长的同时.GPU的存储性能也在不断提升.24GB的存储容量、256512位宽的存储总线都为GPU发挥出强大的计算能力提供了充分的保证。除了计算性能外.从性/价比和性能/功耗比上看.GPU相对于通用CPU同样拥有明显的优势。这些特性都

3、使得GPU成为搭建超级计算机的良好选择.可以在有限的系统规模和金钱开销的限制下达到非常高的峰值计算性能.因此越来越受到高性能计算领域的关注。计算性能不断提升的同时.限制GPU广泛应用的另一制约因素)可编程性.也在不断提高。早期的GPU仅负责图形加速.流水线的功能固定.只能执行有限的几个操作以完成图像的生成。硬件工艺的进步使得GPU内处理单元的结构越来越复杂.功能也越来越灵活.其流水线具备了执行用户自定义程序的能力.从而具备了初步的可编程性。从最初的底层图形API发展到现在高度抽象的CUDA2、Brook+3以及OpenCL4,GPU的可编程性得到了极大的提升.已经具备了开发非图形领域应用的基本

4、能力,GPU上的通用计算(GeneralPurposecomputationonGPUs,简称GPGPU5)也成为体系结构、编程及编译等领域热点的研究方向之一。二、CPU/GPU协同并行计算研究进展定义及相关技术英文全称中文翻译为“图形处理器”。是相对于的一个概念由于在现代的计算机中图形的处理变得越来越重要需要一个专门的图形的核心处理器。是显示卡的“大脑”它决定了该显卡的档次和大部分性能同时也是显示卡和显示卡的区别依据。使显卡减少了对的依赖并进行部分原本的工作尤其是在图形处理时。所采用的核心技术有硬体&立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图双重纹理四像素位渲染引擎等而硬体技术可以说

5、是的标志。&技术是最近在图形加速卡上都可以看得到的规格名称之一,这个名词的原来意义是:以及,光影转换。在图形加速卡中,&的最大功能是处理图形的整体角度旋转以及光源阴影等三维效果。图上有许多的连结点,每一个连结点都可视为一条线的转折点,通过这些连结点,图形芯片可以很清楚地将整个对象的结构辨识出来。然而,这些连结点在这张设计图上的位置是固定不动的,换句话说,不管我们从任何一个角度来看这个对象,连结点的位置并没有变动,变动的只有角度的不同。不过,对象图案若只进行到的阶段,在对象的表面也只有连结点而已,并没有加上颜色色块或任何材质的贴图表现,因此,很像是立体的透视图。一般来说,&的效能常用单位时间内所

6、能处理多少个多边形的连结点变化以及光源运算为基准。像的便能在每秒钟处理万个多边形,而有的产品甚至能达到万个多边形的效能。纹理压缩中将压缩后的数据存储进显存并不是终结。重要的是需要用显示芯片把这些压缩后的数据进行解压缩,再经过运算贴图到模型上。这个过程就需要显示芯片在硬件上支持了,如果不支持,对于压缩后的数据无法识别,照样不能完成纹理压缩,也不能发挥出纹理压缩的优势。凹凸贴图(),又称为皱面贴图,是一项计算机图形学技术,在这项技术中每个待渲染的像素在计算照明之前都要加上一个从高度图中找到的扰动。这样得到的结果表面表现更加丰富、细致,更加接近物体在自然界本身的模样协同计算概念CPU/GPU协同并行

7、计算,其关键在于如何实现两者的高效“协同”。从国内外大量的研究工作来看,“协同”分为两个层次:1)CPU仅负责管理GPU的工作,为GPU提供数据并接收GPU传回的数据,由GPU承担整个计算任务;2)除管理GPU外,CPU还负责一部分计算任务,与GPU共同完成计算。第一层次的“协同”比较简单,CPU与GPU间分工明确,但浪费了宝贵的CPU计算资源。如IBM的Power7处理器具有32个核心,因此CPU也具有强大的计算能力。可见,第二层次的“协同”是未来协同并行计算的发展方向三、体系结构目前可以生产支持通用计算的GPU厂家主要有AMD、NVIDIA和Intel。我们将简要介绍这第#页共7页陈希20

8、12年11月2日三个厂商目前主流GPU的核心体系结构。1.AMD:APU为进一步提升处理器的工作效率,AMD公司将CPU和GPU的核心进行融合(Fusion),推出了APU7(AcceleratedProcessingUnits)系列处理器,以加速多媒体和向量处理能力。业界有观点认为.这种融合的体系结构是未来处理器的发展方向。图结构示意图从图1可以看出,APU处理器将多核的x86CPU核心、GPU处理器核心(SIMD弓|擎阵列)、高速总线以及存控融合在一块单一芯片上.可以实现数据在不同处理核心间的高速传输.大大缓解了目前CPU和GPU之间的通信受限于外部总线的问题。NVIDIA:Fermi是公

9、司推出的最新一代提供了强大的双精度浮点计算能力。较之以往的不同之处在于首先为面向对数据精确度要求较高的应用首次在的存储器中引入了校验的功能其次在保持了主流中使用的作为片上存储层次外还首次引入了通用的数据以更好地支持通用计算。中的包含被私有的和被所有共享的0此外中的和可以通过配置互相转化。最后支持多同时执行。第4页共7页陈希2012年11月2日图体系结构示意图图给出了的体系结构框图。图中包含个分布在共享的周围每均包含、寄存器文件等私有存储资源个流处理核心构成的计算阵列和线程调度单元。处理器的外围则分布着、和线程调度等接口。值得注意的是之前的中内大多包含个流处理核心如因此需要拍才能发射一个而中将流

10、处理核心数提升至个后且采用双发射技不后得每拍可以发射个极大提升了线程发射效率。四、简介全称统一计算设备框架简称是公司针对其设计提出的编程模型它也以语言为基础降低了编程难度。在计算模型中应用程序分为端和端前者是指运行于上的部分后者则是运行于上的部分这部分代码称为核心函数。代码准备好数据后复制到显卡的存储器中再调用核心函数进行执行执行完毕后再由代码将计算结果拷贝回主存。在计算模型下执行的最小单位是线程.多个线程组成一个线程块.线程块中线程可以共享一片存储器.并以任意顺序执行.在硬件资源受限的情况下甚至可以串行执行。一个核心程序由一个或多个线程块组成.一个应用则由若干个核心程序构成。图计算模型示意图

11、从体系结构的组成来说包含了三个部分开发库、运行期环境和驱动。开发库是基于技术所提供的应用开发库。目前的版提供了两个标准的数学运算库一一下离散快速傅立叶变换和离散基本线性计算的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速方便的建立起自己的计算应用此外开发人员也可以在的技术基础上实现出更多的开发库。运行期环境提供了应用开发接口和运行期组件包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于开发的程序代码在实际执行中分为两种一种是运行在户上的宿主代码一种是运行在上的设备代码。不同类型的代码由于其运行的物理位置不同能够访问到的资源不同因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分基本上囊括了所有在开发中所需要的功能和能够使用到的资源接口开发人员可以通过运行期环境的编程接口实现各种类型的计算。第#页共7页陈希2012年11月2日五、参考文献技术研究与发展走向新时代第#页共7页

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号