【2017年整理】4 从TNT到HD5870!GPU十年技术发展回顾

资源描述

《【2017年整理】4 从TNT到HD5870!GPU十年技术发展回顾》由会员分享，可在线阅读，更多相关《【2017年整理】4 从TNT到HD5870!GPU十年技术发展回顾（13页珍藏版）》请在金锄头文库上搜索。

1、第 11 页：Geforce 7 对阵 ATI 两代核心设计Geforce 7 系列对阵 ATI 两代核心设计让我们从另外的一个角度去看 NV3X他只是 NV 的一块探路石，虽然实用性能不佳，但是为下一代产品的技术开发积累了大量的经验，我们可以看到，NV30 中的很多技术都被完整地集成到了 NV40 中，也就是说 NVIDIA 在 NV30 上的长期投资开始产生回报了NV40 在功能上明显超过了 ATI 的 R420，而开发难度也没有大大增加，就是因为一些关键技术早在 NV30 这代产品中就已经被提前开发。要知道 NV40 的发布，只是在NV35 发布后的短短 5 个月。2005 年 06 月

2、 21 日，NVIDIA 新一代 GPU 核心，代号 G70 的 Geforce 7800GTX 发布了，你无法想象 NVIDIA 是如何在仅仅一年后设计并发布了这款新的 GPU，因为这时 ATI Radeon X800 显卡正处于热卖中。Geforce 7800GTX 让本来就处于 DirectX 9.0b SM2.0 的标准的 ATI 更加无力回天，毕竟自己的 GPU 已经落后对手两代，ATI 只能选择专心开发R520 核心，等待已经越来越渺茫的翻身机会G70 在正式定型之前的开发代号被称为 NV47，因为它实际上就是在 NV40 的基础上改进升级而来的，当 G70 正式面世的时候，官方的

3、技术文档以及核心架构的展示证明了它发布之前所使用的核心代号和推断的正确性。图注：迅速推出的 Geforce 7800GTX 当仁不让地夺取了高性能桂冠Geforce 7800 系列产品技术优势：市场优势：G70 在架构上基本没有太大的创新（尽管 NVIDIA 将其美名曰 “全新的架构”），是一款和 GeForce 6（NV4x）系列基于同一个架构设计的强化版，核心的制程由 0.13m 进化至0.11m，核心技术依旧支持 Shader API Programmable Shader 3.0 并在算法上加以强化，除Pixel Shader 管线增加到 24 个，顶点着色单元增加到 8 个之外，

4、此外 7800 GTX 还新增加/加强了透明材质智能采样抗锯齿、次表面散射、Relief Mapping、64Bit HDR 运算、法线贴图压缩、光能传递贴图算法等一系列即将在下一代游戏中广泛出现的技术。下表列出的是NV40 和 G70 的基本性能参数对比。图注：NV40 和 G70 的基本性能参数对比经历了 NV30 的失败与 NV40 的小试牛刀，7800 GTX 踏上了 ATI 推崇的延长新架构开发周期的道路。从 G70 的核心架构来看， G70 整个架构就是对 NV40 的一个补完与升级，并着重对未来游戏中常用的次表面散射、高动态范围光照、法线贴图压缩等前沿技术增加到核心的硬件支持上。

5、不难发现，NVIDIA 此举就等于 ATI 在 9700-9800-X800-X850 的进化过程一样，在同一个具有相当前瞻性的架构上进行不断的深化和升级补完，保持一个DirectX 大版本号采用一个统一架构的部署方式以适应应用程序的发展以及舒缓高昂的开发费用。一直以来，SM 3.0 技术被 NVIDIA 作为独有卖点而在 Geforce 6/7 系列显卡上大作宣传，该技术的缺失也使得 R4XX 系列显卡在和竞争对手的产品竞争中处于非常不利的地位。虽然 ATI 的 R500 在游戏机市场占得先机，但桌面领域的 R520 却经历了数次跳票之后才在 2005 年 10 月来到人们的面前，结束了

6、ATI 显卡不支持 DirectX 9.0c 的尴尬历史。图注：ATI 终于发布了期待已久的 X1800XT 显卡Radeon X1800 系列产品技术优势：市场优势：和每一代显卡产品一样，ATI Radeon X1000 显卡也根据管线数目，显存位宽/容量将产品划分为高、中、低三个档次，依次命名为 X1800/X1600/X1300。每个系列又根据核心/显存频率的不同而再细分出若干个产品型号，如 Pro、XL 、XT 等。Radeon X1000 的问世使得不少玩家在 GeForce 6/7 之外，又多了一个选择。基于 R520 的 X1800XT 是全球首批采用 0.09 微米制程的显

7、示核心。采用新工艺的好处是不言而喻的，除了使显卡的核心频率能达到前所未有的高度之外也降低了芯片的生产成本。这也让只有 16 管线的 X1800 XT 具备了和 24 管线的 7800GTX 一较高下的实力。如果你认为 ATI 的新架构仅有一款 R520，那就大错特错了，因为早就在代号为 R520的 RADEON X1800 发布的时候，代号为 R580 的 RADEON X1900 就完成流片、取样等一系列的后期研发，几乎是进入生产阶段了。在当时 ATI 提供给第三方厂商的一些机密文件中也表明，ATI 对 R580 充满了信心，字里行间所暗示的信息当然就是希望这些显卡厂商不要因为 Radeon

8、 X1800 延误而对 ATI 的强大研发能力失去信心。2006 年 1 月 24 日，距离 Radeon X1800 发布 4 个月还不到的时间，ATI 正式发布新一代的高端产品Radeon X1900 系列。作为 06 年推出的新高端产品，RADEON X1900 不仅拥有高时钟频率的特点，而且还在架构上作了大刀阔斧的改进，性能获得显著提升。在玩家眼中最为出色的 3：1 黄金架构正是在 R580 时代诞生。图注：代号 R580 的 RADEON X1900 系列的每条传统的像素管线拥有 3 个像素渲染单元传统的管线概念（Pipeline）中，像素渲染单元（Pixel Shader）跟 Pi

9、peline 数目相同，NVIDIA 的 G70 图形就是这样一个概念；但是 ATI 在全新的 R580 图形芯片中，稍微修正了像素渲染单元跟 Pipeline 的关系。Radeon X1900 需要重点强调的地方在于，R580 图形芯片拥有 16 条传统的像素管线（Pixel Pipeline），但是却拥有 48 个像素渲染单元和 16 个纹理单元，算术处理能力是以前旗舰级 GPU 的 3 倍，在晶体管数量只增加 20的情况下，渲染能力理论上增加了 200，像素渲染单元跟纹理单元的比例是 3：1。图注：代表 DirectX 9 的顶级显卡Radeon X1900XTXRadeon X1900

10、系列产品技术优势：市场优势：这一改进使得 Radeon X1900XTX 具备了 48 个像素着色器的流水线设计，FP32 精度像素运算能力达到 374.4GFLOPS，如果再加上顶点着色器的话， Radeon X1900XTX 的FP32 计算能力总共会是 426.4 GFLOPS。相比之下，NVIDIA 的 GeForce 7800 GTX 512MB（550MHz 内核）只能提供 211.2 GFLOPS 的 FP32 像素运算能力和 47.2 GFLOPS的 FP32 顶点运算能力。在 R580 架构之后，ATI 将 3：1 黄金架构延续在中低端显卡上，分别诞生了如下几款值得我们

11、回忆的产品，它们从上市之初开始压制 NVIDIA 的同档次产品直到停产退市，都保持着非常高的性价比，这是用户最为赞赏和称道的优势：X1300XT，X1650Pro 系列：12 个像素单元，4 个纹理单元，128Bit 显存X1650XT 系列： 24 个像素单元， 8 个纹理单元，128Bit 显存X1950Pro 系列：36 个像素单元，12 个纹理单元，256Bit 显存X1950GT 系列： 36 个像素单元， 12 个纹理单元，256Bit 显存第 12 页：统一终止分立，架构之争日趋激烈统一终止分立，架构之争日趋激烈统一渲染架构的诞生Shader Model 在诞生之初就为我们提供了

12、 Pixel Shader（顶点着色器）和 Vertex Shader（像素着色器）两种具体的硬件逻辑，它们是互相分置彼此不干涉的。但是在长期的发展过程中，NVIDIA 和 ATI 的工程师都认为，要达到最佳的性能和电力使用效率，还是必须使用统一着色器架构，否则在很多情况下 Pixel Shader 计算压力很轻造成大量 Pixel Shader 单元闲置，Vertex Shader 资源有限但遇到大量三角形时会忙不过来。也就是说不再区分 Pixel Shader 和 Vertex Shader，最终设计出来的产品可以在任何 API 编程模型中都不存在任何顶点/像素着色器固定比率或者数量限制。

13、每一帧渲染中 Vertex Shader 和 Pixel Shader 负载压力几乎没有相关性，总是在出现资源闲置和资源紧缺，所以有必要使用统一着色器架构。在统一着色器架构的 GPU 中，Vertex Shader 和 Pixel Shader 概念都将废除同时代之以ALU。 ALU 是个完整的图形处理体系，它既能够执行对顶点操作的指令（代替 VS），又能够执行对象素操作的指令（代替 PS）。GPU 内部的 ALU 单元甚至能够根据需要随意切换调用，从而极大的提升游戏的表现。微软 XBOX 360 所采用的 Xenos 图形处理器，第一次引入了统一着色器架构，这个着色器架构包含了 3 个独立的

14、着色器矩阵，每个着色器矩阵内有 16 个 5D 向量 SIMD 单元，这些 SIMD 单元既可以执行 Vertex Shader 也可以执行 Pixel Shader，可以称之为符合DirectX9 标准的统一着色器架构。随后 NVIDIA 推出的 GeForce 8800 GTX 使用了 128 个标量流处理器（Stream Processor）。在通用计算方面，GeForce 8800 GTX 的统一架构比Xbox 360 的 C1 更先进、更强大，这表现在标量设计、整个 US 和 Shader 簇内的 MIMD 化执行。图注：AMD 历代着色器演进在 GeForce 8800 GTX 之

15、后，AMD 经过数月的延迟后推出了代号 R600 的 RADEON HD 2900XT 核心，这款产品和 NVIDIA 的新品一样使用了统一渲染架构，不同之处在于2900XT 的 64 个 SIMD 着色器内包含了 5 路超标量（superscalar）的运算单元（ALU ），我们习惯性称其拥有 320 个流处理器。组织形式方面，SIMD 单元采用超标量+VLIW （甚长指令）设计，虽然从数量上看规模庞大（共拥有 320 个 ALU，8800 GTX 为 128 个），但是执行效率在实际运算中会发生不可忽视地衰减。为方便讨论，在后文分析中，我们将更多地把着色器 Shader 称为流处理器 St

16、ream Processor。第 13 页：G80 横空出世，R600 临危受命GeForce 8 横空出世， Radeon HD 2000 临危受命理论上说 DirectX 10 并没有要求统一 Vertex Shader 和 Pixel Shader，它只是增加了纹理规格、寄存器数目等规格，同时引入 Geometry Shader（可批量进行几何处理）加强曲面处理能力。在 GeForce 8800 GTX 发布之前，NVIDIA 也在媒体表示可能考虑在 DirectX 10时代继续使用分立的着色器，但最终产品还是将着色器统一化。实际上在 2003 年，ATI 的 Radeon HD 2000 也进入开发期，而在发布这款产品之前，ATI 发布了一款特殊的 GPU，它针对微软 XBOX 360 游戏机设计，代号为 Xenos。Xenos是微软与 ATI 的合作结晶，于 2005 年发布在 XBOX360 游戏主机

展开阅读全文