【8A文】AI芯片产业生态梳理

资源描述

《【8A文】AI芯片产业生态梳理》由会员分享，可在线阅读，更多相关《【8A文】AI芯片产业生态梳理（24页珍藏版）》请在金锄头文库上搜索。

1、AI芯片作为产业核心，也是技术要求和附加值最高的环节，在AI产业链中的产业价值和战略地位远远大于应用层创新。腾讯发布的中美两国人工智能产业发展全面解读报告显示，基础层的处理器/芯片企业数量来看，中国有14家，美国33家。,AI芯片产业生态梳理,单击此处添加标题文字,Page 2,目录,AI芯片分类,1,AI芯片产业生态,2,中国AI芯片公司,3, ,4,Page 3,AI芯片分类从功能上分,Training 训练,通过大量的数据输入或采取增强学习等非监督学习方法，训练出一个复杂的深度神经网络模型, 涉及海量的训练数据和复杂的深度神经网络结构，运算量巨大，需要庞大的计算规模，对于处理器的计算

2、能力、精度、可扩展性等性能要求很高, 主要使用NVIDIA的GPU集群来完成， Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速,Inference 推理,利用训练好的模型，使用新的数据去“推理”出各种结论，如视频监控设备通过后台的深度神经网络模型，判断一张抓拍到的人脸是否属于黑名单。 Inference的计算量相比Training少很多，但仍然涉及大量的矩阵运算。在推理环节，GPU、FPGA和ASIC都有很多应用价值。,可以分为Training(训练)和Inference(推理)两个环节,Page 4,AI芯片分类从应用场景分,Cloud/DataCenter

3、云端,在深度学习的Training阶段，由于对数据量及运算量需求巨大，单一处理器几乎不可能独立完成一个模型的训练过程， Training环节目前只能在云端实现，在设备端做Training目前还不是实际。在Inference阶段，由于目前训练出来的深度神经网络模型大多仍非常复杂，其推理过程仍然是计算密集型和存储密集型的，若部署到资源有限的终端用户设备上难度很大，因此，云端推理目前在人工智能应用中需求更为明显。 GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。,Device/Embedded 设备端,在设备端Inference领域，智

4、能终端数量庞大且需求差异较大，如高级辅助驾驶ADAS、虚拟现实VR等设备对实时性要求很高，推理过程不能交由云端完成，要求终端设备本身需要具备足够的推理计算能力，一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类,Page 5,AI芯片分类从技术架构分,通用芯片,GPU FPGA,基于FPGA的半定制化芯片,深鉴科技DPU、百度XPU(256核、基于FPGA的云计算加速芯片（与赛灵思Xilinx合作),全定制化ASIC芯片,TPU 寒武纪 Cambricon-1A等,类脑计算

5、芯片,IBM TrueNorth、 Westwell西井科技、高通Zeroth等,Page 6,AI芯片分类象限图,Training,Inference,GPU,TPU2.0,VS,Cloud / DataCenter,Device / Embedded,?,GPU / FPGA / ASIC,FPGA / ASIC,Page 7,AI芯片产业生态,Inference On Device 设备端推理,Mobile,ADAS,CV,NLP,VR,Inference On Cloud 云端推理,GPU,FPGA,ASIC,Training On Cloud 云端训练,GPU,ASIC,TPU1.

6、0 /2.0,TPU2.0,Training On Device 设备端训练,?,Page 8,Training训练,CPU VS GPU 架构,Control,ALU,ALU,ALU,ALU,Cache,DRAM,DRAM,CPU,GPU,Page 9,CPU和GPU对比说明,CPU架构,2007年以前，人工智能研究受限于当时算法、数据等因素，对于芯片并没有特别强烈的需求，通用的CPU芯片即可提供足够的计算能力。 Google Brain项目，使用包含16000个CPU核的并行计算平台，训练超过10亿个神经元的深度神经网络。 CPU的串行结构并不适用于深度学习所需的海量数据运算需求，用CP

7、U做深度学习训练效率很低，在早期使用深度学习算法进行语音识别的模型中，拥有429个神经元的输入层，整个网络拥有156M个参数，训练时间超过75天。在内部结构上，CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一部分控制单元，负责逻辑运算的部分(ALU模块)并不多，指令执行是一条接一条的串行过程。,GPU架构,GPU整个就是一个庞大的计算矩阵，GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量，还支持对深度学习至关重要的并行计算能力，可以比传统处理器更加快速，大大加快了训练过程。 GPU 由并行计算单元和控制单元以及存储单元构成，拥有大量的核(多达几千个)和大量的高速

8、内存，擅长做类似图像处理的并行计算，以矩阵的分布式形式来实现计算。同CPU不同的是，GPU的计算单元明显增多，特别适合大规模并行计算。,Page 10,通用计算GPUNVIDIA一家独大,2010年NVIDIA就开始布局人工智能产品， 2014年发布了新一代PASCAL GPU芯片架构，这是NVIDIA的第五代GPU架构，也是首个为深度学习而设计的GPU，它支持所有主流的深度学习计算框架。 2016年上半年，NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器，采用NVLINK互联

9、技术，软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA，能够快速设计深度神经网络(DNN)，拥有高达170TFLOPS的半精度浮点运算能力，相当于250台传统服务器，可以将深度学习的训练速度加快75倍，将CPU性能提升56倍。,Page 11,Training市场NVIDIA竞争对手Google,Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.0，TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片，第一代TPU仅能用于推理，而目前发布的

10、TPU 2.0既可以用于训练神经网络，又可以用于推理。 TPU2.0包括了四个芯片，每秒可处理180万亿次浮点运算。Google还找到一种方法，使用新的计算机网络将64个TPU组合到一起，升级为所谓的TPU Pods，可提供大约11500万亿次浮点运算能力。Google表示，公司新的深度学习翻译模型如果在32块性能最好的GPU上训练，需要一整天的时间，而八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google 并不直接出售TPU芯片，而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的服务，以此发展TPU2的应用和生态，比如TPU2同时发布的Tenso

11、rFlow Research Cloud (TFRC) 。,Page 12,传统CPU/GPU厂家也进入Training市场,传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场，如Intel推出的Xeon Phi+Nervana方案， AMD的下一代VEGA架构GPU芯片等，但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中，英国Graphcore公司的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持Training和Inference。该IPU采用同构多核架构，有超过1000个独立的处理器；支持All-to-All的核

12、间通信，采用BulkSynchronous Parallel的同步计算模型；采用大量片上Memory，不直接连接DRAM。总之，对于云端的Training(也包括Inference)系统来说，业界比较一致的观点是竞争的核心不是在单一芯片的层面，而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0，巨头的竞争也才刚刚开始。,Intel Xeon Phi + Nervana,AMD 下一代VEGA架构GPU芯片,Page 13,Inference On Cloud云端推理FPGA应用,相对于Training市场上NVIDIA的一家独大，Inf

13、erence市场竞争则更为分散。业界所说的深度学习市场占比(Training占5%，Inference占95%)，Inference市场竞争必然会更为激烈。在云端推理环节，虽然GPU仍有应用，但并不是最优选择，更多的是采用异构计算方案(CPU/GPU +FPGA/ASIC)来完成云端推理任务。 FPGA领域，四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera（被Intel收购）在云端加速领域优势明显。 Altera在2015年12月被Intel收购，随后推出了Xeon+FPGA的云端方案，同时与Azure、腾讯云、阿里云等均有合作； X

14、ilinx则与IBM、百度云、AWS、腾讯云合作较深入，另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看，云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。,Page 14,Inference On Cloud云端推理FPGA应用,Page 15,Inference On Cloud云端推理ASIC应用,ASIC领域，应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中，TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit MAC组成的矩阵乘法单元，峰值可以达到92 TeraOps/

15、second(TOPS)。有一个很大的片上存储器，一共28 MiB。它可以支持MLP，CNN和LSTM这些常见的神经网络，并且支持TensorFLow框架。它的平均性能(TOPS)可以达到CPU和GPU的15到30倍，能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory，这两个数值可以达到大约GPU的70倍和CPU的200倍。TPU 2.0既用于训练，也用于推理，上一节已经做过介绍。国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片，目前与科大讯飞、曙光等均有合作。,Page 16,Inference On Device设备端推理,设备端推理的应用场景

16、更为多样化，智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异，需要更为定制化、低功耗、低成本的嵌入式解决方案，这就给了创业公司更多机会，市场竞争生态也会更加多样化,Page 17,Inference On Device设备端推理智能手机应用,华为2017年9月初发布的麒麟970 AI芯片就搭载了神经网络处理器NPU(寒武纪IP)。苹果2017年最新发布的A11仿生芯片也搭载了神经网络单元。高通从 2014 年开始也公开了NPU的研发，并且在最新两代骁龙 8xx 芯片上都有所体现，,Page 18,Inference On Device设备端推理自动驾驶应用,NVIDIA去年发布自动驾驶开发平台DRIVE PX2，基于16nm FinFET工艺，功耗高达250W，采用水冷散热设计；支持12路摄像头输入、激光定位、雷达和超声波传感器；CPU采用两颗新一代NVIDIA Tegra处理器，当中包括了8个A57核心和4

展开阅读全文