AI芯片产业生态梳理

上传人:n**** 文档编号:50845621 上传时间:2018-08-11 格式:PPT 页数:24 大小:4.70MB
返回 下载 相关 举报
AI芯片产业生态梳理_第1页
第1页 / 共24页
AI芯片产业生态梳理_第2页
第2页 / 共24页
AI芯片产业生态梳理_第3页
第3页 / 共24页
AI芯片产业生态梳理_第4页
第4页 / 共24页
AI芯片产业生态梳理_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《AI芯片产业生态梳理》由会员分享,可在线阅读,更多相关《AI芯片产业生态梳理(24页珍藏版)》请在金锄头文库上搜索。

1、 AI芯片作为产业核心,也是技术要求和附加值最高的环节,在AI产业链中的产业价值和战 略地位远远大于应用层创新。腾讯发布的中美两国人工智能产业发展全面解读报告显示 ,基础层的处理器/芯片企业数量来看,中国有14家,美国33家。 Page 2目录AI芯片分类1AI芯片产业生态2中国AI芯片公司3 4Page 3AI芯片分类从功能上分Training 训练 通过大量的数据输入或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型, 涉及海量的训练数据和复杂的深度神经网络结构, 运算量巨大,需要庞大的计算规模, 对于处理器的计算能力、精度、可扩展性等性能要求很高, 主要使用NVIDIA的G

2、PU集群来完成, Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速,Inference 推理 利用训练好的模型,使用新的数据去“推理”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。 Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。 在推理环节,GPU、FPGA和ASIC都有很多应用价值。可以分为Training(训练)和Inference(推理)两个环节Page 4AI芯片分类从应用场景分Cloud/DataCenter 云端 在深度学习的Training阶段,由于对数据量及运算量需求巨大,

3、单一处理器几乎不可能独立完成一个模型的训练过程, Training环节目前只能在云端实现,在设备端做Training目前还不是实际。 在Inference阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是 计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目 前在人工智能应用中需求更为明显。 GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。Device/Embedded 设备端 在设备端Inference领域,智能终端数量庞大且需求差异较大, 如高级辅助驾驶ADAS、虚拟现实VR等设备

4、对实时性要求很高,推理过程不能交由云端完成, 要求终端设备本身需要具备足够的推理计算能力, 一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类Page 5AI芯片分类从技术架构分通用芯片 GPU FPGA基于FPGA的半定制化芯片 深鉴科技DPU、 百度XPU(256核、基于FPGA的云计算加速芯片(与赛灵思Xilinx合作)全定制化ASIC芯片 TPU 寒武纪 Cambricon-1A等类脑计算芯片 IBM TrueNorth、 Westwell西井科技、 高通Zeroth等Pag

5、e 6AI芯片分类象限图TrainingInferenceGPUTPU2.0VSCloud / DataCenterDevice / Embedded?GPU / FPGA / ASICFPGA / ASICPage 7AI芯片产业生态InferenceOn Device 设备端推理MobileADASCVNLPVRInferenceOn Cloud 云端推理GPUFPGAASICTraining On Cloud 云端训练GPUASICTPU1.0 /2.0TPU2.0Training On Device 设备端训练?Page 8Training训练CPU VS GPU 架构ControlA

6、LUALUALUALUCacheDRAMDRAMCPUGPUPage 9CPU和GPU对比说明u2007年以前,人工智能研究受限于当时算法、数据等 因素,对于芯片并没有特别强烈的需求,通用的CPU芯 片即可提供足够的计算能力。uGoogle Brain项目,使用包含16000个CPU核的并行计 算平台,训练超过10亿个神经元的深度神经网络。uCPU的串行结构并不适用于深度学习所需的海量数据运 算需求, u用CPU做深度学习训练效率很低,在早期使用深度学习 算法进行语音识别的模型中,拥有429个神经元的输入 层,整个网络拥有156M个参数,训练时间超过75天。u在内部结构上,CPU中70%晶体管

7、都是用来构建 Cache(高速缓冲存储器)和一部分控制单元,负责逻辑 运算的部分(ALU模块)并不多,指令执行是一条接一条 的串行过程。uGPU整个就是一个庞大的计算矩阵,GPU具有数以千 计的计算核心、可实现10-100倍应用吞吐量,u还支持对深度学习至关重要的并行计算能力,可以比传 统处理器更加快速,大大加快了训练过程。uGPU 由并行计算单元和控制单元以及存储单元构成, 拥有大量的核(多达几千个)和大量的高速内存,擅长做 类似图像处理的并行计算,以矩阵的分布式形式来实现 计算。同CPU不同的是,GPU的计算单元明显增多, 特别适合大规模并行计算。Page 10通用计算GPUNVIDIA一

8、家独大u 2010年NVIDIA就开始布局人工智能产品, u 2014年发布了新一代PASCAL GPU芯片架构,这是NVIDIA的第五代GPU架构,也是 首个为深度学习而设计的GPU,它支持所有主流的深度学习计算框架。 u 2016年上半年,NVIDIA又针对神经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器,采用 NVLINK互联技术,软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训 练系统、驱动程序和CUDA,能够快速设计深度神经网络(DNN),拥有高达 170TFLOP

9、S的半精度浮点运算能力,相当于250台传统服务器,可以将深度学习的训 练速度加快75倍,将CPU性能提升56倍。Page 11Training市场NVIDIA竞争对手Googleu Training市场目前能与NVIDIA竞争的就是Google。 u 今年5月份Google发布了TPU 2.0,TPU(TensorProcessing Unit)是Google研发的一款 针对深度学习加速的ASIC芯片,第一代TPU仅能用于推理,而目前发布的TPU 2.0既 可以用于训练神经网络,又可以用于推理。 u TPU2.0包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法, 使用

10、新的计算机网络将64个TPU组合到一起,升级为所谓的TPU Pods,可提供大约 11500万亿次浮点运算能力。Google表示,公司新的深度学习翻译模型如果在32块性 能最好的GPU上训练,需要一整天的时间,而八分之一个TPU Pod就能在6个小时内 完成同样的任务。 u 目前Google 并不直接出售TPU芯片,而是结合其开源深度学习框架TensorFlow为AI开 发者提供TPU云加速的服务,以此发展TPU2的应用和生态,比如TPU2同时发布的 TensorFlow Research Cloud (TFRC) 。Page 12传统CPU/GPU厂家也进入Training市场u 传统CPU

11、/GPU厂家Intel和AMD也在努力进入这Training市场,如Intel推出的Xeon Phi+Nervana方案,u AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威胁 。u 初创公司中,英国Graphcore公司 的IPU处理器(IntelligenceProcessing Unit)据介绍也 同时支持Training和Inference。该IPU采用同构多核架构,有超过1000个独立的处理器 ;支持All-to-All的核间通信,采用BulkSynchronous Parallel的同步计算模型;采用大 量片上Memory,不直接连接DRAM。总

12、之,对于云端的Training(也包括Inference)系统来说,业界比较一致的观点是竞争的 核心不是在单一芯片的层面,而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、 Google的TensorFlow+TPU2.0,巨头的竞争也才刚刚开始。Intel Xeon Phi + NervanaAMD 下一代VEGA架构GPU芯片Page 13Inference On Cloud云端推理FPGA应用u 相对于Training市场上NVIDIA的一家独大,Inference市场竞争则更为分散。 u 业界所说的深度学习市场占比(Training占5%,Inference占95%),Infe

13、rence市场竞争 必然会更为激烈。 u 在云端推理环节,虽然GPU仍有应用,但并不是最优选择,更多的是采用异构计算方 案(CPU/GPU +FPGA/ASIC)来完成云端推理任务。 u FPGA领域,四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel收购 )在云端加速领域优势明显。 u Altera在2015年12月被Intel收购,随后推出了Xeon+FPGA的云端方案,同时与Azure 、腾讯云、阿里云等均有合作; u Xilinx则与IBM、百度云、AWS、腾讯云合作较深入,另外Xilinx还战略投资了国内AI 芯片初

14、创公司深鉴科技。目前来看,云端加速领域其他FPGA厂商与Xilinx和Altera还有 很大差距。Page 14Inference On Cloud云端推理FPGA应用时间公司内容2015/06/10IBM在IBM POWER系统上运用Xilinx FPGA加速工作负载处理技术2016/03/23FacebookFacebook开始采用CPU + FPGA服务器2016/09/30微软微软开始使用FPGA 加速Bing搜索和Azure云计算2016/11/30亚马逊AWS亚马逊AWS推出FPGA云服务EC2 F12017/01/20腾讯云腾讯云推出国内首款高性能异构计算基础设施FPGA云服务器

15、2017/01/21阿里云阿里云发布异构计算解决方案:弹性GPU实例和FPGA解决方案2017/05/25百度云百度对外正式发布FPGA云服务器Page 15Inference On Cloud云端推理ASIC应用u ASIC领域,应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中, TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit MAC组成的矩 阵乘法单元,峰值可以达到92 TeraOps/second(TOPS)。有一个很大的片上存储器, 一共28 MiB。它可以支持MLP,CNN和LSTM这些常见的神经网络

16、,并且支持 TensorFLow框架。它的平均性能(TOPS)可以达到CPU和GPU的15到30倍,能耗效率 (TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory,这两个数值可以达到大约 GPU的70倍和CPU的200倍。TPU 2.0既用于训练,也用于推理,上一节已经做过介绍 。u 国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片,目前与科大讯飞 、曙光等均有合作。Page 16Inference On Device设备端推理u 设备端推理的应用场景更为多样化,智能手机、ADAS、智能摄像头、语音交互、 VR/AR等设备需求各异,需要更为定制化、低功耗、低成本的嵌入式解决方案,这就 给了创业公司更多机会,市场竞争生态也会更加多样化Page 17Inference On Device设备端推理智能手机应用u

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号