文档详情

深度学习芯片

枫**
实名认证
店铺
DOCX
1.54MB
约19页
文档ID:518443520
深度学习芯片_第1页
1/19

AI芯片分类:功能:   1.Training(训练)     2. Inference(推理)两个环节;应用场景: 1. Cloud/DataCenter(云端)2. Device/Embedded(设备端)技术架构发展类型:1、通用类芯片,代表如GPU、FPGA;2、基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;3、全定制化ASIC芯片,代表如googleTPU、寒武纪 Cambricon-1A等;4、类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等类型比对一、 GPU 长处:具有数以千计的计算核心可实现 10-100倍应用吞吐量  支持对深度学习至关重要的并行计算能力  比老式解决器更加迅速 加快了训练过程  目前最普遍采用的深度学习运算单元之一局限性:1. 应用过程中无法充足发挥并行计算优势深度学习涉及训练和应用两个计算环节,GPU在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行解决, 并行度的优势不能完全发挥2. 硬件构造固定不具有可编程性深度学习算法尚未完全稳定,若深度学习算法发生大的变化,GPU无法灵活的配备硬件构造。

能耗  虽然 GPU要好于 CPU,但其能耗仍旧很大二、 FPGAFPGA,即现场可编辑门阵列,是一种新型的可编程逻辑器件,由于其具有静态可反复编程和动态在系统重构的特性,使得硬件的功能可以像软件同样通过编程来修改FPGA作为人工智能深度学习方面的计算工具,重要因素就在于其自身特性:可编程专用性,高性能,低功耗北京大学与加州大学的一种有关FPGA 加速深度学习算法的合伙研究展示了 FPGA 与 CPU 在执行深度学习算法时的耗时对比在运营一次迭代时,使用 CPU耗时 375 毫秒,而使用 FPGA 只耗时 21 毫秒,获得了 18 倍左右的加速比根据瑞士苏黎世联邦理工学院(ETHZurich)研究发现,基于FPGA的应用加速比CPU/GPU方案,单位功耗性能可提高25倍,而时延则缩短了50到75倍,与此同步还能实现杰出的I/O集成而微软的研究也表白,FPGA的单位功耗性能是 GPU 的 10倍以上,由多种 FPGA 构成的集群能达到 GPU 的图像解决能力并保持低功耗的特点根据英特尔估计,到 ,将有 1/3 的云数据中心节点采用 FPGA 技术三、 不可估计的 ASICASIC(Application Specific Integrated Circuits,专用集成电路),是指应特定顾客规定或特定电子系统的需要而设计、制造的集成电路。

ASIC用于专门的任务,例如清除噪声的电路,播放视频的电路,但是 ASIC明显的短板是不可更改任务但与通用集成电路相比,具有如下几种方面的优越性:体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本减少从算力上来说,ASIC产品的计算能力是 GK210 的 2.5 倍功耗上,ASIC 功耗做到了 GK210(NVIDIA) 的 1/15固然ASIC是能效最高的,但目前,都在初期阶段,算法变化各异想搞一款通用的ASIC适配多种场景,还是有诸多路需要走的但从比特币挖矿机经历的从CPU、GPU、FPGA到最后 ASIC 的四个阶段来推论,ASIC将是人工智能发展的重要趋势之一此外,在通信领域,FPGA曾经也是风行一时,但是随着 ASIC 的不断发展和蚕食,FPGA的份额和市场空间已经岌岌可危四、 NPU:为深度学习而生的专业芯片从技术角度看,深度学习事实上是一类多层大规模人工神经网络它模仿生物神经网络而构建,由若干人工神经元结点互联而成神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱每个神经元可抽象为一种鼓励函数,该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。

为了体现特定的知识,使用者一般需要(通过某些特定的算法)调节人工神经网络中突触的取值、网络的拓扑构造等该过程称为“学习”在学习之后,人工神经网络可通过习得的知识来解决特定的问题由于深度学习的基本操作是神经元和突触的解决,而老式的解决器指令集(涉及x86和ARM等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才干完毕一种神经元的解决,深度学习的解决效率不高因此google甚至需要使用上万个x86 CPU核运营7天来训练一种辨认猫脸的深度学习神经网络因此,老式的解决器(涉及x86和ARM芯片等)用于深度学习的解决效率不高,这时就必须另辟蹊径——突破典型的冯·诺伊曼构造以中国的寒武纪为例,DianNaoYu指令直接面对大规模神经元和突触的解决,一条指令即可完毕一组神经元的解决,并对神经元和突触数据在芯片上的传播提供了一系列专门的支持此外,神经网络中存储和解决是一体化的,都是通过突触权重来体现 而冯·诺伊曼构造中,存储和解决是分离的,分别由存储器和运算器来实现,两者之间存在巨大的差别当用既有的基于冯·诺伊曼构造的典型计算机(如X86解决器和英伟达GPU)来跑神经网络应用时,就不可避免地受到存储和解决分离式构造的制约,因而影响效率。

这也就是专门针对人工智能的专业芯片可以对老式芯片有一定先天优势的因素之一用数字来说话,CPU、GPU与NPU相比,会有百倍以上的性能或能耗比差距——以寒武纪团队过去和Inria联合刊登的DianNao论文为例——DianNao为单核解决器,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02平方毫米mm在若干代表性神经网络上的实验成果表白——DianNao的平均性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提高可达三个数量级;DianNao的平均性能与主流GPU相称,但面积和功耗仅为主流GPU百分之一量级AI芯片产业生态:全球AI芯公司:国内AI芯片公司已成熟、权威的芯片厂商(一) 英伟达JetsonTX1芯片方案 (GPU)相继为Parrot及其竞争对手大疆提供芯片,针对无人机市场,英伟达开发了Jetson TX1芯片方案,可以胜任各类图像图形辨认和高档人工智能任务,使用它的无人机可以在空中停留更长时间二) 英特尔解决器英特尔把无人机作为其解决器产品的一大新兴应用加以推广,并且更乐意看到其这两年主打的RealSense实感技术即3D摄像头的无人机应用有所突破。

采用英特尔实感技术的Yuneec Typhoon H,具有防撞功能,具有以便起飞、配备4K摄像头和360度万向接头,以及遥控器内置显示屏等特点,内置了高达6个英特尔的“Real Sense”3D摄像头,采用了四核的英特尔凌动(Atom)解决器的PCI-express定制卡,来解决距离远近与传感器的实时信息,以及如何避免近距离的障碍物在无人机视觉方面英特尔最大的优势在于其RealSense技术采用的红外激光,相较起高通的双目视觉技术,规避了计算机视觉辨认物体的大量计算,并有效提高了精度三) 三星Artik5芯片三星Artik芯片有三个型号,其中应用于无人机的重要是Artik5,Artik5尺寸为29x25mm,搭载1GHz ARM双核解决器(Mali 400 MP2 GPU),搭配的是512MB LPDDR3内存以及4GB eMMc闪存支持Wi-Fi、低功耗蓝牙,支持802.11 b/g/n此外,该芯片还能对解码H.264等格式720p 30fps的视频进行解码,并提供了TrustZone四) 高通骁龙Flight平台  骁龙Flight是一块高度优化的58x40mm开发板,专门针对消费级无人机和机器人应用而设计。

骁龙Flight涉及一颗骁龙801SoC(由四颗主频为2.26GHz的核心构成),支持GPS、4K视频拍摄、强劲的连接性以及先进的无人机软件和开发工具,双通道Wi-Fi和蓝牙模块,支持实时飞行控制系统,拥有全球导航卫星系统(GNSS)接受器,支持4K视频解决,支持迅速充电技术腾讯的Ying、零零无限的小型无人机产品 hover camera 及零度智控的自拍无人机dobby的样机都用的是snapdragon flight无人机设计平台 Snapdragon Flight 无人机芯片具有和智能相似的解决器   对比目前重要的无人机芯片解决方案,高通snapdragon flight 的CPU 尺寸最小、主频最高目前已应用于国内厂商零零无限的小型无人机产品hover camera 及零度智控的自拍无人机dobby 的样机五) Ambarella(安霸公司)位于加利福尼亚的视频压缩和图像解决芯片厂商,在今年的CES上发布了三款全新的芯片,筹划将新一代影像带到汽车、无人机、VR以及运动相机中去安霸公司高性能的压缩解决器芯片获得了全球厂商的高度承认诸多世界出名的公司都采用了该公司的方案,涉及GoPro运动照相机、大疆无人机、Google最新二四镜头VR相机。

六) 大疆Manifold (GPU) 价格4699Manifold 妙算 专为飞行平台设计的嵌入式机载电脑, 拥有PC独立显卡级别的绘图能力,支持DirectX 11、OpenGL 4.4,可让机器人实时进行复杂的图像解决Manifold还 支持NVIDIA CUDA,用于开发最前沿的 GPU 加速应用,可将程序性能提高数倍Manifold能广泛应用于计算机视觉、深度学习等人工智能领域,让你的设备具有环境感知、物体辨识和实时反映能力便捷的开发环境强大的移动计算机 Manifold采用NVIDIA Tegra K1解决器,内含4+1 四核ARM - Cortex A15核心和192个GPU CUDA核心,最高主频达2.2GHzNVIDIA 4-Plus-1 (4-Plus-1™) 四核 ARM® Cortex-A15低功耗 NVIDIA Kepler™ Geforce® 图像解决器 GPU核心不仅能实现强大的图像解决能力,并且能高效地解决并行任务,浮点运算能力达326GFLOPSManifold能让你发挥创意,设计更智能的程序,把机器人应用在更广阔的领域Manifold 妙算为开发者设计,它搭载了Ubuntu操作系统*,可便捷安装运营Linux软件,支持CUDA、OpenCV及ROS等,非常适合用在专业应用的研究和开发中。

Manifold全面支持DJI Onboard SDK,可轻松获取飞行数据,并进行控制和数据分析,把你的创意和DJI飞行平台优秀的性能轻松结合低功耗Manifold 妙算采用低功耗设计方案,可为你的机器人提供长期续航其峰值功耗约15W,仅为一般笔记本电脑的四分之一,配备的TegraK1 CPU共有4个A15核心,可沉着应对复杂的计算任务, 1个附属核心负责简朴任务的解决其中,4个A15核心中的每一种核心均可根据工作负荷的繁重限度,独立而自动地启用和关闭,从而减少整体功耗耗电量MAX ≈ 15W新型芯片厂商(七) 寒武纪(国产  ASIC)ﻩ寒武纪是全球第一种成功流片并拥有成熟产品的AI芯片公司,拥有终端AI解决器IP和云端高性能AI芯片两条产品线发布的寒武纪1A解决器(Cambricon-1A)是世界首款商用深度学习专用解决器,面向智能、安防监控、无人机、可穿戴设备以。

下载提示
相似文档
正为您匹配相似的精品文档