2019年企业研究报告—中科寒武纪-简版

资源描述

《2019年企业研究报告—中科寒武纪-简版》由会员分享，可在线阅读，更多相关《2019年企业研究报告—中科寒武纪-简版（30页珍藏版）》请在金锄头文库上搜索。

1、企业研究报告企业研究报告 2019年中科寒武纪 2 2019 1 iResearch Inc 摘要来源艾瑞咨询研究院自主研究绘制目前已有大量科技公司及人才涌入智能芯片领域其中除近几年成立的大量创业公司外传统的芯片科技巨头也在布局该领域在面对行业竞争及挑战时相比起终端市场公司在云计算领域有更强的产品硬件软件及产业竞争优势推测公司未来有望成为首批科创板挂牌企业通过上市实现二级市场融资以支持公司进一步发展资金需求寒武纪是中科院计算所下孵化的AI芯片研发单位团队曾参与研发国产龙芯芯片在AI芯片领域发表了多篇领先业界的芯片架构及指令集设计论文多篇论文获

2、取学界顶级奖项技术储备雄厚公司自16年成立已经推出了面向终端市场的1A 1H 1M产品及针对云数据中心训练端的MLU100产品并且开发了针对于NN运算的通用ISA和针对于自家芯片的SDK 1A和1H产品已经被华为麒麟系列芯片SoC所采纳此外公司与多家服务器厂商推出针对云端推理场景的智能服务器产品公司自2016年成立以来已进行多轮融资当前估值已达到25亿美元公司股东除实际控制人及中科院外还有多家带有带有国资背景的基金以及以阿里科大讯飞联想等为代表的上市公司 SMSSMS 3 公司基本情况介绍 1 AI芯片简介 2 公司业务代表厂商代表厂商 Xilinix Alter

3、a 概念概念专用集成电路在人工智能领域被称作神经网络处理器从硬件角度对神经网络结构进行模拟优点优点由于是针对专门的任务进行设计因此体积更小功耗更低可靠性高性能高成本低缺点缺点开发难度高初始投入大一旦完成芯片设计难以再对结构进行更改应用场景应用场景数据中心边缘计算如移动设备自动驾驶等代表厂商代表厂商 Google 寒武纪地平线比特大陆通用性强通用性强运算效率更高运算效率更高能耗更低能耗更低器件成本更低器件成本更低 13 2019 1 iResearch Inc AI芯片应用场景及代表企业 AI芯片是一种实现ML计算主要是

4、矩阵加乘加速的特殊芯片其主要的应用场景分为云计算数据中心和边缘计算边缘计算典型场景如摄像头IPC SoC 自动驾驶车辆DCU以及手机SoC等 AI芯片主要功能包括训练基于训练集实现深度学习模型的构建推断基于训练好的模型通过代入新的观察值导出模型推断结果来源根据公开网络数据整理自主绘制 CloudCloud TrainingTraining InferenceInference InferenceInference AI芯片可分为云端边缘两大应用场景并实现训练推理功能云端芯片分为训练和推理两个功能云端芯片分为训练和推理两个功能其中其中目前在训练市场以目前在训练市

5、场以NvidiaNvidia的的GPU GPU CudaCuda方案为主方案为主为开发者提供了从硬件到软件的友好为开发者提供了从硬件到软件的友好完善的开发环境完善的开发环境云端场景对芯片的要求云端场景对芯片的要求精度精度算力算力内存内存带宽带宽同时追求低延时和低能耗同时追求低延时和低能耗 EdgeEdge 边缘芯片主要实现在终端应用场景下的模型推断工作边缘芯片主要实现在终端应用场景下的模型推断工作即根据事先训练好的模型即根据事先训练好的模型将实时收集的数据输入模型并导出结果将实时收集的数据输入模型并导出结果目前该领域市场格局还比较分散目前该领域市场格局还比较分散边缘计算

6、对芯片的要求边缘计算对芯片的要求功耗功耗计算延迟计算延迟体积体积成本以及数据安全等问题成本以及数据安全等问题智能手机智能手机智慧城市智慧城市摄像头摄像头自动驾驶自动驾驶 AR VRAR VR 智能家居智能家居智能音箱智能音箱应用场景应用场景智能制造智能制造智慧农业智慧农业机器人机器人无无人机人机 CNNCNN MLPMLP PMPM RNNRNN LSTMLSTM Neural Neural NetworksNetworks RBMRBM SDMSDM HNN HNN 人工智能芯片产业图谱人工智能芯片产业图谱 14 公司基本情况介绍 1 AI芯片

7、简介 2 公司业务竞争力分析 3 总结 4 15 公司基本情况介绍 1 AI芯片简介 2 公司业务竞争力分析 3 总结 4 当前公司业务发展分析 3 1 在不同场景下公司竞争力分析 3 2 16 2019 1 iResearch Inc 公司团队是全球AI芯片理论的先行者全球最早提出神经网络专用芯片架构及通用指令集设计理论传统的基于GPU FPGA的加速以及直接硬件化算法的ASIC并没有真正解决内存访问和带宽限制公司创始团队提出 DianNao 系列微架构实现小芯片解决大规模机器学习算法问题 DianNao 系列可以在损失一小部分计算精度半精度计算下更高效降低芯片面积和功

8、耗的完成神经网络计算任务 PuDianNao 实现了对多种深度学习算法的兼容 DianNaoYu Cambricon 提出了神经网络计算芯片指令集架构 ISA 实现对十种代表性神经网络 NN 的兼容提升了神经网络芯片指令效率奠定了设计通用型神经网络计算芯片 ASIC 的基础 Google TPU主架构师曾与寒武纪共同开发DianNao架构其TPU论文大量引用 DianNao 系列论文成果来源寒武纪 DianNao 系列论文 DianNaoDianNao 20142014 ASPLOS2014ASPLOS2014最佳论文奖最佳论文奖亚洲第一次亚洲第一次原型神经网络处理器结构

9、针对CNN DNN RNN神经网络计算设计相比起传统的硬件加速器方案拥有更灵活的可拓展性其包含一个处理器核主频为0 98GHz 运算峰值达到 0 45TOPs 65nm工艺下能耗仅为0 485W 性能超过主流CPU100倍但是面积和功耗仅为其1 10 平均性能与GPGPU相当但功耗仅为其百分之一量级 DaDianNaoDaDianNao 20142014 MICR2O14MICR2O14最佳论文奖最佳论文奖美国以外国家第一次美国以外国家第一次是DianNao的多核并行架构版本揭示神经网络的可分特性使加速器具备可扩展性包含16 个NFU核和更大的片上存

10、储并支持多芯片间直接高速互连避免高昂的内存访问开销主频为606MHz 28nm工艺下功耗约16W 性能超过主流GPU21倍而功耗仅为其1 330 该架构可实现对深度学习 training过程的支持 ShiDianNaoShiDianNao 20152015 ISCA2015ISCA2015 由于DRAM的读写会有相当大的功耗并产生延迟 ShiDianNao 提出通过加速器与传感器直连而绕过内存从而降低芯片运算对内存存访的依赖而CNN算法共享权值存储于SRAM 中避免了对于DRAM 的使用 PuDianNaoPuDianNao 20152015 ASPL

11、OS2015ASPLOS2015 实现了包括k 最近邻 k 均值朴素贝叶斯线性回归等7种机器学习算法的兼容主频为 1GHz 峰值性能达每秒 1 06TOPs 面积3 51 mm 2 功耗为 0 596W 65nm工艺下 PuDianNao运行上述机器学习算法时的平均性能与主流GPGPU 相当但面积和功耗仅为主流GPGPU百分之一量级 DianNaoYuDianNaoYu 20162016 ISCA2016 ISCA2016 评分排名位列第一评分排名位列第一全球首个神经网络通用指令集架构兼容十种代表性的神经网络针对大规模的神经元计算单条指令即可完成一次向量或

12、矩阵运算 Cambricon架构下的代码长度分别比 GPU X86 MIPS短6 41 9 86 13 38倍性能是 X86和GPU的91 72倍和 3 09倍而GPU的功耗是Cambricon的130 53 倍通用性通用性 17 2019 1 iResearch Inc 本地到云端的全套软硬件方案 1 3 终端智能处理器基于DianNao系列论文开发ASIC专用计算芯片产品性能持续迭代提升智能处理器智能处理器IP 终端终端性能参数性能参数总结总结 Cambricon 1ACambricon 1A 采用台积电10nm工艺生产 512GFlops 1GHz 技术特点

13、技术特点 1A处理器是全球第一款商用深度学习处理器IP 其稀疏化技术优异可实现四核通用CPU 25倍以上的性能和50倍以上的能效兼容Caffe TensorFlow Mxnet等主流AI开发平台性能表现性能表现寒武纪 1A可识别2500张照片分钟优于苹果A11的识别899张分钟的成绩商业化应用商业化应用 1A IP1A IP植入华为植入华为SirinSirin 970 970 SoCSoC芯片并用于芯片并用于Mate10Mate10手机手机 Cambricon 1HCambricon 1H 采用台积电7nm工艺提供 1TOPs 2TOPs 4TOPs 8TOPS 1GHz

14、技术特点技术特点 H系列相比上一代产品拥有更低的功耗和面积其中H8是针对低功耗视觉应用设计而H16拥有更广泛的通用性可广泛应用于计算机视觉语音识别自然语言处理等智能处理领域性能表现性能表现能耗比整体达到了上一代产品的2 3倍商业化应用商业化应用可应用于手机安防智能音箱智能机器人等领域 1H8 IP1H8 IP 植入华为植入华为SirinSirin 980 980 SoCSoC芯片中双核芯片中双核NPUNPU 应用于华为应用于华为Mate20 Mate20 和和荣耀荣耀 Magic2 Magic2 手机手机可实现每分钟识别照片可实现每分钟识别照片450045

15、00张张 Cambricon 1MCambricon 1M 采用台积电7nm工艺生产 8 位运算达到5TOPs Watt 寒武纪提供2TOPs 4TOPs 8TOPs三种尺寸的处理器内核技术特点技术特点寒武纪1M处理器除了与上两代芯片一样支持CNN RNN SOM 等多种深度学习模型还增加了SVM k NN k Means 决策树等经典机器学习算法的加速性能表现性能表现性能比1A提升了10倍商业化应用商业化应用全球首款支持本地机器学习训练的智能处理器产品全球首款支持本地机器学习训练的智能处理器产品可为视觉语音自然语言处理等任务提供高效计算平台同时可以应用于智能手机智

16、能音箱摄像头自动驾驶等不同领域来源中科寒武纪公司官网网络公开数据寒武纪智能终端产品性能介绍寒武纪智能终端产品性能介绍 18 2019 1 iResearch Inc 本地到云端的全套软硬件方案 2 3 云端智能处理器寒武纪首推我国第一款用于云端的人工智能芯片板卡产品 ASIC 实现了从终端到云端的全线布局来源中科寒武纪公司官网网络公开数据寒武纪寒武纪MLU100 MLU100 云端云端性能参数性能参数总结总结核心架构核心架构 Cambricon MLUv01 性能表现性能表现 MLU 100是寒武纪首推的国内第一款云端智能处理芯片相比之前的产品其性能得到了极大的提升主要为视觉语音等复杂场景的云端智能处理推断提供了重要支撑商业化应用商业化应用中科曙光推出了基于 Cambricon MLU100智能处理卡的服务器产品系列 PHANERON 联想推出了基于Cambricon MLU100智能处理卡的ThinkSystem SR650 该产品采用了2 块MLU100智能处理卡打破了37项服务器基准测试的世界纪录可以满

展开阅读全文