2019年企业研究报告—中科寒武纪-简版

上传人:热**** 文档编号:131189065 上传时间:2020-05-05 格式:PDF 页数:30 大小:1.40MB
返回 下载 相关 举报
2019年企业研究报告—中科寒武纪-简版_第1页
第1页 / 共30页
2019年企业研究报告—中科寒武纪-简版_第2页
第2页 / 共30页
2019年企业研究报告—中科寒武纪-简版_第3页
第3页 / 共30页
2019年企业研究报告—中科寒武纪-简版_第4页
第4页 / 共30页
2019年企业研究报告—中科寒武纪-简版_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《2019年企业研究报告—中科寒武纪-简版》由会员分享,可在线阅读,更多相关《2019年企业研究报告—中科寒武纪-简版(30页珍藏版)》请在金锄头文库上搜索。

1、企业研究报告企业研究报告 2019年 中科寒武纪 2 2019 1 iResearch Inc 摘要 来源 艾瑞咨询研究院自主研究绘制 目前已有大量科技公司及人才涌入智能芯片领域 其中除近几年成立的大量创业公 司外 传统的芯片 科技巨头也在布局该领域 在面对行业竞争及挑战时 相比起 终端市场 公司在云计算领域有更强的产品 硬件 软件 及产业竞争优势 推测公司未来有望成为首批科创板挂牌企业 通过上市实现二级市场融资以支持公 司进一步发展资金需求 寒武纪是中科院计算所下孵化的AI芯片研发单位 团队曾参与研发国产 龙芯 芯 片 在AI芯片领域发表了多篇领先业界的芯片架构及指令集设计论文 多篇论文获

2、取学界顶级奖项 技术储备雄厚 公司自16年成立已经推出了面向终端市场的1A 1H 1M产品及针对云数据中心训练 端的MLU100产品 并且开发了针对于NN运算的通用ISA和针对于自家芯片的SDK 1A和1H产品已经被华为麒麟系列芯片SoC所采纳 此外 公司与多家服务器厂商 推出针对云端推理场景的智能服务器产品 公司自2016年成立以来已进行多轮融资 当前估值已达到25亿美元 公司股东除实 际控制人及中科院外还有多家带有带有国资背景的基金 以及以阿里 科大讯飞 联想等为代表的上市公司 SMSSMS 3 公司基本情况介绍 1 AI芯片简介 2 公司业务 代表厂商代表厂商 Xilinix Alter

3、a 概念概念 专用集成电路 在人 工智能领域被称作神经网络 处理器 从硬件角度对神经 网络结构进行模拟 优点优点 由于是针对专门的任 务进行设计 因此体积更小 功耗更低 可靠性高 性能 高 成本低 缺点缺点 开发难度高 初始投 入大 一旦完成芯片设计 难以再对结构进行更改 应用场景应用场景 数据中心 边缘 计算 如移动设备 自动驾 驶等 代表厂商代表厂商 Google 寒武纪 地平线 比特大陆 通用性强 通用性强 运算效率更高运算效率更高 能耗更低能耗更低 器件成本更低 器件成本更低 13 2019 1 iResearch Inc AI芯片应用场景及代表企业 AI芯片是一种实现ML计算 主要是

4、矩阵加乘 加速的特殊芯片 其主要的应用场景分为云计算数据中心和边缘计算 边 缘计算典型场景如 摄像头IPC SoC 自动驾驶车辆DCU以及手机SoC等 AI芯片主要功能包括 训练 基于训练集实 现深度学习模型的构建 推断 基于训练好的模型通过代入新的观察值导出模型推断结果 来源 根据公开网络数据整理自主绘制 CloudCloud TrainingTraining InferenceInference InferenceInference AI芯片可分为云端 边缘两大应用场景并实现训练 推理功能 云端芯片分为训练和推理两个功能云端芯片分为训练和推理两个功能 其中其中 目前在训练市场以目前在训练市

5、场以NvidiaNvidia的的GPU GPU CudaCuda方案为主方案为主 为开发者提供了从硬件到软件的友好为开发者提供了从硬件到软件的友好 完善的开发环境完善的开发环境 云端场景对芯片的要求云端场景对芯片的要求 精度精度 算力算力 内存内存 带宽带宽 同时追求低延时和低能耗同时追求低延时和低能耗 EdgeEdge 边缘芯片主要实现在终端应用场景下的模型推断工作边缘芯片主要实现在终端应用场景下的模型推断工作 即根据事先训练好的模型即根据事先训练好的模型 将实时收集的数据输入模型并导出结果将实时收集的数据输入模型并导出结果 目前该领域市场格局还比较分散目前该领域市场格局还比较分散 边缘计算

6、对芯片的要求边缘计算对芯片的要求 功耗功耗 计算延迟计算延迟 体积体积 成本以及数据安全等问题成本以及数据安全等问题 智能手机 智能手机 智慧城市智慧城市 摄像头 摄像头 自动驾驶 自动驾驶 AR VRAR VR 智能家居智能家居 智能音箱 智能音箱 应用场景 应用场景 智能制造 智能制造 智慧农业 智慧农业 机器人机器人 无无 人机 人机 CNNCNN MLPMLP PMPM RNNRNN LSTMLSTM Neural Neural NetworksNetworks RBMRBM SDMSDM HNN HNN 人工智能芯片产业图谱 人工智能芯片产业图谱 14 公司基本情况介绍 1 AI芯片

7、简介 2 公司业务 竞争力分析 3 总结 4 15 公司基本情况介绍 1 AI芯片简介 2 公司业务 竞争力分析 3 总结 4 当前公司业务发展分析 3 1 在不同场景下公司竞争力分析 3 2 16 2019 1 iResearch Inc 公司团队是全球AI芯片理论的先行者 全球最早提出神经网络专用芯片架构及通用指令集设计理论 传统的基于GPU FPGA的加速以及直接硬件化算法的ASIC并没有真正解决内存访问和带宽限制 公司创始团队提出 DianNao 系列微架构实现 小芯片 解决大规模机器学习算法问题 DianNao 系列可以在损失一小部分计算精 度 半精度计算 下更高效 降低芯片面积和功

8、耗 的完成神经网络计算任务 PuDianNao 实现了对多种深度学习算 法的兼容 DianNaoYu Cambricon 提出了神经网络计算芯片指令集架构 ISA 实现对十种代表性神经网络 NN 的兼容 提升了神经网络芯片指令效率 奠定了设计通用型神经网络计算芯片 ASIC 的基础 Google TPU主 架构师曾与寒武纪共同开发DianNao架构 其TPU论文大量引用 DianNao 系列论文成果 来源 寒武纪 DianNao 系列论文 DianNaoDianNao 20142014 ASPLOS2014ASPLOS2014最佳论文奖最佳论文奖 亚洲第一次 亚洲第一次 原型神经网络处理器结构

9、 针对CNN DNN RNN神经网络计算设计 相比起传统的硬件加速器方 案拥有更灵活的可拓展性 其包含一个处理器核 主频 为0 98GHz 运算峰值达到 0 45TOPs 65nm工艺下能 耗仅为0 485W 性能超过 主流CPU100倍 但是面积 和功耗仅为其1 10 平均性 能与GPGPU相当 但功耗 仅为其百分之一量级 DaDianNaoDaDianNao 20142014 MICR2O14MICR2O14最佳论文奖最佳论文奖 美国以外国家第一次 美国以外国家第一次 是DianNao的多核并行 架构版本 揭示神经网 络的可分特性使加速器 具备可扩展性 包含16 个NFU核和更大的片上 存

10、储 并支持多芯片间 直接高速互连 避免高 昂的内存访问开销 主 频为606MHz 28nm工 艺下功耗约16W 性能 超过主流GPU21倍 而 功耗仅为其1 330 该架 构可实现对深度学习 training过程的支持 ShiDianNaoShiDianNao 20152015 ISCA2015ISCA2015 由于DRAM的读写会有 相当大的功耗并产生延 迟 ShiDianNao 提 出通过加速器与传感器 直连而绕过内存 从而 降低芯片运算对内存存 访的依赖 而CNN算法 共享权值存储于SRAM 中 避免了对于DRAM 的使用 PuDianNaoPuDianNao 20152015 ASPL

11、OS2015ASPLOS2015 实现了包括k 最近邻 k 均值 朴素贝叶斯 线性回归等7种机器学习 算法的兼容 主频为 1GHz 峰值性能达每秒 1 06TOPs 面积3 51 mm 2 功耗为 0 596W 65nm工艺 下 PuDianNao运行 上述机器学习算法时的 平均性能与主流GPGPU 相当 但面积和功耗仅 为主流GPGPU百分之一 量级 DianNaoYuDianNaoYu 20162016 ISCA2016 ISCA2016 评分排名位列第一 评分排名位列第一 全球首个神经网络通用 指令集架构 兼容十种 代表性的神经网络 针 对大规模的神经元计算 单条指令即可完成一次 向量或

12、矩阵运算 Cambricon架构下的代 码长度分别比 GPU X86 MIPS短6 41 9 86 13 38倍 性能是 X86和GPU的91 72倍和 3 09倍 而GPU的功耗 是Cambricon的130 53 倍 通用性 通用性 17 2019 1 iResearch Inc 本地到云端的全套软硬件方案 1 3 终端智能处理器 基于DianNao系列论文开发ASIC专用计算 芯片 产品性能持续迭代提升 智能处理器智能处理器IP 终端 终端 性能参数 性能参数 总结 总结 Cambricon 1ACambricon 1A 采用台积电10nm工艺生产 512GFlops 1GHz 技术特点

13、技术特点 1A处理器是全球第一款商用深度学习处理器IP 其稀疏化技术优 异 可实现四核通用CPU 25倍以上的性能和50倍以上的能效 兼容Caffe TensorFlow Mxnet等主流AI开发平台 性能表现性能表现 寒武纪 1A可识别2500张照片 分钟 优于苹果A11的识别899张 分钟的成绩 商业化应用商业化应用 1A IP1A IP植入华为植入华为SirinSirin 970 970 SoCSoC芯片并用于芯片并用于Mate10Mate10手机手机 Cambricon 1HCambricon 1H 采用台积电7nm工艺 提供 1TOPs 2TOPs 4TOPs 8TOPS 1GHz

14、技术特点技术特点 H系列相比上一代产品拥有更低的功耗和面积 其中H8是针对低 功耗 视觉应用设计 而H16拥有更广泛的通用性 可广泛应用于计算机视 觉 语音识别 自然语言处理等智能处理领域 性能表现性能表现 能耗比整体达到了上一代产品的2 3倍 商业化应用商业化应用 可应用于手机 安防 智能音箱 智能机器人等领域 1H8 IP1H8 IP 植入华为植入华为SirinSirin 980 980 SoCSoC芯片中 双核芯片中 双核NPUNPU 应用于华为应用于华为Mate20 Mate20 和和 荣耀荣耀 Magic2 Magic2 手机手机 可实现每分钟识别照片可实现每分钟识别照片450045

15、00张张 Cambricon 1MCambricon 1M 采用台积电7nm工艺生产 8 位 运算达到5TOPs Watt 寒武纪提供2TOPs 4TOPs 8TOPs三种尺寸的处理器内核 技术特点技术特点 寒武纪1M处理器除了与上两代芯片一样支持CNN RNN SOM 等多种深度学习模型 还增加了SVM k NN k Means 决策树等经典机 器学习算法的加速 性能表现性能表现 性能比1A提升了10倍 商业化应用商业化应用 全球首款支持本地机器学习训练的智能处理器产品全球首款支持本地机器学习训练的智能处理器产品 可为视觉 语音 自然语言处理等任务提供高效计算平台 同时可以应用于智能手机 智

16、能音箱 摄像头 自动驾驶等不同领域 来源 中科寒武纪公司官网 网络公开数据 寒武纪智能终端产品性能介绍 寒武纪智能终端产品性能介绍 18 2019 1 iResearch Inc 本地到云端的全套软硬件方案 2 3 云端智能处理器 寒武纪首推我国第一款用于云端的人工智 能芯片 板卡产品 ASIC 实现了从终端到云端的全线布局 来源 中科寒武纪公司官网 网络公开数据 寒武纪寒武纪MLU100 MLU100 云端 云端 性能参数 性能参数 总结 总结 核心架构 核心架构 Cambricon MLUv01 性能表现性能表现 MLU 100是寒武纪首推的国 内第一款云端智能处理芯片 相比之前 的产品 其性能得到了极大的提升 主 要为视觉 语音等复杂场景的云端智能 处理 推断 提供了重要支撑 商业化应用商业化应用 中科曙光推出了基于 Cambricon MLU100智能处理卡的服务 器产品系列 PHANERON 联想推出 了基于Cambricon MLU100智能处理卡 的ThinkSystem SR650 该产品采用了2 块MLU100智能处理卡 打破了37项 服务器基准测试的世界纪录 可以满

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 商业贸易

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号