2018人工智能芯片研究报告.pdf

上传人:灯火****19 文档编号:135216005 上传时间:2020-06-13 格式:PDF 页数:45 大小:2.82MB
返回 下载 相关 举报
2018人工智能芯片研究报告.pdf_第1页
第1页 / 共45页
2018人工智能芯片研究报告.pdf_第2页
第2页 / 共45页
2018人工智能芯片研究报告.pdf_第3页
第3页 / 共45页
2018人工智能芯片研究报告.pdf_第4页
第4页 / 共45页
2018人工智能芯片研究报告.pdf_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《2018人工智能芯片研究报告.pdf》由会员分享,可在线阅读,更多相关《2018人工智能芯片研究报告.pdf(45页珍藏版)》请在金锄头文库上搜索。

1、 2018 人工智能芯片 研究报告 AMiner 研究报告第十四期 清华 中国工程院知识智能联合实验室 2018 年 10 月 清华大学计算机系 中国工程科技知识中心 2018 年 10 月 知识智能联合研究中心 Z Contents 目录 一 概述篇 1 1 AI 芯片的分类 2 1 2 AI 芯片发展历程 4 1 我国 AI 芯片发展情况 6 2 1 传统的 CPU 及其局限性 8 2 2 并行加速计算的 GPU 9 2 半定制化的 FPGA 10 2 4 全定制化的 ASIC 12 2 5 类脑芯片 1 2 6 AI 芯片技术特点比较 14 二 技术篇 三 产业篇 产业篇 16 四 人物

2、篇 4 1 学者分布及迁徙 24 4 2 代表性研究学者 25 五 应用趋势篇 5 应用领域篇 1 六 趋势篇 6 趋势篇 6 图 1 人工智能与深度学习 2 图 2 AI 芯片发展历程 5 图 传统 CPU 内部结构图 仅 ALU 为主要计算模块 8 图 4 CPU 及 GPU 结构对比图 引用自 NVIDIA CUDA 文档 9 图 5 GPU 芯片的发展阶段 10 图 6 FPGA 在人工智能领域的应用 11 图 7 Cambricon 1A 引用自官网 16 图 8 集成了 NPU 的神经网络处理器 引用自官网 17 图 9 地平线公布的 BPU 发展战略图 引用自官网 17 图 10

3、 亚里士多德架构 引用自官网 18 图 11 CI1006 芯片 引用自官网 19 图 12 华为麒麟 970 神经网络处理器 NPU 19 图 1 人工智能芯片领域研究学者全球分布 24 图 14 人工智能芯片领域研究学者全球分布 24 图 15 各国人才逆顺差 25 图 16 AI 芯片应用领域 1 图 17 华为 Mate10 成像效果对比图 1 图 18 苹果的 Face ID 2 图 19 分解卷积可降低消耗 6 图 20 逐层动态定点方法 7 图 21 五级流水线结构 7 表 1 人工智能专用芯片 包括类脑芯片 研发情况一览 12 图表目录 摘要 2010 年以来 由于大数据产业的

4、发展 数据量呈现爆炸性增长态势 而传统的计算架 构又无法支撑深度学习的大规模并行计算需求 于是研究界对 AI 芯片进行了新一轮的技术 研发与应用研究 AI 芯片是人工智能时代的技术核心之一 决定了平台的基础架构和发展 生态 本报告在此背景下 对人工智能芯片的发展现状进行了简单梳理 包括以下内容 人工智能芯片人工智能芯片概念 概念 首先对人工智能芯片相关概念 技术路线以及各自特点进行介绍 接着对国外 国内 AI芯片的发展历程及现状进行梳理 AI 芯片的技术特点及局限性芯片的技术特点及局限性 对 AI芯片的几个技术流派进行介绍 AI 芯片厂商芯片厂商介绍 介绍 对 AI芯片领域的国内外代表性厂商进

5、行介绍 AI 芯片领域专家介绍 芯片领域专家介绍 通过 AMiner 大数据平台对 AMiner 的人工智能芯片人才库进行 数据挖掘 统计分析领域内学者分布及迁徙 同时 介绍了目前 AI 芯片领域的国内外代表 性研究学者 AI芯片芯片应用应用领域领域介绍 介绍 AI芯片已经渗透到日常生活的方方面面 本报告主要对智能手 机 ADAS CV VR 语音交互设备 机器人等方向的应用进行介绍 AI 芯片的发展芯片的发展趋势介绍趋势介绍 人工智能的发展历经波折 如今得益于大数据的供给 深度 学习算法的革新以及硬件技术的提升 AI 芯片以不可阻挡的势态飞速发展 AI 芯片的算力 提高 功耗降低及更合理的算

6、法实现必然是将来的发展趋势 1 concept 概述篇 2 1 概述概述篇篇 人工智能 Artificial Intelligence AI 芯片的定义 从广义上讲只要能够运行人工智 能算法的芯片都叫作 AI 芯片 但是通常意义上的 AI 芯片指的是针对人工智能算法做了特 殊加速设计的芯片 现阶段 这些人工智能算法一般以深度学习算法为主 也可以包括其 它机器学习算法 人工智能与深度学习的关系如图 1所示 图 1 人工智能与深度学习 深度学习算法 通常是基于接收到的连续数值 通过学习处理 并输出连续数值的过 程 实质上并不能完全模仿生物大脑的运作机制 基于这一现实 研究界还提出了 SNN Spi

7、king Neural Network 脉冲神经网络 模型 作为第三代神经网络模型 SNN 更贴近 生物神经网络 除了神经元和突触模型更贴近生物神经元与突触之外 SNN 还将时域信 息引入了计算模型 目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth Intel 的 Loihi 以及 国内的清华大学天机芯为代表 1 1 AI 芯片的分类芯片的分类 1 AI 芯片芯片按按技术架构分类技术架构分类 GPU Graphics Processing Unit 图形处理单元 在传统的冯 诺依曼结构中 CPU 每 执行一条指令都需要从存储器中读取数据 根据指令对数据进行相应的操作 从这

8、个特点 可以看出 CPU 的主要职责并不只是数据运算 还需要执行存储读取 指令分析 分支跳 转等命令 深度学习算法通常需要进行海量的数据处理 用 CPU执行算法时 CPU将花费 大量的时间在数据 指令的读取分析上 而CPU的频率 内存的带宽等条件又不可能无限制 提高 因此限制了处理器的性能 而 GPU 的控制相对简单 大部分的晶体管可以组成各类 专用电路 多条流水线 使得 GPU 的计算速度远高于 CPU 同时 GPU 拥有了更加强大的 浮点运算能力 可以缓解深度学习算法的训练难题 释放人工智能的潜能 但 GPU无法单独工作 必须由 CPU进行控制调用才能工作 而且功耗比较高 半定制化的 FP

9、GA FPGA Field Programmable GateArray 全称 现场可编程门阵列 其基本原理是在FPGA芯片内集成大量的基本门电路以及存储器 用户可以通过更新FPGA 配置文件来定义这些门电路以及存储器之间的连线 与 GPU 不同 FPGA 同时拥有硬件流水线并行和数据并行处理能力 适用于以硬件流 水线方式处理一条数据 且整数运算性能更高 因此常用于深度学习算法中的推断阶段 不过 FPGA 通过硬件的配置实现软件算法 因此在实现复杂算法方面有一定的难度 将 FPGA 和 CPU 对比可以发现两个特点 一是 FPGA 没有内存和控制所带来的存储和读取部 分 速度更快 二是 FPG

10、A 没有读取指令操作 所以功耗更低 劣势是价格比较高 编程 复杂 整体运算能力不是很高 目前国内的 AI 芯片公司如深鉴科技就提供基于 FPGA 的解 决方案 全定制化 ASIC ASICc Application Specific Integrated Circuit 专用集成电路 是专 用定制芯片 即为实现特定要求而定制的芯片 定制的特性有助于提高 ASIC 的性能功耗 比 缺点是电路设计需要定制 相对开发周期长 功能难以扩展 但在功耗 可靠性 集 成度等方面都有优势 尤其在要求高性能 低功耗的移动应用端体现明显 谷歌的 TPU 寒武纪的 GPU 地平线的 BPU都属于 ASIC芯片 谷歌

11、的 TPU比 CPU和 GPU的方案快 0 至 80 倍 与 CPU和 GPU 相比 TPU把控制电路进行了简化 因此减少了芯片的面积 降 低了功耗 神经拟态芯片 神经拟态计算是模拟生物神经网络的计算机制 神经拟态计算从结构 层面去逼近大脑 其研究工作还可进一步分为两个层次 一是神经网络层面 与之相应的 是神经拟态架构和处理器 如 IBM 的 TrueNorth 芯片 这种芯片把定制化的数字处理内核 当作神经元 把内存作为突触 其逻辑结构与传统冯 诺依曼结构不同 它的内存 CPU 和 通信部件完全集成在一起 因此信息的处理在本地进行 克服了传统计算机内存与 CPU 之 间的速度瓶颈问题 同时神

12、经元之间可以方便快捷地相互沟通 只要接收到其他神经元发 过来的脉冲 动作电位 这些神经元就会同时做动作 二是神经元与神经突触层面 与之 相应的是元器件层面的创新 如 IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度 的随机相变神经元 可实现高速无监督学习 2 AI 芯片芯片按按功能分类功能分类 根据机器学习算法步骤 可分为训练 training 和推断 inference 两个环节 训练环节通常需要通过大量的数据输入 训练出一个复杂的深度神经网络模型 训练 过程由于涉及海量的训练数据和复杂的深度神经网络结构 运算量巨大 需要庞大的计算 规模 对于处理器的计算能力 精度 可扩展性等性能要求

13、很高 目前市场上通常使用英 伟达的 GPU集群来完成 Google的 TPU2 0 0也支持训练环节的深度网络加速 4 推断环节是指利用训练好的模型 使用新的数据去 推断 出各种结论 这个环节的 计算量相对训练环节少很多 但仍然会涉及到大量的矩阵运算 在推断环节中 除了使用 CPU或 GPU进行运算外 FPGA以及 ASIC均能发挥重大作用 AI 芯片芯片按按应用场景分类应用场景分类 主要分为用于服务器端 云端 和用于移动端 终端 两大类 服务器端 在深度学习的训练阶段 由于数据量及运算量巨大 单一处理器几乎不可 能独立完成一个模型的训练过程 因此 负责 AI 算法的芯片采用的是高性能计算的技

14、术路 线 一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力 另一方面必须支 持浮点数运算 而且为了能够提升性能必须支持阵列式结构 即可以把多块芯片组成一个 计算阵列以加速运算 在推断阶段 由于训练出来的深度神经网络模型仍非常复杂 推断 过程仍然属于计算密集型和存储密集型 可以选择部署在服务器端 移动端 手机 智能家居 无人车等 移动端 AI 芯片在设计思路上与服务器端 AI 芯 片有着本质的区别 首先 必须保证很高的计算能效 其次 在高级辅助驾驶 ADAS 等设 备对实时性要求很高的场合 推断过程必须在设备本身完成 因此要求移动端设备具备足 够的推断能力 而某些场合还会有低功耗 低延

15、迟 低成本的要求 从而导致移动端的 AI 芯片多种多样 1 2 AI 芯片发展历程芯片发展历程 从图灵的论文 计算机器与智能 和图灵测试 到最初级的神经元模拟单元 感知 机 再到现在多达上百层的深度神经网络 人类对人工智能的探索从来就没有停止过 上 世纪八十年代 多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花 反 向传播的主要创新在于能将信息输出和目标输出之间的误差通过多层网络往前一级迭代反 馈 将最终的输出收敛到某一个目标范围之内 1989 年贝尔实验室成功利用反向传播算法 在多层神经网络开发了一个手写邮编识别器 1998 年 Yann LeCun 和 Yoshua Bengi

16、o发表了 手写识别神经网络和反向传播优化相关的论文 Gradient based learning applied to document recognition 开创了卷积神经网络的时代 此后 人工智能陷入了长时间的发展沉寂阶段 直到1997年IBM的深蓝战胜国际象棋 大师和2011年IBM的沃森智能系统在Jeopardy节目中胜出 人工智能才又一次为人们所关 注 2016年 Alpha Go击败韩国围棋九段职业选手 则标志着人工智能的又一波高潮 从基 础算法 底层硬件 工具框架到实际应用场景 现阶段的人工智能领域已经全面开花 作为人工智能核心的底层硬件 AI 芯片 也同样经历了多次的起伏和波折 总体看来 AI芯片的发展前后经历了四次大的变化 其发展历程如图 2所示 5 图 2 AI芯片发展历程 1 2007 年以前 AI 芯片产业一直没有发展成为成熟的产业 同时由于当时算法 数据量等因素 这个阶段 AI 芯片并没有特别强烈的市场需求 通用的 CPU 芯片即可满足 应用需要 2 随着高清视频 VR AR游戏等行业的发展 GPU产品取得

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号