2017年中国计算机视觉行业研究报告

上传人:繁星 文档编号:88274552 上传时间:2019-04-22 格式:PPTX 页数:61 大小:8.46MB
返回 下载 相关 举报
2017年中国计算机视觉行业研究报告_第1页
第1页 / 共61页
2017年中国计算机视觉行业研究报告_第2页
第2页 / 共61页
2017年中国计算机视觉行业研究报告_第3页
第3页 / 共61页
2017年中国计算机视觉行业研究报告_第4页
第4页 / 共61页
2017年中国计算机视觉行业研究报告_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《2017年中国计算机视觉行业研究报告》由会员分享,可在线阅读,更多相关《2017年中国计算机视觉行业研究报告(61页珍藏版)》请在金锄头文库上搜索。

1、,中国计算机视觉行业研究报告,2017年,2,2017.12 iResearch Inc,,。,摘要 深度学习主要提升的是计算机视觉领域分类任务的准确率;开源环境仅降低计算机 视觉领域的入门技术门槛,前沿算法的技术壁垒依然存在;计算机视觉比赛成绩、 论文成果不直接代表技术团队解决实际业务问题的能力。 SMS 2017年中国计算机视觉规模预期为40亿,凭借安防领域的爆发性增长,预期2020 年将增长至725亿。 前端嵌入式智能系统的渗透率将逐步提升,与后端协同智能计算,加速产业智能升 级。 算法迭代将不断提升限定场景识别准确率,加速渗透为各行业应用赋能。 前沿算法之外,计算机视觉公司的商业壁垒有

2、赖于产品、服务、市场等综合建设。 来源:艾瑞咨询研究院自主研究绘制。,3,计算机视觉技术概述 计算机视觉行业概况 计算机视觉的应用场景 计算机视觉典型公司案例 计算机视觉行业发展趋势,1 2 3 4 5,4,计算机视觉的概念与行业主要应用 计算机视觉横跨感知与认知智能,现阶段应用以感知为主 视觉使人类得以感知和理解周边的世界,人的大脑皮层大约有70%的活动在处理视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影 像,以达到甚至超越人类视觉智能的效果。从1966年学科建立(MIT:The Summer Vision Project)至今,尽管计算机视觉在感知与认知智能 方向仍有大量难以解决

3、、尚待探索的问题,但得益于深度学习算法的成熟应用(2012年,采用深度学习架构的AlexNet模型,以超越第二名10个 百分点的成绩在ImageNet竞赛中夺冠),侧重于感知智能的图像分类技术在工业界逐步实现商用价值,助力金融、安防、互联网、手机、医疗、 工业等领域智能升级。2017年下半年,数家计算机视觉公司单笔融资上亿美元,再次将计算机视觉推向人工智能领域最受关注的方向之一。本报 告聚焦于计算机视觉技术现阶段在工业界的应用与研发,将在对相关技术热点及产业整体做概述性介绍的基础上,对典型应用的具体使用场景分领 域论述,希望理清现状,写明征途,供产业界、投资界、政策制定者及关注人工智能领域的社

4、会各界以参考。因报告研究对象以技术层创业公司为 主,偏颇遗漏之处,敬请指正。,涉及常识推理、语义理解、规划决策等 问题难以定义或用函数逼近 认知智能 感知智能 通常为对声、光、电等物理信号做简单分类 大致可用函数来逼近 来源:艾瑞根据专家访谈、公开资料等研究绘制。 2017.12 iResearch Inc,安防领域 金融及互联网领域 自动驾驶领域 环境感知 高精地图 定位,手机及娱乐领域 影像分类 影像处理 AR特效 工业领域 产品质检 3D分拣 无人机/机器人领域 环境感知 定位 自动避障 ,计算机视觉的典型应用,视觉感知小有所成,视觉认知道阻且长,通 过 电 子 化 的 方 式 感 知

5、和 理 解 影 像,计 算 机 视 觉,疑犯追踪 视频结构化 刷脸认证 零售领域 广告营销领域 商品识别 自动化挖掘影像内容广告位 医疗领域 医疗影像分析,5,2017.12 iResearch Inc,,计算机视觉的学术研究任务 现阶段有较好商业化进展的主要为语义感知中的分类任务 与人类实时选择性处理视觉信息不同(如人在驾驶时不需在意公路边草地的纹理或形状,也不用知道每辆车的确切形状), 计算机仍难以从实际需求出发自主选择性输入并计算影像信息,通常需要人类对具体任务进行分解并使用与之匹配的计算 方法,建立完整理想的智能视觉系统仍有很大挑战。另外,与可结合常识做猜想和推理进而辅助识别的人类智能

6、系统相比, 现阶段的视觉技术往往仅能利用影像表层信息,缺乏常识以及对事物功能、因果、动机等深层信息的认知把握。 计算机视觉的学术研究任务(部分) 来源:参考资料 Stuart Russell.人工智能:一种现代的方法M等。,6,,2017.12 iResearch Inc,2017.12 iResearch Inc,,核心算法之深度学习 深度学习的概念及成就 深度学习算法由多重非线性变换构成多个处理层,辅以复杂结构设计和各种梯度技术,通过对大量样本的输入与对应输出 数据的抽象计算,拟合出一个可处理新输入信息的函数模型,解决其分类或预测问题。尽管神经网络(可理解为深度学习 算法的前身或别称)的研

7、究历史其实比计算机视觉的研究历史还要长,但在之前的研究过程中,深度神经网络的方法并未 得到有效验证。直到2011年,语音识别领域凭借深度学习取得重大突破;2012年,AlexNet,一个8层的神经网络,以超 越第二名10个百分点的成绩在ImageNet竞赛中夺冠(图像分类的Top 5错误率为16.4%),深度学习终迎来包括学术探索 与工业应用中的热潮。不断提升的层数逐步提升计算机分类视觉的准确率,2015年夺冠的 ResNet 深达152层,以3.57% 的错误率超越人类视觉的5.1%。,来源:参考资料 周志华.机器学习M等。,来源:参考资料 CS231n.Convolutional Neur

8、al Networks for Visual Recognition等。,深度学习与传统方法的区别,样本数据,人工设计 特征,分类模型,样本数据,分类模型,端到端学习,传统方法,针对不同类别的物体,一般首先由研究员充分发挥聪明才 智,手工定义不同的特征,然后利用不同的机器学习算法(分类器学 习),这时的算法一般仅有两到三次非线性变换 ,学到的参数较少 (浅层学习);深度学习则通过机器学习自身来产生特征,因此特征 和分类器学习不再有区分。如今深度学习的算法已可达上千层。 传统方法,深度学习 机器学习 特征,分类器学习,ImageNet Large Scale Visual Recognition

9、 2010-2015,28.2%,11.7%,7.3%,6.7%,152,8 2012,8 2013,19 2014,22 2014,3.6% 2015,错误率(5 Guesses),神经网络层数,浅层学习 2010 2011,25.8% 深度学习夺冠 16.4%,7,2017.12 iResearch Inc,,2017.12 iResearch Inc,,核心算法之深度学习 数据与算力是深度学习的重要支撑 日益丰富的影像内容为深度学习算法提供了大量的数据支撑。据思科公司评估,2021年单月上传至全球网络的视频总时长 将超过500万年,每秒将诞生1百万分钟的网络视频内容,网络视频流量将占据全

10、球所有网络用户流量的81.44%。需要说 明的是,现在的学习多为有监督学习(需要对数据进行充分标注),而且并非所有类型的影像数据都易得易标注(比如医 疗影像数据需由专业医师标注病灶),业界领先的视觉公司一般会有数百人的标注团队(多为外包,但需专业培训,实时 指导)。另一方面,深度学习学习过程中的“训练”与应用部署后的“推断”均涉及大量并行计算,传统CPU算力不足, 而GPU、FPGA (现场可编程门阵列) 、ASIC (TPU、NPU等AI专属架构芯片)等具有良好并行计算能力的芯片可提供 数十倍乃至于上百倍于CPU的性能,与云服务一起,大幅缩短计算过程(在过去,往往数周甚至数月才能跑出一次结果

11、, 然后调整模型架构,效率极低),易于短期调整多种模型架构,显著提升分类模型的进步速度。2010年以后,CPU内部晶 体管数量的增长明显放缓,传统摩尔定律失效, 而GPU类处理器依然保持着快速增长的势头(2016年GPU的计算力为10 个TFLOP/S ,2017年达到了120个TFLOP/S ,TPU则实现了惊人的180个TFLOP/S ),验证着AI时代的摩尔定律。,来源:参考资料 Cisco Visual Networking Index: Forecast and Methodology 等。,来源:艾瑞咨询研究院自主研究绘制。,并行计算能力有效提升模型计算效率,57116,75109

12、,98182,125853,159161,74.73%,77.00%,79.02%,80.42%,81.44%,2017-2021年全球网络视频用户流量,2017e 2018e 网络视频用户流量 PB/月,2019e 2020e 2021e 网络视频用户流量在总流量中的占比,GPU、FPGA、ASIC等并行运算处理器,在云端服务器、用户终端等 助推模型训练与推断,8,2017.12 iResearch Inc,,热门技术之人脸识别 人脸识别是当下视觉领域热门应用的重要技术支撑 人脸识别可看做语义感知任务中针对人脸影像的分类问题,也是当下视觉领域热门应用的重要技术支撑,各个环节都因深 度学习算法

13、的推进实现了更优的计算结果。泛金融领域的远程身份认证、手机领域的刷脸解锁一般属于人脸验证(技术相 对成熟);安防影像分析一般为人脸识别,刑侦破案对亿级甚至十亿级比对有刚性需求,目前技术技术仍有很大进步空,人脸检测 检测出图像中人脸所在位置,人脸配准 定位出人脸的五官关键点 人脸提特征,人脸属性识别 识别出人脸的 性别、年龄、种族、表情等,女性 28岁 平静 不戴眼镜 颜值92,间,更多新功能、新场景的解锁依赖于最先进的算法团队和相关业务领域开拓者的共同努力。 人脸识别的技术流程 女性 28岁 平静 不戴眼镜 颜值92,将人脸图像转化为人脸特征(固定长度的数值串) 人脸比对 衡量人脸间的相似度,

14、人脸验证 1:1识别 判断两张人脸是否为同一人 来源:艾瑞根据专家访谈、公开资料等研究绘制。,人脸识别/检索 1:N识别 将人脸与库中N个身份逐一比对,人脸聚类 将库中人脸根据身份进行分组 身份来自相似度分析,9,2017.12 iResearch Inc,,来源:艾瑞根据专家访谈、公开资料等研究绘制。,数据处理 与实际业务场景相关 的数据才有价值,基,于对影像数据的不同 理解所选择的不同筛 选及标注策略会对模 型训练的效率及最后 的性能产生重要影 响。,算法模型训练 没有普适的深度学习框 架,需要贴合自身应用场 景优化甚至开发自己的深 度学习框架,便于及时调 整满足个性化需求。,计算集群管理

15、 结合GPU、CPU等多种计算 硬件的不同特性为各类AI 系 统的研发提供基础设施层面 的保障,分布式、高性能、 可扩展,降低AI 系统和新技 术的研发时间成本。,应用端性能优化 需提升运算效能以匹 配不同设备特性。在,应用端计算能力有限 的情况下,需要对网 络架构进行调整,可 在保持精度的同时显 著降低功耗。,公司能否提出引领业 界的创新网络模型进 而率先突破工业化红 线,或能否在开源后 快速重现、超越论文 实验结果有重要影 响。,网络设计 深度学习人才极度稀 缺,相关技术积累对,开源环境与技术壁垒 开源环境仅降低计算机视觉领域的入门技术门槛 工业界和学术界先后推出了用于深度学习模型训练的开源工具和框架,包括Caffe、Theano、Torch、MXNet、 TensorFlow、PaddlePaddle、CNTK等等,极大降低了人工智能技术在工业实践中的入门门槛。尽管不同框架各有所 长,但它们并不能真正满足企业在处理实际复杂业务时所面对的挑战,性能、显存支持、生态系统完善性、使用效率等不 同层面的不足要求企业需要针对性的调整框架以适合自身业务所需。而在数据处理、计算集群管理、网络设计、应用端性 能优化等若干重要环节都存在各种各样非开源技术或已成熟方案所能解决,极度依赖相关技术专家去探索求解的重要问

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号