2017年中国计算机视觉行业研究报告

资源描述

《2017年中国计算机视觉行业研究报告》由会员分享，可在线阅读，更多相关《2017年中国计算机视觉行业研究报告（61页珍藏版）》请在金锄头文库上搜索。

1、,中国计算机视觉行业研究报告,2017年,2,2017.12 iResearch Inc,,。,摘要深度学习主要提升的是计算机视觉领域分类任务的准确率；开源环境仅降低计算机视觉领域的入门技术门槛，前沿算法的技术壁垒依然存在；计算机视觉比赛成绩、论文成果不直接代表技术团队解决实际业务问题的能力。 SMS 2017年中国计算机视觉规模预期为40亿，凭借安防领域的爆发性增长，预期2020 年将增长至725亿。前端嵌入式智能系统的渗透率将逐步提升，与后端协同智能计算，加速产业智能升级。算法迭代将不断提升限定场景识别准确率，加速渗透为各行业应用赋能。前沿算法之外，计算机视觉公司的商业壁垒有

2、赖于产品、服务、市场等综合建设。来源：艾瑞咨询研究院自主研究绘制。,3,计算机视觉技术概述计算机视觉行业概况计算机视觉的应用场景计算机视觉典型公司案例计算机视觉行业发展趋势,1 2 3 4 5,4,计算机视觉的概念与行业主要应用计算机视觉横跨感知与认知智能，现阶段应用以感知为主视觉使人类得以感知和理解周边的世界，人的大脑皮层大约有70%的活动在处理视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影像，以达到甚至超越人类视觉智能的效果。从1966年学科建立（MIT：The Summer Vision Project）至今，尽管计算机视觉在感知与认知智能方向仍有大量难以解决

3、、尚待探索的问题，但得益于深度学习算法的成熟应用（2012年，采用深度学习架构的AlexNet模型，以超越第二名10个百分点的成绩在ImageNet竞赛中夺冠），侧重于感知智能的图像分类技术在工业界逐步实现商用价值，助力金融、安防、互联网、手机、医疗、工业等领域智能升级。2017年下半年，数家计算机视觉公司单笔融资上亿美元，再次将计算机视觉推向人工智能领域最受关注的方向之一。本报告聚焦于计算机视觉技术现阶段在工业界的应用与研发，将在对相关技术热点及产业整体做概述性介绍的基础上，对典型应用的具体使用场景分领域论述，希望理清现状，写明征途，供产业界、投资界、政策制定者及关注人工智能领域的社

4、会各界以参考。因报告研究对象以技术层创业公司为主，偏颇遗漏之处，敬请指正。,涉及常识推理、语义理解、规划决策等问题难以定义或用函数逼近认知智能感知智能通常为对声、光、电等物理信号做简单分类大致可用函数来逼近来源：艾瑞根据专家访谈、公开资料等研究绘制。 2017.12 iResearch Inc,安防领域金融及互联网领域自动驾驶领域环境感知高精地图定位,手机及娱乐领域影像分类影像处理 AR特效工业领域产品质检 3D分拣无人机/机器人领域环境感知定位自动避障 ,计算机视觉的典型应用,视觉感知小有所成，视觉认知道阻且长,通过电子化的方式感知

5、和理解影像,计算机视觉,疑犯追踪视频结构化刷脸认证零售领域广告营销领域商品识别自动化挖掘影像内容广告位医疗领域医疗影像分析,5,2017.12 iResearch Inc,,计算机视觉的学术研究任务现阶段有较好商业化进展的主要为语义感知中的分类任务与人类实时选择性处理视觉信息不同（如人在驾驶时不需在意公路边草地的纹理或形状，也不用知道每辆车的确切形状），计算机仍难以从实际需求出发自主选择性输入并计算影像信息，通常需要人类对具体任务进行分解并使用与之匹配的计算方法，建立完整理想的智能视觉系统仍有很大挑战。另外，与可结合常识做猜想和推理进而辅助识别的人类智能

6、系统相比，现阶段的视觉技术往往仅能利用影像表层信息，缺乏常识以及对事物功能、因果、动机等深层信息的认知把握。计算机视觉的学术研究任务（部分）来源：参考资料 Stuart Russell.人工智能：一种现代的方法M等。,6,,2017.12 iResearch Inc,2017.12 iResearch Inc,,核心算法之深度学习深度学习的概念及成就深度学习算法由多重非线性变换构成多个处理层，辅以复杂结构设计和各种梯度技术，通过对大量样本的输入与对应输出数据的抽象计算，拟合出一个可处理新输入信息的函数模型，解决其分类或预测问题。尽管神经网络（可理解为深度学习算法的前身或别称）的研

7、究历史其实比计算机视觉的研究历史还要长，但在之前的研究过程中，深度神经网络的方法并未得到有效验证。直到2011年，语音识别领域凭借深度学习取得重大突破；2012年，AlexNet，一个8层的神经网络，以超越第二名10个百分点的成绩在ImageNet竞赛中夺冠（图像分类的Top 5错误率为16.4%），深度学习终迎来包括学术探索与工业应用中的热潮。不断提升的层数逐步提升计算机分类视觉的准确率，2015年夺冠的 ResNet 深达152层，以3.57% 的错误率超越人类视觉的5.1%。,来源：参考资料周志华.机器学习M等。,来源：参考资料 CS231n.Convolutional Neur

8、al Networks for Visual Recognition等。,深度学习与传统方法的区别,样本数据,人工设计特征,分类模型,样本数据,分类模型,端到端学习,传统方法，针对不同类别的物体，一般首先由研究员充分发挥聪明才智，手工定义不同的特征，然后利用不同的机器学习算法（分类器学习），这时的算法一般仅有两到三次非线性变换，学到的参数较少（浅层学习）；深度学习则通过机器学习自身来产生特征，因此特征和分类器学习不再有区分。如今深度学习的算法已可达上千层。传统方法,深度学习机器学习特征,分类器学习,ImageNet Large Scale Visual Recognition

9、 2010-2015,28.2%,11.7%,7.3%,6.7%,152,8 2012,8 2013,19 2014,22 2014,3.6% 2015,错误率（5 Guesses）,神经网络层数,浅层学习 2010 2011,25.8% 深度学习夺冠 16.4%,7,2017.12 iResearch Inc,,2017.12 iResearch Inc,,核心算法之深度学习数据与算力是深度学习的重要支撑日益丰富的影像内容为深度学习算法提供了大量的数据支撑。据思科公司评估，2021年单月上传至全球网络的视频总时长将超过500万年，每秒将诞生1百万分钟的网络视频内容，网络视频流量将占据全

10、球所有网络用户流量的81.44%。需要说明的是，现在的学习多为有监督学习（需要对数据进行充分标注），而且并非所有类型的影像数据都易得易标注（比如医疗影像数据需由专业医师标注病灶），业界领先的视觉公司一般会有数百人的标注团队（多为外包，但需专业培训，实时指导）。另一方面，深度学习学习过程中的“训练”与应用部署后的“推断”均涉及大量并行计算，传统CPU算力不足，而GPU、FPGA （现场可编程门阵列）、ASIC （TPU、NPU等AI专属架构芯片）等具有良好并行计算能力的芯片可提供数十倍乃至于上百倍于CPU的性能，与云服务一起，大幅缩短计算过程（在过去，往往数周甚至数月才能跑出一次结果

11、，然后调整模型架构，效率极低），易于短期调整多种模型架构，显著提升分类模型的进步速度。2010年以后，CPU内部晶体管数量的增长明显放缓，传统摩尔定律失效，而GPU类处理器依然保持着快速增长的势头（2016年GPU的计算力为10 个TFLOP/S ，2017年达到了120个TFLOP/S ,TPU则实现了惊人的180个TFLOP/S ），验证着AI时代的摩尔定律。,来源：参考资料 Cisco Visual Networking Index: Forecast and Methodology 等。,来源：艾瑞咨询研究院自主研究绘制。,并行计算能力有效提升模型计算效率,57116,75109

12、,98182,125853,159161,74.73%,77.00%,79.02%,80.42%,81.44%,2017-2021年全球网络视频用户流量,2017e 2018e 网络视频用户流量 PB/月,2019e 2020e 2021e 网络视频用户流量在总流量中的占比,GPU、FPGA、ASIC等并行运算处理器,在云端服务器、用户终端等助推模型训练与推断,8,2017.12 iResearch Inc,,热门技术之人脸识别人脸识别是当下视觉领域热门应用的重要技术支撑人脸识别可看做语义感知任务中针对人脸影像的分类问题，也是当下视觉领域热门应用的重要技术支撑，各个环节都因深度学习算法

13、的推进实现了更优的计算结果。泛金融领域的远程身份认证、手机领域的刷脸解锁一般属于人脸验证（技术相对成熟）；安防影像分析一般为人脸识别，刑侦破案对亿级甚至十亿级比对有刚性需求，目前技术技术仍有很大进步空,人脸检测检测出图像中人脸所在位置,人脸配准定位出人脸的五官关键点人脸提特征,人脸属性识别识别出人脸的性别、年龄、种族、表情等,女性 28岁平静不戴眼镜颜值92,间，更多新功能、新场景的解锁依赖于最先进的算法团队和相关业务领域开拓者的共同努力。人脸识别的技术流程女性 28岁平静不戴眼镜颜值92,将人脸图像转化为人脸特征（固定长度的数值串）人脸比对衡量人脸间的相似度,

14、人脸验证 1:1识别判断两张人脸是否为同一人来源：艾瑞根据专家访谈、公开资料等研究绘制。,人脸识别/检索 1:N识别将人脸与库中N个身份逐一比对,人脸聚类将库中人脸根据身份进行分组身份来自相似度分析,9,2017.12 iResearch Inc,,来源：艾瑞根据专家访谈、公开资料等研究绘制。,数据处理与实际业务场景相关的数据才有价值，基,于对影像数据的不同理解所选择的不同筛选及标注策略会对模型训练的效率及最后的性能产生重要影响。,算法模型训练没有普适的深度学习框架，需要贴合自身应用场景优化甚至开发自己的深度学习框架，便于及时调整满足个性化需求。,计算集群管理

15、结合GPU、CPU等多种计算硬件的不同特性为各类AI 系统的研发提供基础设施层面的保障，分布式、高性能、可扩展，降低AI 系统和新技术的研发时间成本。,应用端性能优化需提升运算效能以匹配不同设备特性。在,应用端计算能力有限的情况下，需要对网络架构进行调整，可在保持精度的同时显著降低功耗。,公司能否提出引领业界的创新网络模型进而率先突破工业化红线，或能否在开源后快速重现、超越论文实验结果有重要影响。,网络设计深度学习人才极度稀缺，相关技术积累对,开源环境与技术壁垒开源环境仅降低计算机视觉领域的入门技术门槛工业界和学术界先后推出了用于深度学习模型训练的开源工具和框架，包括Caffe、Theano、Torch、MXNet、 TensorFlow、PaddlePaddle、CNTK等等，极大降低了人工智能技术在工业实践中的入门门槛。尽管不同框架各有所长，但它们并不能真正满足企业在处理实际复杂业务时所面对的挑战，性能、显存支持、生态系统完善性、使用效率等不同层面的不足要求企业需要针对性的调整框架以适合自身业务所需。而在数据处理、计算集群管理、网络设计、应用端性能优化等若干重要环节都存在各种各样非开源技术或已成熟方案所能解决，极度依赖相关技术专家去探索求解的重要问

展开阅读全文