让机器学习得更快－金锄头文库

资源描述

《让机器学习得更快》由会员分享，可在线阅读，更多相关《让机器学习得更快（32页珍藏版）》请在金锄头文库上搜索。

1、科大讯飞鹿晓亮让机器学习得更快深度学习在感知智能中获得巨大成功面向感知及认知智能的深度学习平台深度学习平台训练算法并行方式探讨主要内容深度学习平台对讯飞超脑计划的支撑计算智能感知智能认知智能能存会算能听会说、能看会认能理解会思考语音识别的血泪史 1920年代： RadioRex玩具狗 1950年代： Bell Lab Audry系统 6-70年代： DSP、 DTW、 Viterbi、 HMM、 DARPA 1980年代：特征提取、大规模语料、 DARPA、 NIST、 Sphinx 1990年代：区分性训练、模型自适应、噪声鲁棒性、 HTK 2000年后：更好的

2、区分性训练技术等深度学习应用于语音识别像素特征边缘特征眼睛嘴鼻子猫老虎深度学习应用于语音识别声学模型 HMM语言模型识别结果深度学习应用于语音识别 DNN RNN LSTM 大数据及云计算应用于语音识别柳传志致辞周光召致辞语音云启动仪式 2010年 10月 28日，“语音云”在业界率先发布，为手机、汽车、智能家电等终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力深度学习和大数据的力量 75.3% 2011年 1月基于上线数据首次更新 60.2% 2010年 10月 28日语音云正式发布 86.2% 2012年 5月 DNN技术正式上线 95

3、%+ 2013年 7月 DNN并行训练技术获得突破，数万小时训练数据 81.2% 2011年 8月超大规模语言模型技术第二次更新未来几年将语音识别的句正确率提升到 90%！图像识别同样获得巨大成功系统方法效果 DeepID3 DeepLearning 99.53% Face+ 99.50% DeepID2+ 99.47% DeepID2 99.15% DeepID 97.45% DeepFace-ensemble 97.35% FR+FCN 96.45% GaussianFace 传统方法 98.52% B 98.08% TL JointBayesian 96.33% 人眼 99

4、.20% 深度学习在感知智能中获得巨大成功面向感知及认知智能的深度学习平台深度学习平台训练算法并行方式探讨主要内容深度学习平台对讯飞超脑计划的支撑超算是人工智能的关键要素深度学习技术的再度崛起，正在颠覆统计模式识别、机器学习和人工智能领域，相关专家成为“香饽饽” 大数据目前已经和深度学习融合，在语音识别及图像识别等感知人工智能方面发挥了巨大作用超算平台是人工智能的基础，提供海量数据处理、存储以及高性能运算解决方案组成部分硬件组成软件调度支持业务业务场景大规模数据预处理进行 GMM-HMM等经典模型的训练 CPUs、 4TB & 6TB、 10Gb/s Linux

5、 & 监控体系 & 运维体系资源调度系统集群编程框架数据预处理特征提取 N-gram 硬件架构软件架构业务支撑 CPU集群组成部分硬件组成软件调度支持业务业务场景进行 Deep Learning相关模型训练，如 DNN、 RNN、CNN等 Linux & 监控体系 & 运维体系资源调度系统集群编程框架 DNN RNN CNN 硬件架构软件架构业务支撑 GPGPUs、 IB 并行文件系统 GPU集群 CPUs， 10Gb/s Linux & 监控体系 & 运维体系资源调度系统集群编程框架硬件架构软件架构业务支撑 DNN RNN CNN GPGPUs、 I

6、B 并行文件系统集群文件系统 GMM HMM 融合调度界面程序开发任务提交在硬件层面，全局设计网络方案、融合文件系统；在软件层面，重新设计并揉和调度界面、使 HPC&BigData开发一体化；以提升程序开发效率和流程执行效率。深度学习平台深度学习在感知智能中获得巨大成功面向感知及认知智能的深度学习平台深度学习平台训练算法并行方式探讨主要内容深度学习平台对讯飞超脑计划的支撑 Acoustic model DNN-HMM VS GMM-HMM Computation of DNN in SR model parameters : more than tens of mil

7、lions speech corpus: more than ten thousand of hours Acceleration CPU GPU GPUs 深度学习应用于语音识别 Fig. 2 Model parallelism training corpus深度学习应用于语音识别 Fig. 3 Data parallelism t r a i n i n g c o r p u sTradeoff between Speed-up and Convergence t r a i n i n g c o r p u sG P U 0G P U 1 G P U 2 G P U 3C e n t

8、 r a l N o d eFig. 4 ASGD applied to multi-GPU in a server 46 central node, high bandwidth requirement conflict between model latency and efficiency 传统的异步 SGD方案 get mini-batch from training corpus receive the model from the previous node, and merge the local gradient to generate a new model send the

9、 new model to the next node and train the next mini-batch simultaneously Fig. 5 Ring structure parallel strategy for multiple GPUs G P U 0 G P U 1G P U 3 G P U 2T r a i n i n g c o r p u s环形并行学习策略 s t a r t p o i n tG P U 0 G P U 1 G P U 2 G P U 3r e s i d u a lr e s i d u a la n d s o o n. . . . .t

10、 r a i nt i m et r a n s m i tt i m em e r g et i m eFig. 6 Timing analysis of the RSPS asynchronous mode no central node, one transmission per mini-batch for each node, low bandwidth requirement easy to hide transmission 环形并行学习策略 s t a r t p o i n tG P U 0 G P U 1 G P U 2 G P U 3r e s i d u a lr e

11、s i d u a la n d s o o n. . . . .t r a i nt i m et r a n s m i tt i m em e r g et i m eFig. 6 Timing analysis of the RSPS ( n 1 ) 0r e s i d u a l c a l c t r a n s m i t m e r g eT T n T T ca( ) +tr a n s m it m e r g e lc m e r g en T T T Toverlap of transmission and computation calc m ergetransm

12、it m ergeTTn 环形并行学习策略环形并行学习策略 m a x , 0 m a x ( 1 ) , 0 w a i t r e s i d u a l t r a n s m i t m e r g e c a l cT T n T n T T s i n g l e ()c a l c m e r g em u l t i p e c a l c m e r g e w a i tT n T TS p e e d u pT T T Tc a lc m e r g etr a n s m it m e r g ec a lc m e r g etr a n s m it m e r

13、g eTTn if nTTS p e e d u pTTe ls eTT 环形并行学习策略 m a xc a lc m e r g etr a n s m it m e r g eTTS p e e d u pTT Tcalc (larger mini-batch, eg. rectified linear units) Ttransmit (compress transmission data, eg. quantize the gradient) Tmerge (overlap merging, eg. pipelining, hierarchical merging) 实验结论 Fig.

14、 7 Relationship between the speedup and the number of GPUs 0 1 2 3 4 5 6 7 8 901234567speedupthe nu mbe r of GPUs深度学习在感知智能中获得巨大成功面向感知及认知智能的深度学习平台深度学习平台训练算法并行方式探讨主要内容深度学习平台对讯飞超脑计划的支撑讯飞超脑计划讯飞超脑的三大研究方向：更加贴近人脑认知机理的人工神经网络设计，更好的支撑认知智能的实现实现与人脑神经元复杂度可比的超大人工神经网络（相当于目前感知智能网络规模的 1000倍）实现基于连续语义空间分布式表示的知识推理及自学习智能引擎中国国家美国日本英国北京 9,634,057 平方公里 13.5404 亿 2069.3 万北纬 3856 东经 11620 3.1525 亿华盛顿 9,629,091 平方公里北纬 3853 西经 7702 178 平方公里 16410 平方公里 1.26亿 377835 平方公里东京 2188 平方公里东经 14050 北纬 3544 人口讯飞超脑预期成果实现世界上第一个中文认知智能计算引擎！通过模拟人脑的知识表示达到联想和推理通过自动学习获取新的知识实现不断进化通过自然交互（语音、文字）更加拟人化超算平台对讯飞超脑

展开阅读全文