《让机器学习得更快》由会员分享,可在线阅读,更多相关《让机器学习得更快(32页珍藏版)》请在金锄头文库上搜索。
1、科大讯飞 鹿晓亮 让机器学习得更快 深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 计算智能 感知智能 认知智能 能存会算 能听会说、能看会认 能理解会思考 语音识别的血泪史 1920年代: RadioRex玩具狗 1950年代: Bell Lab Audry系统 6-70年代: DSP、 DTW、 Viterbi、 HMM、 DARPA 1980年代:特征提取、大规模 语料、 DARPA、 NIST、 Sphinx 1990年代:区分性训练、模型自适应、噪声鲁棒性、 HTK 2000年后:更好的
2、区分性训练技术等 深度学习应用于语音识别 像素特征 边缘特征 眼睛 嘴 鼻子 猫 老虎 深度学习应用于语音识别 声学模型 HMM语言模型 识别结果 深度学习应用于语音识别 DNN RNN LSTM 大数据及云计算应用于语音识别 柳传志致辞 周光召致辞 语音云启动仪式 2010年 10月 28日,“语音云”在业界率先发布,为手机、汽车、智能家电等终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力 深度学习和大数据的力量 75.3% 2011年 1月 基于上线数据 首次更新 60.2% 2010年 10月 28日 语音云正式发布 86.2% 2012年 5月 DNN技术正式上线 95
3、%+ 2013年 7月 DNN并行训练技术获得突破 ,数万小时训练数据 81.2% 2011年 8月 超大规模语言模型技术第二次更新 未来几年将语音识别的句正确率提升到 90%! 图像识别同样获得巨大成功 系统 方法 效果 DeepID3 DeepLearning 99.53% Face+ 99.50% DeepID2+ 99.47% DeepID2 99.15% DeepID 97.45% DeepFace-ensemble 97.35% FR+FCN 96.45% GaussianFace 传统方法 98.52% B 98.08% TL JointBayesian 96.33% 人眼 99
4、.20% 深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 超算是人工智能的关键要素 深度学习技术的再度崛起,正在颠覆统计模式识别、机器学习和人工智能领域,相关专家成为“香饽饽” 大数据目前已经和深度学习融合,在语音识别及图像识别等感知人工智能方面发挥了巨大作用 超算平台是人工智能的基础,提供海量数据处理、存储以及高性能运算解决方案 组成部分 硬件组成 软件调度 支持业务 业务场景 大规模数据预处理 进行 GMM-HMM等 经典模型的 训练 CPUs、 4TB & 6TB、 10Gb/s Linux
5、 & 监控体系 & 运维体系 资源调度系统 集群编程框架 数据预处理 特征提取 N-gram 硬件架构 软件架构 业务支撑 CPU集群 组成部分 硬件组成 软件调度 支持业务 业务场景 进行 Deep Learning相关模型训练,如 DNN、 RNN、CNN等 Linux & 监控体系 & 运维体系 资源调度系统 集群编程框架 DNN RNN CNN 硬件架构 软件架构 业务支撑 GPGPUs、 IB 并行文件系统 GPU集群 CPUs, 10Gb/s Linux & 监控体系 & 运维体系 资源调度系统 集群编程框架 硬件架构 软件架构 业务支撑 DNN RNN CNN GPGPUs、 I
6、B 并行文件系统 集群文件系统 GMM HMM 融合调度界面 程序开发 任务提交 在 硬件层面,全局设计网络方案、融合文件系统;在软件 层面,重新 设计并揉和调度界面、使 HPC&BigData开发一体化;以提升程序开发效率和流程执行效率。 深度学习平台 深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 Acoustic model DNN-HMM VS GMM-HMM Computation of DNN in SR model parameters : more than tens of mil
7、lions speech corpus: more than ten thousand of hours Acceleration CPU GPU GPUs 深度学习应用于语音识别 Fig. 2 Model parallelism training corpus深度学习应用于语音识别 Fig. 3 Data parallelism t r a i n i n g c o r p u sTradeoff between Speed-up and Convergence t r a i n i n g c o r p u sG P U 0G P U 1 G P U 2 G P U 3C e n t
8、 r a l N o d eFig. 4 ASGD applied to multi-GPU in a server 46 central node, high bandwidth requirement conflict between model latency and efficiency 传统的异步 SGD方案 get mini-batch from training corpus receive the model from the previous node, and merge the local gradient to generate a new model send the
9、 new model to the next node and train the next mini-batch simultaneously Fig. 5 Ring structure parallel strategy for multiple GPUs G P U 0 G P U 1G P U 3 G P U 2T r a i n i n g c o r p u s环形并行学习策略 s t a r t p o i n tG P U 0 G P U 1 G P U 2 G P U 3r e s i d u a lr e s i d u a la n d s o o n. . . . .t
10、 r a i nt i m et r a n s m i tt i m em e r g et i m eFig. 6 Timing analysis of the RSPS asynchronous mode no central node, one transmission per mini-batch for each node, low bandwidth requirement easy to hide transmission 环形并行学习策略 s t a r t p o i n tG P U 0 G P U 1 G P U 2 G P U 3r e s i d u a lr e
11、s i d u a la n d s o o n. . . . .t r a i nt i m et r a n s m i tt i m em e r g et i m eFig. 6 Timing analysis of the RSPS ( n 1 ) 0r e s i d u a l c a l c t r a n s m i t m e r g eT T n T T ca( ) +tr a n s m it m e r g e lc m e r g en T T T Toverlap of transmission and computation calc m ergetransm
12、it m ergeTTn 环形并行学习策略 环形并行学习策略 m a x , 0 m a x ( 1 ) , 0 w a i t r e s i d u a l t r a n s m i t m e r g e c a l cT T n T n T T s i n g l e ()c a l c m e r g em u l t i p e c a l c m e r g e w a i tT n T TS p e e d u pT T T Tc a lc m e r g etr a n s m it m e r g ec a lc m e r g etr a n s m it m e r
13、g eTTn if nTTS p e e d u pTTe ls eTT 环形并行学习策略 m a xc a lc m e r g etr a n s m it m e r g eTTS p e e d u pTT Tcalc (larger mini-batch, eg. rectified linear units) Ttransmit (compress transmission data, eg. quantize the gradient) Tmerge (overlap merging, eg. pipelining, hierarchical merging) 实验结论 Fig.
14、 7 Relationship between the speedup and the number of GPUs 0 1 2 3 4 5 6 7 8 901234567speedupthe nu mbe r of GPUs深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 讯飞超脑计划 讯飞超脑的三大研究方 向 : 更加贴近人脑认知机理的人工神经网络设计 , 更好的支撑认知智能的实现 实现与人脑神经元复杂度可比的超大人工神经网络(相当于目前感知智能网络规模的 1000倍) 实现基于连续语义空间分布式表示的知识推理及自学习智能引擎 中国 国家 美国 日本 英国 北京 9,634,057 平方公里 13.5404 亿 2069.3 万 北纬 3856 东经 11620 3.1525 亿 华盛顿 9,629,091 平方公里 北纬 3853 西经 7702 178 平方公里 16410 平方公里 1.26亿 377835 平方公里 东京 2188 平方公里 东经 14050 北纬 3544 人口 讯飞超脑预期成果 实现世界上第一个中文认知智能计算引擎! 通过模拟人脑的知识表示达到联想和推理 通过自动学习获取新的知识实现不断进化 通过自然交互(语音、文字)更加拟人化 超算平台对讯飞超脑