让机器学习得更快

上传人:Co****e 文档编号:24031333 上传时间:2017-11-02 格式:PDF 页数:32 大小:1.67MB
返回 下载 相关 举报
让机器学习得更快_第1页
第1页 / 共32页
让机器学习得更快_第2页
第2页 / 共32页
让机器学习得更快_第3页
第3页 / 共32页
让机器学习得更快_第4页
第4页 / 共32页
让机器学习得更快_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《让机器学习得更快》由会员分享,可在线阅读,更多相关《让机器学习得更快(32页珍藏版)》请在金锄头文库上搜索。

1、科大讯飞 鹿晓亮 让机器学习得更快 深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 计算智能 感知智能 认知智能 能存会算 能听会说、能看会认 能理解会思考 语音识别的血泪史 1920年代: RadioRex玩具狗 1950年代: Bell Lab Audry系统 6-70年代: DSP、 DTW、 Viterbi、 HMM、 DARPA 1980年代:特征提取、大规模 语料、 DARPA、 NIST、 Sphinx 1990年代:区分性训练、模型自适应、噪声鲁棒性、 HTK 2000年后:更好的

2、区分性训练技术等 深度学习应用于语音识别 像素特征 边缘特征 眼睛 嘴 鼻子 猫 老虎 深度学习应用于语音识别 声学模型 HMM语言模型 识别结果 深度学习应用于语音识别 DNN RNN LSTM 大数据及云计算应用于语音识别 柳传志致辞 周光召致辞 语音云启动仪式 2010年 10月 28日,“语音云”在业界率先发布,为手机、汽车、智能家电等终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力 深度学习和大数据的力量 75.3% 2011年 1月 基于上线数据 首次更新 60.2% 2010年 10月 28日 语音云正式发布 86.2% 2012年 5月 DNN技术正式上线 95

3、%+ 2013年 7月 DNN并行训练技术获得突破 ,数万小时训练数据 81.2% 2011年 8月 超大规模语言模型技术第二次更新 未来几年将语音识别的句正确率提升到 90%! 图像识别同样获得巨大成功 系统 方法 效果 DeepID3 DeepLearning 99.53% Face+ 99.50% DeepID2+ 99.47% DeepID2 99.15% DeepID 97.45% DeepFace-ensemble 97.35% FR+FCN 96.45% GaussianFace 传统方法 98.52% B 98.08% TL JointBayesian 96.33% 人眼 99

4、.20% 深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 超算是人工智能的关键要素 深度学习技术的再度崛起,正在颠覆统计模式识别、机器学习和人工智能领域,相关专家成为“香饽饽” 大数据目前已经和深度学习融合,在语音识别及图像识别等感知人工智能方面发挥了巨大作用 超算平台是人工智能的基础,提供海量数据处理、存储以及高性能运算解决方案 组成部分 硬件组成 软件调度 支持业务 业务场景 大规模数据预处理 进行 GMM-HMM等 经典模型的 训练 CPUs、 4TB & 6TB、 10Gb/s Linux

5、 & 监控体系 & 运维体系 资源调度系统 集群编程框架 数据预处理 特征提取 N-gram 硬件架构 软件架构 业务支撑 CPU集群 组成部分 硬件组成 软件调度 支持业务 业务场景 进行 Deep Learning相关模型训练,如 DNN、 RNN、CNN等 Linux & 监控体系 & 运维体系 资源调度系统 集群编程框架 DNN RNN CNN 硬件架构 软件架构 业务支撑 GPGPUs、 IB 并行文件系统 GPU集群 CPUs, 10Gb/s Linux & 监控体系 & 运维体系 资源调度系统 集群编程框架 硬件架构 软件架构 业务支撑 DNN RNN CNN GPGPUs、 I

6、B 并行文件系统 集群文件系统 GMM HMM 融合调度界面 程序开发 任务提交 在 硬件层面,全局设计网络方案、融合文件系统;在软件 层面,重新 设计并揉和调度界面、使 HPC&BigData开发一体化;以提升程序开发效率和流程执行效率。 深度学习平台 深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 Acoustic model DNN-HMM VS GMM-HMM Computation of DNN in SR model parameters : more than tens of mil

7、lions speech corpus: more than ten thousand of hours Acceleration CPU GPU GPUs 深度学习应用于语音识别 Fig. 2 Model parallelism training corpus深度学习应用于语音识别 Fig. 3 Data parallelism t r a i n i n g c o r p u sTradeoff between Speed-up and Convergence t r a i n i n g c o r p u sG P U 0G P U 1 G P U 2 G P U 3C e n t

8、 r a l N o d eFig. 4 ASGD applied to multi-GPU in a server 46 central node, high bandwidth requirement conflict between model latency and efficiency 传统的异步 SGD方案 get mini-batch from training corpus receive the model from the previous node, and merge the local gradient to generate a new model send the

9、 new model to the next node and train the next mini-batch simultaneously Fig. 5 Ring structure parallel strategy for multiple GPUs G P U 0 G P U 1G P U 3 G P U 2T r a i n i n g c o r p u s环形并行学习策略 s t a r t p o i n tG P U 0 G P U 1 G P U 2 G P U 3r e s i d u a lr e s i d u a la n d s o o n. . . . .t

10、 r a i nt i m et r a n s m i tt i m em e r g et i m eFig. 6 Timing analysis of the RSPS asynchronous mode no central node, one transmission per mini-batch for each node, low bandwidth requirement easy to hide transmission 环形并行学习策略 s t a r t p o i n tG P U 0 G P U 1 G P U 2 G P U 3r e s i d u a lr e

11、s i d u a la n d s o o n. . . . .t r a i nt i m et r a n s m i tt i m em e r g et i m eFig. 6 Timing analysis of the RSPS ( n 1 ) 0r e s i d u a l c a l c t r a n s m i t m e r g eT T n T T ca( ) +tr a n s m it m e r g e lc m e r g en T T T Toverlap of transmission and computation calc m ergetransm

12、it m ergeTTn 环形并行学习策略 环形并行学习策略 m a x , 0 m a x ( 1 ) , 0 w a i t r e s i d u a l t r a n s m i t m e r g e c a l cT T n T n T T s i n g l e ()c a l c m e r g em u l t i p e c a l c m e r g e w a i tT n T TS p e e d u pT T T Tc a lc m e r g etr a n s m it m e r g ec a lc m e r g etr a n s m it m e r

13、g eTTn if nTTS p e e d u pTTe ls eTT 环形并行学习策略 m a xc a lc m e r g etr a n s m it m e r g eTTS p e e d u pTT Tcalc (larger mini-batch, eg. rectified linear units) Ttransmit (compress transmission data, eg. quantize the gradient) Tmerge (overlap merging, eg. pipelining, hierarchical merging) 实验结论 Fig.

14、 7 Relationship between the speedup and the number of GPUs 0 1 2 3 4 5 6 7 8 901234567speedupthe nu mbe r of GPUs深度学习在感知智能中获得巨大成功 面向感知及认知智能的深度学习平台 深度学习平台训练算法并行方式探讨 主要内容 深度学习平台对讯飞超脑计划的支撑 讯飞超脑计划 讯飞超脑的三大研究方 向 : 更加贴近人脑认知机理的人工神经网络设计 , 更好的支撑认知智能的实现 实现与人脑神经元复杂度可比的超大人工神经网络(相当于目前感知智能网络规模的 1000倍) 实现基于连续语义空间分布式表示的知识推理及自学习智能引擎 中国 国家 美国 日本 英国 北京 9,634,057 平方公里 13.5404 亿 2069.3 万 北纬 3856 东经 11620 3.1525 亿 华盛顿 9,629,091 平方公里 北纬 3853 西经 7702 178 平方公里 16410 平方公里 1.26亿 377835 平方公里 东京 2188 平方公里 东经 14050 北纬 3544 人口 讯飞超脑预期成果 实现世界上第一个中文认知智能计算引擎! 通过模拟人脑的知识表示达到联想和推理 通过自动学习获取新的知识实现不断进化 通过自然交互(语音、文字)更加拟人化 超算平台对讯飞超脑

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号