快速深度学习 大数据 极限学习机(简介)

上传人:小** 文档编号:90748976 上传时间:2019-06-15 格式:PDF 页数:30 大小:1.81MB
返回 下载 相关 举报
快速深度学习 大数据 极限学习机(简介)_第1页
第1页 / 共30页
快速深度学习 大数据 极限学习机(简介)_第2页
第2页 / 共30页
快速深度学习 大数据 极限学习机(简介)_第3页
第3页 / 共30页
快速深度学习 大数据 极限学习机(简介)_第4页
第4页 / 共30页
快速深度学习 大数据 极限学习机(简介)_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《快速深度学习 大数据 极限学习机(简介)》由会员分享,可在线阅读,更多相关《快速深度学习 大数据 极限学习机(简介)(30页珍藏版)》请在金锄头文库上搜索。

1、Deep learning and ELM 大头雨山 图灵测试 | 隔墙对话,你将不知道与你谈话的, 是人还是电脑 IBM 沃森 | 智力问答栏目危险边缘冠军 Google Brain | 10亿节点DNN,150亿 Brain 同声传译 | 语音识别、英中机器翻译,中文语音 合成 Baidu IDL | 百度深度学习研究院 商品图像检索 | http:/ 词云小象 | 大数据离我们有多近?搜索引擎和商 品推荐系统 诺贝尔奖 | 分级的视觉系统,抽象层面越高,存 在的可能猜测就越少,就越利于分类 深度学习 |多层次学习;原始数据不同抽象层度 的表示,提高分类和预测的准确性 Artificial

2、 Neural Network BP 2 )( 2 1 ii ydE= di desired output yi NN output 2 )( 2 1 XWfdE T ii = j T iii ij xXWfyd w E )( )(= j=1,2,n ij i w E W = BP slow gradient-based learning algorithms all the parameters of the networks are tuned iteratively local minima, improper learning rate and overfitting only wor

3、k for differentiable activation functions ELM For Training Set: (,),1,2,3 jj xyjN= activation functions: ( )( ) 1 sigmoid 1 x g xx e = + 11 ()(),1,2,3, LL iijiiijij ii g xg wxbyjN = =+= ELM Model is as follows input layer weight: i w output layer weight: i Number of the hidden layer nodes: L 11 ()()

4、,1,2,3, LL iijiiijij ii g xg wxbyjN = =+= HY= 121212 1 112121 1212222 1122 12 12 (,;,;,) ()()() ()()() ()()() , , LLN LL LL NNLNL N L T TTT L M L T TTT N M N H w ww b bbx xx g w xbg w xbg w xb g w xbg w xbg w xb g w xbg w xbg w xb Yyyy = + + + = = where ELM HY=ELM Model: 121212 (,;,;,) LLN H w ww b

5、bbx xx If w and b are given randomly, the output weights can be analytically determined,namely 1 H Y = The only one artificial setting is number of the hidden layer nodes , L H Y + = ELM ELM advantages Batch training, extremely fast learning speed better generalization performance adopt the simplest

6、 method to overcome local minima, improper learning rate and overfitting work for differentiable and nondifferentiable activation functions mathematical foundation ELM disadvantages The number of the hidden layer nodes is artificially given. H is generally a non-square matrix Geoffrey Hinton | 深度学习:

7、多隐层 ,逐层初 始化,无监督学习 Deep Learning Deep Learning BP算法存在的问题: (1)梯度越来越稀疏:从顶层越往下,误差校正信号越来越小; (2)收敛到局部最小值:尤其是从远离最优区域开始的时候 (随机值初始化会导致这种情况的发生); (3)一般,我们只能用有标签的数据来训练:但大部分的数据 是没标签的,而大脑可以从没有标签的的数据中学习; Auto Encoder 自动编码器就是一种尽可能复现输入信号的神经网络. 单层前向训练 Auto Encoder 更多其他结构的 深度学习网络 逐层前向训练 一步反馈训练 逐步反馈训练 去掉去掉 ELM-AE targe

8、t output is the same as input x: the hidden node parameters are made orthogonal after being randomly generated: xy= I,1 TT ii w wb b= ELM-AE 1 H Y = 1 1 TT H HH Y C =+ T I = HX= XY= T HX= T TPX= PCA Deep Learning PCA 1 H Y = 784 20 784 Deep Learning Deep Learning 这么简单?| 深度学习,没有这么简单 大而复杂的模型,训练量大,收敛,并行计算 Hadoop | 分而治之,让大象跳舞 Hadoop 架构 | 好大的一个工程!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号