深度学习基础分享－金锄头文库

资源描述

《深度学习基础分享》由会员分享，可在线阅读，更多相关《深度学习基础分享（19页珍藏版）》请在金锄头文库上搜索。

2、learning & deep learning,逐层学习,逐层学习,6,逐层学习（预训练）原理图：,梯度下降法,梯度下降法,8,以线性拟合函数回顾梯度下降法：训练参数输入样本集共计m个样本点，每个样本点有(n+1)维特征 1、拟合函数 2、目标函数：最小化误差平方和 3、采用梯度下降法更新每个参数的值线性拟合函数中的梯度值为：,+目标函数也可以添加正则化项,求累加和体现了GD与SGD的区别,自编码器,自编码器,10,Sigmoid激活函数,训练参数,层次间的递推关系,目标函数：最小化重构误差,自编码器,11,网络参数的训练方法：梯度下降法反向传播算法(Back Propagation

3、, BP)：用于计算参数的梯度,限制玻尔兹曼机,限制玻尔兹曼机,13,层次间的递推关系（本质上属于多元概率分布，网络结构为概率无向图模型）,Sigmoid激活函数,训练参数,目标函数：最小化重构误差网络参数的训练方法：梯度下降法对比散度算法 (Contrastive Divergence, CD)：用于计算参数的梯度默认结点取值为0/1 也可以推广到实数：可见部分结点值为实数变量,补充说明,14,无监督逐层学习得到深度网络的初始参数结合训练样本的标签值可以进行微调(fine-tuning)使得网络参数最优化,深度学习框架,深度学习框架,16,Caffe: C+ (加州伯克利分

4、校) Theano: Python (蒙特利尔理工学院) - Blocks, Keras Torch: Lua (Facebook) Deeplearning4j: Java (创业公司Skymind) DeepLearnToolbox: MATLAB,硬件需求,硬件需求,18,GPU：GTX 680 或者GTX 960 (价格优势)； GTX 980 (表现最佳)；GTX Titan (满足需要存储器的情况)；GTX 970 (不支持卷积网络)。 CPU：每个GPU 2个线程；全套40 PCIe 线路和合适的PCIe 配件(和主板配套)；时钟频率 2GHz；快速缓冲储存区不做过多要求。内存

5、：使用异步mini-batch分配；时钟频率和内存时序不做过多要求；要求至少像GPU内存一样大的CPU内存。硬驱硬驱动/SSD：使用异步batch-file读取和压缩数据，主要针对图像或声音数据；如果不需要处理带有高输入维度的32比特浮点数据组，普通硬驱即可满足计算要求。 PSU：GPU+CPU+(100-300）为所需的电源供应量；如果需要构建大的卷积网络，则需要配备能效级别高的电源；确保有足够PCIe接头（6+8pin），足以支持未来可能新增的GPU的运行。散热：如果运行单个GPU，需要在设置中设定coolbitsflag；否则，更新BIOS和加快风扇转速就是最便宜最简单的办法。主板：选择PCIe 3.0，配备与未来预计所需GPU数量一样多的槽口（一个GPU需要两个槽口；每个系统最多4个GPU）。,感谢您的聆听,

展开阅读全文