BAT题库机器学习面试1000题系列(第216~220题)

上传人:ja****ee 文档编号:149211453 上传时间:2020-10-25 格式:DOC 页数:26 大小:117.50KB
返回 下载 相关 举报
BAT题库机器学习面试1000题系列(第216~220题)_第1页
第1页 / 共26页
BAT题库机器学习面试1000题系列(第216~220题)_第2页
第2页 / 共26页
BAT题库机器学习面试1000题系列(第216~220题)_第3页
第3页 / 共26页
BAT题库机器学习面试1000题系列(第216~220题)_第4页
第4页 / 共26页
BAT题库机器学习面试1000题系列(第216~220题)_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《BAT题库机器学习面试1000题系列(第216~220题)》由会员分享,可在线阅读,更多相关《BAT题库机器学习面试1000题系列(第216~220题)(26页珍藏版)》请在金锄头文库上搜索。

1、217.神经网络中激活函数的真正意义?一个激活函数需要具有哪些必要的属性?还有哪些属是好的属性但不必要的?Hengkai Guo,本题解析来源:https:/ function。)1. 非线性:即导数不是常数。这个条件前面很多答主都提到了,是多层神经网络的基础,保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。2. 几乎处处可微:可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU,只满足几乎处处可微(即仅在有限个点处不可微)。对于SGD算法来说,由于几乎不可能收敛到梯度接近零的位置,有限的不可微点对于优化结果不会有很大影响1

2、。3. 计算简单:正如题主所说,非线性函数有很多。极端的说,一个多层神经网络也可以作为一个非线性函数,类似于Network In Network2中把它当做卷积操作的做法。但激活函数在神经网络前向的计算次数与神经元的个数成正比,因此简单的非线性函数自然更适合用作激活函数。这也是ReLU之流比其它使用Exp等操作的激活函数更受欢迎的其中一个原因。4. 非饱和性(saturation):饱和指的是在某些区间梯度接近于零(即梯度消失),使得参数无法继续更新的问题。最经典的例子是Sigmoid,它的导数在x为比较大的正值和比较小的负值时都会接近于0。更极端的例子是阶跃函数,由于它在几乎所有位置的梯度都

3、为0,因此处处饱和,无法作为激活函数。ReLU在x0时导数恒为1,因此对于再大的正值也不会饱和。但同时对于x0时为线性。这个性质也让初始化参数范围的推导更为简单54。额外提一句,这种恒等变换的性质也被其他一些网络结构设计所借鉴,比如CNN中的ResNet6和RNN中的LSTM。8. 参数少:大部分激活函数都是没有参数的。像PReLU带单个参数会略微增加网络的大小。还有一个例外是Maxout7,尽管本身没有参数,但在同样输出通道数下k路Maxout需要的输入通道数是其它函数的k倍,这意味着神经元数目也需要变为k倍;但如果不考虑维持输出通道数的情况下,该激活函数又能将参数个数减少为原来的k倍。9.

4、 归一化(normalization):这个是最近才出来的概念,对应的激活函数是SELU8,主要思想是使样本分布自动归一化到零均值、单位方差的分布,从而稳定训练。在这之前,这种归一化的思想也被用于网络结构的设计,比如Batch Normalization9。参考文献:1 Goodfellow I, Bengio Y, Courville A. Deep learningM. MIT press, 2016.2 Lin M, Chen Q, Yan S. Network in networkJ. arXiv preprint arXiv:1312.4400, 2013.3 Maas A L, H

5、annun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic modelsC/Proc. ICML. 2013, 30(1).4 He K, Zhang X, Ren S, et al. Delvingdeep into rectifiers: Surpassing human-level performance on imagenetclassificationC/Proceedings of the IEEE international conference oncomputer vision. 20

6、15: 1026-1034.5 Glorot X, Bengio Y. Understanding thedifficulty of training deep feedforward neural networksC/Proceedingsof the Thirteenth International Conference on Artificial Intelligenceand Statistics. 2010: 249-256.6 He K, Zhang X, Ren S, et al. Deepresidual learning for image recognitionC/Proc

7、eedings of the IEEEconference on computer vision and pattern recognition. 2016: 770-778.7 Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networksJ. arXiv preprint arXiv:1302.4389, 2013.8 Klambauer G, Unterthiner T, Mayr A, et al. Self-Normalizing Neural NetworksJ. arXiv preprint arXiv:1706.0

8、2515, 2017.9 Ioffe S, Szegedy C. Batchnormalization: Accelerating deep network training by reducing internalcovariate shiftC/International Conference on Machine Learning. 2015:448-456.218.梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛?李振华,https:/ style=&a

9、mp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;a

10、mp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;font-size:14px;line-height:34px;&amp

11、;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号