BAT题库机器学习面试1000题系列(第216~220题)

资源描述

《BAT题库机器学习面试1000题系列(第216~220题)》由会员分享，可在线阅读，更多相关《BAT题库机器学习面试1000题系列(第216~220题)（26页珍藏版）》请在金锄头文库上搜索。

1、217.神经网络中激活函数的真正意义？一个激活函数需要具有哪些必要的属性？还有哪些属是好的属性但不必要的？Hengkai Guo，本题解析来源：https:/ function。）1. 非线性：即导数不是常数。这个条件前面很多答主都提到了，是多层神经网络的基础，保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。2. 几乎处处可微：可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满足处处可微。对于分段线性函数比如ReLU，只满足几乎处处可微（即仅在有限个点处不可微）。对于SGD算法来说，由于几乎不可能收敛到梯度接近零的位置，有限的不可微点对于优化结果不会有很大影响1

2、。3. 计算简单：正如题主所说，非线性函数有很多。极端的说，一个多层神经网络也可以作为一个非线性函数，类似于Network In Network2中把它当做卷积操作的做法。但激活函数在神经网络前向的计算次数与神经元的个数成正比，因此简单的非线性函数自然更适合用作激活函数。这也是ReLU之流比其它使用Exp等操作的激活函数更受欢迎的其中一个原因。4. 非饱和性（saturation）：饱和指的是在某些区间梯度接近于零（即梯度消失），使得参数无法继续更新的问题。最经典的例子是Sigmoid，它的导数在x为比较大的正值和比较小的负值时都会接近于0。更极端的例子是阶跃函数，由于它在几乎所有位置的梯度都

3、为0，因此处处饱和，无法作为激活函数。ReLU在x0时导数恒为1，因此对于再大的正值也不会饱和。但同时对于x0时为线性。这个性质也让初始化参数范围的推导更为简单54。额外提一句，这种恒等变换的性质也被其他一些网络结构设计所借鉴，比如CNN中的ResNet6和RNN中的LSTM。8. 参数少：大部分激活函数都是没有参数的。像PReLU带单个参数会略微增加网络的大小。还有一个例外是Maxout7，尽管本身没有参数，但在同样输出通道数下k路Maxout需要的输入通道数是其它函数的k倍，这意味着神经元数目也需要变为k倍；但如果不考虑维持输出通道数的情况下，该激活函数又能将参数个数减少为原来的k倍。9.

4、归一化（normalization）：这个是最近才出来的概念，对应的激活函数是SELU8，主要思想是使样本分布自动归一化到零均值、单位方差的分布，从而稳定训练。在这之前，这种归一化的思想也被用于网络结构的设计，比如Batch Normalization9。参考文献：1 Goodfellow I, Bengio Y, Courville A. Deep learningM. MIT press, 2016.2 Lin M, Chen Q, Yan S. Network in networkJ. arXiv preprint arXiv:1312.4400, 2013.3 Maas A L, H

5、annun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic modelsC/Proc. ICML. 2013, 30(1).4 He K, Zhang X, Ren S, et al. Delvingdeep into rectifiers: Surpassing human-level performance on imagenetclassificationC/Proceedings of the IEEE international conference oncomputer vision. 20

6、15: 1026-1034.5 Glorot X, Bengio Y. Understanding thedifficulty of training deep feedforward neural networksC/Proceedingsof the Thirteenth International Conference on Artificial Intelligenceand Statistics. 2010: 249-256.6 He K, Zhang X, Ren S, et al. Deepresidual learning for image recognitionC/Proc

7、eedings of the IEEEconference on computer vision and pattern recognition. 2016: 770-778.7 Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networksJ. arXiv preprint arXiv:1302.4389, 2013.8 Klambauer G, Unterthiner T, Mayr A, et al. Self-Normalizing Neural NetworksJ. arXiv preprint arXiv:1706.0

8、2515, 2017.9 Ioffe S, Szegedy C. Batchnormalization: Accelerating deep network training by reducing internalcovariate shiftC/International Conference on Machine Learning. 2015:448-456.218.梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？李振华，https:/ style=&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;a

9、mp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;a

10、mp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;quot;font-size:14px;line-height:34px;&amp;amp;amp;amp;amp;amp;amp

11、;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;

展开阅读全文