题库机器学习专项面试题型介绍及解析--第7期

资源描述

《题库机器学习专项面试题型介绍及解析--第7期》由会员分享，可在线阅读，更多相关《题库机器学习专项面试题型介绍及解析--第7期（5页珍藏版）》请在金锄头文库上搜索。

1、1.机器学习中为什么需要梯度下降？梯度下降是机器学习中常见优化算法之一，梯度下降法有以下几个作用：（1）梯度下降是迭代法的一种，可以用于求解最小二乘问题。（2）在求解机器学习算法的模型参数，即无约束优化问题时，主要有梯度下降法（Gradient Descent）和最小二乘法。（3）在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。（4）如果我们需要求解损失函数的最大值，可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。（5）在机器学习中，梯度下降法主要有随机梯度下降法和批量梯度下降法2.梯度下降法缺点是什么？梯度下降法缺点有以下几点：（1

2、）靠近极小值时收敛速度减慢。（2）直线搜索时可能会产生一些问题。（3）可能会 “之字形” 地下降。梯度概念也有需注意的地方：（1）梯度是一个向量，即有方向有大小。（2）梯度的方向是最大方向导数的方向。（3）梯度的值是最大方向导数的值。3.如何对梯度下降法进行调优？实际使用梯度下降法时，各项参数指标不能一步就达到理想状态，对梯度下降法调优主要体现在以下几个方面：（1）算法迭代步长选择。在算法参数初始化时，有时根据经验将步长初始化为 1。实际取值取决于数据样本。可以从大到小，多取一些值，分别运行算法看迭代效果，如果损失函数在变小，则取值有效。如果取值无效，说明要增大步长。但步长太大，有时会导致迭代

3、速度过快，错过最优解。步长太小，迭代速度慢，算法运行时间长。（2）参数的初始值选择。初始值不同，获得的最小值也有可能不同，梯度下降有可能得到的是局部最小值。如果损失函数是凸函数，则一定是最优解。由于有局部最优解的风险，需要多次用不同初始值运行算法，关键损失函数的最小值，选择损失函数最小化的初值。（3）标准化处理。由于样本不同，特征取值范围也不同，导致迭代速度慢。为了减少特征取值的影响，可对特征数据标准化，使新期望为 0，新方差为 1，可节省算法运行时间。3.各种梯度下降法性能比较下表简单对比随机梯度下降（SGD）、批量梯度下降（BGD）、小批量梯度下降（Mini-batch GD）、和 Onl

4、ine GD 的区别：这里介绍一下 Online GD：Online GD 于 Mini-batch GD/SGD 的区别在于，所有训练数据只用一次，然后丢弃。这样做的优点在于可预测最终模型的变化趋势。Online GD 在互联网领域用的较多，比如搜索广告的点击率（CTR）预估模型，网民的点击行为会随着时间改变。用普通的 BGD 算法（每天更新一次）一方面耗时较长（需要对所有历史数据重新训练）；另一方面，无法及时反馈用户的点击行为迁移。而 Online GD 算法可以实时的依据网民的点击行为进行迁移。4.梯度提升和梯度下降的区别和联系是什么？下表是梯度提升算法和梯度下降算法的对比情况。可以发现

5、，两者都是在每一轮迭代中，利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新，只不过在梯度下降中，模型是以参数化形式表示，从而模型的更新等价于参数的更新。而在梯度提升中，模型并不需要进行参数化表示，而是直接定义在函数空间中，从而大大扩展了可以使用的模型种类。5.XGBoost 与 GBDT 有什么不同？除了算法上与传统的GBDT有一些不同外，XGBoost还在工程实现上做了大量的优化。总的来说，两者之间的区别和联系可以总结成以下几个方面。1. GBDT是机器学习算法，XGBoost是该算法的工程实现。2. 在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力。3. GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数。4. 传统的GBDT采用CART作为基分类器，XGBoost支持多种类型的基分类器，比如线性分类器。5. 传统的GBDT在每轮迭代时使用全部的数据，XGBoost则采用了与随机森林相似的策略，支持对数据进行采样。6. 传统的GBDT没有设计对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。

展开阅读全文

题库机器学习专项面试题型介绍及解析--第7期

最新文档