题库机器学习专项面试题型介绍及解析--第7期

上传人:ja****ee 文档编号:149211394 上传时间:2020-10-25 格式:DOC 页数:5 大小:55.50KB
返回 下载 相关 举报
题库机器学习专项面试题型介绍及解析--第7期_第1页
第1页 / 共5页
题库机器学习专项面试题型介绍及解析--第7期_第2页
第2页 / 共5页
题库机器学习专项面试题型介绍及解析--第7期_第3页
第3页 / 共5页
题库机器学习专项面试题型介绍及解析--第7期_第4页
第4页 / 共5页
题库机器学习专项面试题型介绍及解析--第7期_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《题库机器学习专项面试题型介绍及解析--第7期》由会员分享,可在线阅读,更多相关《题库机器学习专项面试题型介绍及解析--第7期(5页珍藏版)》请在金锄头文库上搜索。

1、1.机器学习中为什么需要梯度下降?梯度下降是机器学习中常见优化算法之一,梯度下降法有以下几个作用:(1)梯度下降是迭代法的一种,可以用于求解最小二乘问题。(2)在求解机器学习算法的模型参数,即无约束优化问题时,主要有梯度下降法(Gradient Descent)和最小二乘法。(3)在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。(4)如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。(5)在机器学习中,梯度下降法主要有随机梯度下降法和批量梯度下降法2.梯度下降法缺点是什么?梯度下降法缺点有以下几点:(1

2、)靠近极小值时收敛速度减慢。(2)直线搜索时可能会产生一些问题。(3)可能会 “之字形” 地下降。梯度概念也有需注意的地方:(1)梯度是一个向量,即有方向有大小。(2)梯度的方向是最大方向导数的方向。(3)梯度的值是最大方向导数的值。3.如何对梯度下降法进行调优?实际使用梯度下降法时,各项参数指标不能一步就达到理想状态,对梯度下降法调优主要体现在以下几个方面:(1)算法迭代步长选择。在算法参数初始化时,有时根据经验将步长初始化为 1。实际取值取决于数据样本。可以从大到小,多取一些值,分别运行算法看迭代效果,如果损失函数在变小,则取值有效。如果取值无效,说明要增大步长。但步长太大,有时会导致迭代

3、速度过快,错过最优解。步长太小,迭代速度慢,算法运行时间长。(2)参数的初始值选择。初始值不同,获得的最小值也有可能不同,梯度下降有可能得到的是局部最小值。如果损失函数是凸函数,则一定是最优解。由于有局部最优解的风险,需要多次用不同初始值运行算法,关键损失函数的最小值,选择损失函数最小化的初值。(3)标准化处理。由于样本不同,特征取值范围也不同,导致迭代速度慢。为了减少特征取值的影响,可对特征数据标准化,使新期望为 0,新方差为 1,可节省算法运行时间。3.各种梯度下降法性能比较下表简单对比随机梯度下降(SGD)、批量梯度下降(BGD)、小批量梯度下降(Mini-batch GD)、和 Onl

4、ine GD 的区别:这里介绍一下 Online GD:Online GD 于 Mini-batch GD/SGD 的区别在于,所有训练数据只用一次,然后丢弃。这样做的优点在于可预测最终模型的变化趋势。Online GD 在互联网领域用的较多,比如搜索广告的点击率(CTR)预估模型,网民的点击行为会随着时间改变。用普通的 BGD 算法(每天更新一次)一方面耗时较长(需要对所有历史数据重新训练);另一方面,无法及时反馈用户的点击行为迁移。而 Online GD 算法可以实时的依据网民的点击行为进行迁移。4.梯度提升和梯度下降的区别和联系是什么?下表是梯度提升算法和梯度下降算法的对比情况。可以发现

5、,两者都是在每 一轮迭代中,利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更 新,只不过在梯度下降中,模型是以参数化形式表示,从而模型的更新等价于参 数的更新。而在梯度提升中,模型并不需要进行参数化表示,而是直接定义在函 数空间中,从而大大扩展了可以使用的模型种类。5.XGBoost 与 GBDT 有什么不同?除了算法上与传统的GBDT有一些不同外,XGBoost还在工程实现上做了大量的优化。总的来说,两者之间的区别和联系可以总结成以下几个方面。1. GBDT是机器学习算法,XGBoost是该算法的工程实现。2. 在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模 型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。3. GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代 价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数。4. 传统的GBDT采用CART作为基分类器,XGBoost支持多种类型的基分类 器,比如线性分类器。5. 传统的GBDT在每轮迭代时使用全部的数据,XGBoost则采用了与随机 森林相似的策略,支持对数据进行采样。6. 传统的GBDT没有设计对缺失值进行处理,XGBoost能够自动学习出缺 失值的处理策略。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号