题库机器学习专项面试题型介绍及解析--第4期

上传人:ja****ee 文档编号:149211512 上传时间:2020-10-25 格式:DOC 页数:4 大小:30KB
返回 下载 相关 举报
题库机器学习专项面试题型介绍及解析--第4期_第1页
第1页 / 共4页
题库机器学习专项面试题型介绍及解析--第4期_第2页
第2页 / 共4页
题库机器学习专项面试题型介绍及解析--第4期_第3页
第3页 / 共4页
题库机器学习专项面试题型介绍及解析--第4期_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《题库机器学习专项面试题型介绍及解析--第4期》由会员分享,可在线阅读,更多相关《题库机器学习专项面试题型介绍及解析--第4期(4页珍藏版)》请在金锄头文库上搜索。

1、1.决策树如何剪枝?决策树的剪枝基本策略有 预剪枝 (Pre-Pruning) 和 后剪枝 (Post-Pruning)。 预剪枝:其中的核心思想就是,在每一次实际对结点进行进一步划分之前,先采用验证集的数据来验证如果划分是否能提高划分的准确性。如果不能,就把结点标记为叶结点并退出进一步划分;如果可以就继续递归生成节点。 后剪枝:后剪枝则是先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来泛化性能提升,则将该子树替换为叶结点。2.线性分类器与非线性分类器的区别以及优劣?线性和非线性是针对模型参数和输入特征来讲的;比如输入x,模型y=ax+a

2、x2 那么就是非线性模型,如果输入是x和X2则模型是线性的。 线性分类器可解释性好,计算复杂度较低,不足之处是模型的拟合效果相对弱些。LR,贝叶斯分类,单层感知机、线性回归 非线性分类器效果拟合能力较强,不足之处是数据量不足容易过拟合、计算复杂度高、可解释性不好。决策树、RF、GBDT、多层感知机SVM两种都有(看线性核还是高斯核)3.逻辑回归常用的优化方法有哪些?一阶方法:梯度下降、随机梯度下降、mini 随机梯度下降降法。随机梯度下降不但速度上比原始梯度下降要快,局部最优化问题时可以一定程度上抑制局部最优解的发生。二阶方法:牛顿法、拟牛顿法:这里详细说一下牛顿法的基本原理和牛顿法的应用方式

3、。牛顿法其实就是通过切线与x轴的交点不断更新切线的位置,直到达到曲线与x轴的交点得到方程解。在实际应用中我们因为常常要求解凸优化问题,也就是要求解函数一阶导数为0的位置,而牛顿法恰好可以给这种问题提供解决方法。实际应用中牛顿法首先选择一个点作为起始点,并进行一次二阶泰勒展开得到导数为0的点进行一个更新,直到达到要求,这时牛顿法也就成了二阶求解问题,比一阶方法更快。我们常常看到的x通常为一个多维向量,这也就引出了Hessian矩阵的概念(就是x的二阶导数矩阵)。缺点:牛顿法是定长迭代,没有步长因子,所以不能保证函数值稳定的下降,严重时甚至会失败。还有就是牛顿法要求函数一定是二阶可导的。而且计算H

4、essian矩阵的逆复杂度很大。拟牛顿法:不用二阶偏导而是构造出Hessian矩阵的近似正定对称矩阵的方法称为拟牛顿法。拟牛顿法的思路就是用一个特别的表达形式来模拟Hessian矩阵或者是他的逆使得表达式满足拟牛顿条件。主要有DFP法(逼近Hession的逆)、BFGS(直接逼近Hession矩阵)、 L-BFGS(可以减少BFGS所需的存储空间)。4.理解局部最优与全局最优先说一个故事:柏拉图有一天问老师苏格拉底什么是爱情?苏格拉底叫他到麦田走一次,摘一颗最大的麦穗回来,不许回头,只可摘一次。柏拉图空着手出来了,他的理由是,看见不错的,却不知道是不是最好的,一次次侥幸,走到尽头时,才发现还不

5、如前面的,于是放弃。苏格拉底告诉他:“这就是爱情。” 这故事让我们明白了一个道理,因为生命的一些不确定性,所以全局最优解是很难寻找到的,或者说根本就不存在,我们应该设置一些限定条件,然后在这个范围内寻找最优解,也就是局部最优解 有所斩获总比空手而归强,哪怕这种斩获只是一次有趣的经历。柏拉图有一天又问什么是婚姻?苏格拉底叫他到树林走一次,选一棵最好的树做圣诞树,也是不许回头,只许选一次。这次他一身疲惫地拖了一棵看起来直挺、翠绿,却有点稀疏的杉树回来,他的理由是,有了上回的教训,好不容易看见一棵看似不错的,又发现时间、体力已经快不够用了,也不管是不是最好的,就拿回来了。苏格拉底告诉他:“这就是婚姻

6、。”优化问题一般分为局部最优和全局最优。其中:(1)局部最优,就是在函数值空间的一个有限区域内寻找最小值;而全局最优,是在函数值空间整个区域寻找最小值问题。(2)函数局部最小点是它的函数值小于或等于附近点的点,但是有可能大于较远距离的点。(3)全局最小点是那种它的函数值小于或等于所有的可行点。5.随机森林算法是如何工作的?在随机森林中,每一个决策树 “种植” 和 “生长” 的规则如下所示:1. 假设我们设定训练集中的样本个数为 N,然后通过有重置的重复多次抽样来获得这 N 个样本,这样的抽样结果将作为我们生成决策树的训练集;2. 如果有 M 个输入变量,每个节点都将随机选择 m (mM) 个特定的变量,然后运用这 m 个变量来确定最佳的分裂点。在决策树的生成过程中,m 的值是保持不变的;3. 每棵决策树都最大可能地进行生长而不进行剪枝;4. 通过对所有的决策树进行加总来预测新的数据(在分类时采用多数投票,在回归时采用平均)。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号