题库机器学习专项面试题型介绍及解析--第10期

上传人:ja****ee 文档编号:149211515 上传时间:2020-10-25 格式:DOC 页数:4 大小:28.50KB
返回 下载 相关 举报
题库机器学习专项面试题型介绍及解析--第10期_第1页
第1页 / 共4页
题库机器学习专项面试题型介绍及解析--第10期_第2页
第2页 / 共4页
题库机器学习专项面试题型介绍及解析--第10期_第3页
第3页 / 共4页
题库机器学习专项面试题型介绍及解析--第10期_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《题库机器学习专项面试题型介绍及解析--第10期》由会员分享,可在线阅读,更多相关《题库机器学习专项面试题型介绍及解析--第10期(4页珍藏版)》请在金锄头文库上搜索。

1、1.决策树的三要素?一棵决策树的生成过程主要分为下 3 个部分:1、特征选择:从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。2、决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则决策树停止生长。树结构来说,递归结构是最容易理解的方式。3、剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。2.剪枝处理的作用及策略有什么?剪枝处理是决策树学习算法用来解决过拟合问题的一种办法。在决策树算法中,为了尽可能正确分类训练样本, 节点划分过程不断重复,

2、 有时候会造成决策树分支过多,以至于将训练样本集自身特点当作泛化特点, 而导致过拟合。因此可以采用剪枝处理来去掉一些分支来降低过拟合的风险。剪枝的基本策略有预剪枝(pre-pruning)和后剪枝(post-pruning)。预剪枝:在决策树生成过程中,在每个节点划分前先估计其划分后的泛化性能, 如果不能提升,则停止划分,将当前节点标记为叶结点。后剪枝:生成决策树以后,再自下而上对非叶结点进行考察, 若将此节点标记为叶结点可以带来泛化性能提升,则修改之。3.支持向量机能解决哪些问题线性分类在训练数据中,每个数据都有 n 个的属性和一个二分类类别标志,我们可以认为这些数据在一个 n 维空间里。我

3、们的目标是找到一个 n-1 维的超平面,这个超平面可以将数据分成两部分,每部分数据都属于同一个类别。这样的超平面有很多,假如我们要找到一个最佳的超平面。此时,增加一个约束条件:要求这个超平面到每边最近数据点的距离是最大的,成为最大边距超平面。这个分类器即为最大边距分类器。非线性分类SVM 的一个优势是支持非线性分类。它结合使用拉格朗日乘子法(Lagrange Multiplier)和 KKT(Karush Kuhn Tucker)条件,以及核函数可以生成非线性分类器。4.样本失衡会对 SVM 的结果产生影响吗?如果样本失衡时可采用什么方式解决?会,超平面会靠近样本少的类别。因为使用的是软间隔分

4、类,而如果对所有类别都是使用同样的惩罚系数,则由于优化目标里面有最小化惩罚量,所以靠近少数样本时,其惩罚量会少一些。比如:假设理想的分隔超平面是大样本中有很多数据到该超平面的函数距离是小于 1 的,而小样本中是只有少数样本的函数距离小于 1 的。但是由于惩罚系数相同,实际算法得到的超平面会往小样本数据靠近。解决方式:1) 采用既能代表多数类样本分布特征,又能对分类界面有一定影响的样本特性欠抽样方法;2) 对多数类和和少数类采用不同的惩罚因子注:样本失衡时,可使用 ROC 曲线评价分类器的性能好坏。5.SVM 为什么引入对偶问题?为什么要通过对偶问题来求解原问题?1,对偶问题将原始问题中的约束转

5、为了对偶问题中的等式约束,对偶问题往往更加容易求解。2,可以很自然的引用核函数(拉格朗日表达式里面有内积,而核函数也是通过内积进行映射的)。3,在优化理论中,目标函数 f (x) 会有多种形式:如果目标函数和约束条件都为变量 x 的线性函数,称该问题为线性规划;如果目标函数为二次函数,约束条件为线性函数,称该最优化问题为二次规划;如果目标函数或者约束条件均为非线性函数,称该最优化问题为非线性规划。每个线性规划问题都有一个与之对应的对偶问题,对偶问题有非常良好的性质,以下列举几个: 对偶问题的对偶是原问题; 无论原始问题是否是凸的,对偶问题都是凸优化问题; 对偶问题可以给出原始问题一个下界; 当满足一定条件时,原始问题与对偶问题的解是完全等价的。求解原问题:1、对偶问题往往容易求解(在这里原问题也可以求解);2、引入核函数,推广到非线性分类。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号