题库机器学习专项面试题型介绍及解析--第5期

上传人:ja****ee 文档编号:149211466 上传时间:2020-10-25 格式:DOC 页数:4 大小:38KB
返回 下载 相关 举报
题库机器学习专项面试题型介绍及解析--第5期_第1页
第1页 / 共4页
题库机器学习专项面试题型介绍及解析--第5期_第2页
第2页 / 共4页
题库机器学习专项面试题型介绍及解析--第5期_第3页
第3页 / 共4页
题库机器学习专项面试题型介绍及解析--第5期_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《题库机器学习专项面试题型介绍及解析--第5期》由会员分享,可在线阅读,更多相关《题库机器学习专项面试题型介绍及解析--第5期(4页珍藏版)》请在金锄头文库上搜索。

1、随机森林分类效果的影响因素是什么? 森林中任意两棵树的相关性:相关性越大,错误率越大; 森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低。减小特征选择个数m,树的相关性和分类能力也会相应的降低;增大m,两者也会随之增大。所以关键问题是如何选择最优的m(或者是范围),这也是随机森林唯一的一个参数。随机森林有什么优缺点?优点: 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好。 它能够处理很高维度(feature很多)的数据,并且不用做特征选择(因为特征子集是随机选择的)。 在训练完后,它能够给出哪些feature比较重要。 训练速度快,容易做成并行化方法(训练时树与树

2、之间是相互独立的)。 在训练过程中,能够检测到feature间的互相影响。 对于不平衡的数据集来说,它可以平衡误差。 如果有很大一部分的特征遗失,仍可以维持准确度。缺点: 随机森林在解决回归问题时并没有像它在分类中表现的那么好,这是因为它并不能给出一个连续型的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。 对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒子 你几乎无法控制模型内部的运行,只能在不同的参数和随机种子之间进行尝试。随机森林如何处理缺失值?根据随机森林创建和训练的特点,随机森林对缺失值的处理还是比较特

3、殊的。 首先,给缺失值预设一些估计值,比如数值型特征,选择其余数据的中位数或众数作为当前的估计值 然后,根据估计的数值,建立随机森林,把所有的数据放进随机森林里面跑一遍。记录每一组数据在决策树中一步一步分类的路径. 判断哪组数据和缺失数据路径最相似,引入一个相似度矩阵,来记录数据之间的相似度,比如有N组数据,相似度矩阵大小就是N*N 如果缺失值是类别变量,通过权重投票得到新估计值,如果是数值型变量,通过加权平均得到新的估计值,如此迭代,直到得到稳定的估计值。其实,该缺失值填补过程类似于推荐系统中采用协同过滤进行评分预测,先计算缺失特征与其他特征的相似度,再加权得到缺失值的估计,而随机森林中计算

4、相似度的方法(数据在决策树中一步一步分类的路径)乃其独特之处。什么是OOB?随机森林中OOB是如何计算的,它有什么优缺点?OOB:上面我们提到,构建随机森林的关键问题就是如何选择最优的m,要解决这个问题主要依据计算袋外错误率oob error(out-of-bag error)。bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为袋外数据oob(out of bag),它可以用于取代测试集误差估计方法。袋外数据(oob)误差的计算方法如下: 对于已经生成的随机森林,用袋外数据测试其性能,假设

5、袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的分类 因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小=X/O优缺点:这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。RF(随机森林)与GBDT之间的区别与联系?相同点: 都是由多棵树组成,最终的结果都是由多棵树一起决定。 RF和GBDT在使用CART树时,可以是分类树或者回归树。不同点: 组成随机森林的树可以并行生成,而GBDT是串行生成 随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和 随机森林对异常值不敏感,而GBDT对异常值比较敏感 随机森林是减少模型的方差,而GBDT是减少模型的偏差 随机森林不需要进行特征归一化。而GBDT则需要进行特征归一化

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号