题库机器学习专项面试题型介绍及解析--第8期

上传人:ja****ee 文档编号:149211461 上传时间:2020-10-25 格式:DOC 页数:4 大小:41KB
返回 下载 相关 举报
题库机器学习专项面试题型介绍及解析--第8期_第1页
第1页 / 共4页
题库机器学习专项面试题型介绍及解析--第8期_第2页
第2页 / 共4页
题库机器学习专项面试题型介绍及解析--第8期_第3页
第3页 / 共4页
题库机器学习专项面试题型介绍及解析--第8期_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《题库机器学习专项面试题型介绍及解析--第8期》由会员分享,可在线阅读,更多相关《题库机器学习专项面试题型介绍及解析--第8期(4页珍藏版)》请在金锄头文库上搜索。

1、算法1.为什么 XGBoost 要用泰勒展开,优势在哪里?XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得函数做自变量的二阶导数形式, 可以在不选定损失函数具体形式的情况下, 仅仅依靠输入数据的值就可以进行叶子分裂优化计算, 本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了XGBoost的适用性, 使得它按需选取损失函数, 可以用于分类, 也可以用于回归。2.XGBoost 的一些内部优化 在寻找最佳分割点时,传统的方法会枚举每个特征的所有可能切分点。XGBoost 实现了一种近似的算法,大致的思想是根据百分位法列举几个可能

2、成为分割点的候选者,然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。 XGBoost 考虑了训练数据为稀疏值的情况,可以为缺失值或者指定的值指定分支的默认方向,这能大大提升算法的效率,paper 提到能提高 50 倍。 特征列排序后以块的形式存储在内存中,在迭代中可以重复使用;虽然 Boosting 算法迭代必须串行,但是在处理每个特征列时可以做到并行。 按照特征列方式存储能优化寻找最佳的分割点,但是当以行计算梯度数据时会导致内存的不连续访问,严重时会导致 cache miss,降低算法效率。Paper 中提到,可先将数据收集到线程内部的 buffer,然后再计算,提高算法的效率。

3、XGBoost 还考虑了数据量比较大的情况,当内存不够时怎么有效的使用磁盘,主要是结合多线程、数据压缩、分片的方法,尽可能的提高算法的效率。3.什么是损失函数?损失函数(Loss Function)又叫做误差函数,用来衡量算法的运行情况,估量模型的预测值与真实值的不一致程度,是一个非负实值函数,通常使用来表示。损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。4.简单总结 LDA 思想线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的降维方法。和主成分分析 PCA 不考虑样本类别输出的无监督降维技术不同,

4、LDA 是一种监督学习的降维技术,数据集的每个样本有类别输出。LDA 分类思想简单总结如下:1. 多维空间中,数据处理分类问题较为复杂,LDA算法将多维空间中的数据投影到一条直线上,将 d 维数据转化成 1 维数据进行处理。2. 对于训练数据,设法将多维数据投影到一条直线上,同类数据的投影点尽可能接近,异类数据点尽可能远离。3. 对数据进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。如果用一句话概括 LDA 思想,即 “投影后类内方差最小,类间方差最大”。5.PCA 思想总结1. PCA 就是将高维的数据通过线性变换投影到低维空间上去。2. 投影思想:找出最能够代表

5、原始数据的投影方法。被 PCA 降掉的那些维度只能是那些噪声或是冗余的数据。3. 去冗余:去除可以被其他向量代表的线性相关向量,这部分信息量是多余的。4. 去噪声,去除较小特征值对应的特征向量,特征值的大小反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异也越大,要保留。5. 对角化矩阵,寻找极大线性无关组,保留较大的特征值,去除较小特征值,组成一个投影矩阵,对原始样本矩阵进行投影,得到降维后的新样本矩阵。6. 完成 PCA 的关键是 协方差矩阵。协方差矩阵,能同时表现不同维度间的相关性以及各个维度上的方差。协方差矩阵度量的是维度与维度之间的关系,而非样本与样本之间。7. 之所以对角化,因为对角化之后非对角上的元素都是 0,达到去噪声的目的。对角化后的协方差矩阵,对角线上较小的新方差对应的就是那些该去掉的维度。所以我们只取那些含有较大能量 (特征值) 的维度,其余的就舍掉,即去冗余。简述 LDA 优缺点

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号