题库机器学习专项面试题型介绍及解析--第3期

资源描述

《题库机器学习专项面试题型介绍及解析--第3期》由会员分享，可在线阅读，更多相关《题库机器学习专项面试题型介绍及解析--第3期（9页珍藏版）》请在金锄头文库上搜索。

1、1.监督学习有哪些步骤？监督学习是使用已知正确答案的示例来训练网络，每组训练数据有一个明确的标识或结果。想象一下，我们可以训练一个网络，让其从照片库中（其中包含气球的照片）识别出气球的照片。以下就是我们在这个假设场景中所要采取的步骤。步骤 1：数据集的创建和分类首先，浏览你的照片（数据集），确定所有包含气球的照片，并对其进行标注。然后，将所有照片分为训练集和验证集。目标就是在深度网络中找一函数，这个函数输入是任意一张照片，当照片中包含气球时，输出 1，否则输出 0。步骤 2：数据增强（Data Augmentation）当原始数据搜集和标注完毕，一般搜集的数据并不一定包含目标在各种扰动下的信息

2、。数据的好坏对于机器学习模型的预测能力至关重要，因此一般会进行数据增强。对于图像数据来说，数据增强一般包括，图像旋转，平移，颜色变换，裁剪，仿射变换等。步骤 3：特征工程（Feature Engineering）一般来讲，特征工程包含特征提取和特征选择。常见的手工特征 (Hand-Crafted Feature) 有尺度不变特征变换 (Scale-Invariant Feature Transform, SIFT)，方向梯度直方图 (Histogram of Oriented Gradient, HOG) 等。由于手工特征是启发式的，其算法设计背后的出发点不同，将这些特征组合在一起的时候有可能

3、会产生冲突，如何将组合特征的效能发挥出来，使原始数据在特征空间中的判别性最大化，就需要用到特征选择的方法。在深度学习方法大获成功之后，人们很大一部分不再关注特征工程本身。因为，最常用到的卷积神经网络 (Convolutional Neural Networks, CNNs) 本身就是一种特征提取和选择的引擎。研究者提出的不同的网络结构、正则化、归一化方法实际上就是深度学习背景下的特征工程。步骤 4：构建预测模型和损失将原始数据映射到特征空间之后，也就意味着我们得到了比较合理的输入。下一步就是构建合适的预测模型得到对应输入的输出。而如何保证模型的输出和输入标签的一致性，就需要构建模型预测和标签之

4、间的损失函数，常见的损失函数 (Loss Function) 有交叉熵、均方差等。通过优化方法不断迭代，使模型从最初的初始化状态一步步变化为有预测能力的模型的过程，实际上就是学习的过程。步骤 5：训练选择合适的模型和超参数进行初始化，其中超参数比如支持向量机中核函数、误差项惩罚权重等。当模型初始化参数设定好后，将制作好的特征数据输入到模型，通过合适的优化方法不断缩小输出与标签之间的差距，当迭代过程到了截止条件，就可以得到训练好的模型。优化方法最常见的就是梯度下降法及其变种，使用梯度下降法的前提是优化目标函数对于模型是可导的。步骤 6：验证和模型选择训练完训练集图片后，需要进行模型测试。利用验证

5、集来验证模型是否可以准确地挑选出含有气球在内的照片。在此过程中，通常会通过调整和模型相关的各种事物（超参数）来重复步骤 2 和 3，诸如里面有多少个节点，有多少层，使用怎样的激活函数和损失函数，如何在反向传播阶段积极有效地训练权值等等。步骤 7：测试及应用当有了一个准确的模型，就可以将该模型部署到你的应用程序中。你可以将预测功能发布为 API（Application Programming Interface, 应用程序编程接口）调用，并且你可以从软件中调用该 API，从而进行推理并给出相应的结果。2.什么样的分类器是最好的？对某一个任务，某个具体的分类器不可能同时满足或提高所有上面介绍的指标

6、。如果一个分类器能正确分对所有的实例，那么各项指标都已经达到最优，但这样的分类器往往不存在。比如之前说的地震预测，既然不能百分百预测地震的发生，但实际情况中能容忍一定程度的误报。假设在 1000 次预测中，共有 5 次预测发生了地震，真实情况中有一次发生了地震，其他 4 次则为误报。正确率由原来的 999/1000=99.9 下降为 996/1000=99.6。召回率由 0/1=0% 上升为 1/1=100%。对此解释为，虽然预测失误了 4 次，但真的地震发生前，分类器能预测对，没有错过，这样的分类器实际意义更为重大，正是我们想要的。在这种情况下，在一定正确率前提下，要求分类器的召回率尽量高。

7、3.决策树的基本思想是什么？其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别，我们可以思考一下一个决策问题：是否去相亲，一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧！LR模型是一股脑儿的把所有特征塞入学习，而决策树更像是编程语言中的if-else一样，去做条件判断，这就是根本性的区别。4.讲述决策树算法优缺点？决策树算法的优点：决策树算法易理解，机理解释起来简单。决策树算法可以用于小数据集。决策树算法的时间复杂度较小，为用于训练决策树的数据点的对数。相比于其他算法智能分析一种类型变量，决策树算法可处理数字和数据的类别。能够处理多输出的问题。对缺失值不敏感。

8、可以处理不相关特征数据。效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。决策树算法的缺点：对连续性的字段比较难预测。容易出现过拟合。当类别太多时，错误可能就会增加的比较快。在处理特征关联性比较强的数据时表现得不是太好。对于各类别样本数量不一致的数据，在决策树当中，信息增益的结果偏向于那些具有更多数值的特征。5.熵的概念以及理解熵：度量随机变量的不确定性。定义：假设随机变量 X 的可能取值有，对于每一个可能的取值，其概率为。随机变量的熵为：对于样本集合，假设样本有 k 个类别，每个类别的概率为 $frac |C_k|D|$，其中 $|C_k|D|$

9、为类别为 k 的样本个数，$|D|$为样本总数。样本集合 D 的熵为：6.如何理解信息增益？定义：以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合 D 划分效果的好坏。假设划分前样本集合 D 的熵为 H (D)。使用某个特征 A 划分数据集 D，计算划分后的数据子集的熵为 H (D|A)。则信息增益为：注：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集 D。思想：计算所有特征划分数据集 D，得到多个特征划分数

10、据集 D 的信息增益，从这些信息增益中选择最大的，因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。另外这里提一下信息增益比相关知识：$ 信息增益比 = 惩罚参数 times 信息增益 $信息增益比本质：在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。惩罚参数：数据集 D 以特征 A 作为随机变量的熵的倒数。分类决策树和回归决策树的区别？Classification And Regression Tree(CART)是决策树的一种，CART算法既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree），两者在建树的过程稍有差异。回归树：CART回归树是假设树为二叉树，通过不断将特征进行分裂。比如当前树结点是基于第j个特征值进行分裂的，设该特征值小于s的样本划分为左子树，大于s的样本划分为右子树。而CART回归树实质上就是在该特征维度对样本空间进行划分，而这种空间划分的优化是一种NP难问题，因此，在决策树模型中是使用启发式方法解决。典型CART回归树产生的目标函数为：因此，当我们为了求解最优的切分特征j和最优的切分点s，就转化为求解这么一个目标函数：所以我们只要遍历所有特征的的所有切分点，就能找到最优的切分特征和切分点。最终得到一棵回归树。

展开阅读全文