机器学习期末复习－金锄头文库

资源描述

《机器学习期末复习》由会员分享，可在线阅读，更多相关《机器学习期末复习（4页珍藏版）》请在金锄头文库上搜索。

1、机器学习期末复习线性回归1. 原理：线性回归就是能够用一个直线较为精确地描述数据之间的关系，这样当出现新的数据的时候，就能够预测出一个简单的值。给定样本M我们用列向量表示该样本司=但，炒工(商).样本有ri种特征.我们用工浦表示样本疝得 i个特征，线性模型flinearmodel)的形式为：f(x) = w * x b其中职(u，引汨)为每个特征对应的极亘生成的枳重向呈称为极重向量，权重向量直赃地表达哥哥特征在预中的重要性。线性回归的模型形如：f( x )= w x +b2. 优缺点：优点：(1) 思想简单，实现容易。建模迅速，对于小数据量、简单的关系很有效；(2) 是许多强大的非线性模

2、型的基础。(3) 线性回归模型十分容易理解，结果具有很好的可解释性，有利于决策分析。(4) 蕴含机器学习中的很多重要思想。(5) 能解决回归问题。缺点：(1) 对于非线性数据或者数据特征间具有相关性多项式回归难以建模(2) 难以很好地表达高度复杂的数据。决策树1. 原理：决策树是一个贪心算法，即在特性空间上执行递归的二元分割，决策树由节点和有向边组成。内部节点表示一个特征或者属性；叶子节点表示一个分类。使用决策树进行分类时，将实例分配到叶节点的类中，该叶节点所属的类就是该节点的分类。2. 优缺点：决策树的优点相对于其他数据挖掘算法，决策树在以下几个方面拥有优势：(1) 决策树易于理解和实现

3、.人们在通过解释后都有能力去理解决策树所表达的意义。(2) 对于决策树，数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。(3) 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。(4) 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。(5) 对缺失值不敏感（6）可以处理不相关特征数据（7）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。决策树的缺点1）对连续性的字段比较难预测。2）对有时间顺序的数据，需要很多预处理的工作。3）当类别太多时，错误可能就会增加的比较快。4）一般的算

4、法分类的时候，只是根据一个字段来分类。5）在处理特征关联性比较强的数据时表现得不是太好贝叶斯1. 原理P(8)/ I、 P(B|A)P(A) P(A|B) i ” 贝叶斯公式P（A|H）一（*）* P(A)事件A发生的概率先验概率尊 P(B)事件B发生的概率先验概率密 P(A|B)事件B发生的前提卜，垂件A发生的概率后验概率e P(B|A)事件A发生的前提下，事件B发生的概率后验概率通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定 Ji .4Ki.;r 或 r：；/.2. 优缺点朴素贝叶斯的主要优点有：1）朴素贝叶

5、斯模型有稳定的分类效率。2）对小规模的数据表现很好，能处理多分类任务，适合增量式训练，尤其是数据量超出内存时，可以一批批的去增量训练。3) 对缺失数据不太敏感，算法也比较简单，常用于文本分类。朴素贝叶斯的主要缺点有：1) 理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下，假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。2) 需要知道先验

6、概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。3) 由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。4) 对输入数据的表达形式很敏感。KNN(k值邻近法)1. 原理：给定一个训练数据集，对于新的输人实例，在训练集中找到与该实例最邻近的k个实例。这 k个实例的多数属于某个类别，则该输人实例就划分为这个类别.2. 优缺点：算法优点：(1) 简单，易于理解，易于实现，无需估计参数。(2) 训练时间为零。它没有显示的训练，不像其它有监督的算法会用训练集train 一个模型(也就是拟合一个函数

7、)，然后验证集或测试集用该模型分类KNN只是把样本保存起来，收到测试数据时再处理，所以KNN训练时间为零。(3) KNN可以处理分类问题，同时天然可以处理多分类问题，适合对稀有事件进行分类。(4) 特别适合于多分类问题(multi-modal,对象具有多个类别标签)，KNN比SVM 的表现要好。(5) KNN还可以处理回归问题，也就是预测。(6) 和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感。算法缺点：(1) 计算量太大，尤其是特征数非常多的时候。每一个待分类文本都要计算它到全体已知样本的距离，才能得到它的第K个最近邻点。(2) 可理解性差，无法给出像决策树那样的规

8、则。(3) 是慵懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢。(4) 样本不平衡的时候，对稀有类别的预测准确率低。当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的 K个邻居中大容量类的样本占多数。(5) 对训练数据依赖度特别大，对训练数据的容错性太差。如果训练数据集中，有一两个数据是错误的，刚刚好又在需要分类的数值的旁边，这样就会直接导致预测的数据的不准确。神经网络1. 原理：受生物学的启发，人工神经网络是由一系列简单的单元相互紧密联系构成的，每个单元有一定数量的实数输人和唯一的实数输出。神经网络的一个重要的

9、用途就是接受和处理传感器产生的复杂的输人并进行自适应性的学习二人工神经网络算法模拟生物神经网络，是一种模式匹配算法，通常用于解决分类和回归问题。2. 优缺点：优点神经网络有很强的非线性拟du合能力zhi，可映射任dao意复杂的非线性关系，而且学zhuan 习规则shu简单，便于计算机实现。具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力，因此有很大的应用市场。缺点（1）最严重的问题是没能力来解释自己的推理过程和推理依据。（2）不能向用户提出必要的询问，而且当数据不充分的时候，神经网络就无法进行工作。（3）把一切问题的特征都变为数字，把一切推理都变为数值计算，其结果势必是丢失

10、信息。（4）理论和学习算法还有待于进一步完善和提高。深度学习1. 原理：因此深度学习的完整工作原理如下：对神经网络的权重随机赋值，由于是对输入数据进行随机的变换，因此跟预期值可能差距很大，相应地，损失值也很高；根据损失值，利用反向传播算法来微调神经网络每层的参数，从而较低损失值；根据调整的参数继续计算预测值，并计算预测值和预期值的差距，即损失值；重复步骤2,3，直到整个网络的损失值达到最小，即算法收敛。2. 优缺点：优点有以下几点：1.相比于传统的视觉和语音识别方面有了很大的提高；2.具有较好的 transfer learning 性质。缺点如下：1.模型正确性验证复杂且麻烦；2.某些深度网络不仅训练而且线上部署也需要 GPU支持强化学习1.原理：强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。

展开阅读全文

机器学习期末复习

最新文档