机器学习总结－金锄头文库

资源描述

《机器学习总结》由会员分享，可在线阅读，更多相关《机器学习总结（7页珍藏版）》请在金锄头文库上搜索。

1、英译汉BP误差逆传播ROC受试者工作特性BN分批标准化CNN卷积神经网络DL深度学习DNN深度神经网络EM期望最大化GA遗传算法MLP多层感知器HMM因马尔科模型KNNK最近邻算法PCA主成分分析PLA感知机算法LDA线性判别分析RNN循环神经网络IID独立同分布LR线性回归MLE最大似然估计NBC朴素贝叶斯分类器Gen eralizati on泛化SVM支持向量机LVQ学习向量量化SVR支持向量回归MSE均方误差RMSE根均方误差BN分批标准化BEP平衡点Machi ne Learning机器学习Learn ing algorithm学习算法Feature vector特征向量Regress

2、i on回归Bi nary classificati on二分类Clusteri ng聚类Cluster簇Supervised learning监督学习En semble learni ng集成学习名词解释1.“没有免费的午餐”(NFL):对于一个算法a，若它在某个问题上比算法b好，则必然存在另一些问题，在那里b比a好。2. 奥卡姆剃刀:如有多个假设与观察一致，则选最简单的那个3. 过拟合:学习能力过强，以至于把训练样本所包含的不太一般的特性都学到了。4. 欠拟合:学习能力太差，训练样本的一般性质尚未学好。5. 泛化:模型适应新样本的能力6. 留出法：将数据集D划分为两个互斥的集合，一个作为训

3、练集S，个作为测试集T , 满足 D=SuT 且 SnT=0 ,7. 交叉验证法：将数据集D划分为k个大小相同的互斥子集，满足D=D1uD2u.uDk , DinDj=0 (ij),每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就有K种训练集/测试集划分的情况，从而可进行k次训练和测试，最终返回k次测试结果的均值.留一法：即m个样本划分m个子集，每个子集包含一个样本。8. 自助法：给定包含m个样本的数据集D，每次随机从D中挑选一个样本，将其拷贝放入D，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到。重复执行m次，就可以得到了包含m个样本的数据

4、集D，剩余的作为测试集。9. 比较检验(简单题)( 1) 测试性能并不等于泛化能力( 2) 测试性能随测试集的变化而变化( 3) 很多机器学习算法本身就有一定的随机性(4 )方法：p37-p4110. 最小二乘法；基于均方误差最小化来进行模型求解的方法称为最小二乘法。11. 对数几率回归：用线性回归模型的预测值去逼近真实标记的对数几率12. 线性判别分析（LDA）:将训练样本投影到一条直线上，使得同类的样例尽可能近，不同类的样例尽可能远。13. 别不平衡问题:就是指分类问题中不同类别的训练样本相差悬殊的情况14. 极大似然估计:先假定其具有某种确定的概率分布形式，在基于训练样本对概率分布的

5、参数进行估计15. 集成学习：通过构建并结合多个学习器来完成任务，串行boosting，并行bagging和随机森林16. 支持向量:距离超平面最近的、使约束条件的等号成立几个训练样本（向量）。17. Boosting :先从初始训练集训练一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器，如此重复进行，直到基学习器数目达到指定值，然后把这些基学习器加权结合。18. Bagging :使用“有放回”采样的方式选取训练集，对于包含m个样本的训练集；采集到 T个包含m个样本的数据集，从而

6、训练出T个基学习器，最终对这T个基学习器的输出进行结合。19. 随机森林:对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含 K 个属性的子集，然后再从这些属性中选择一个最优属性进行划分20. 聚类:聚类则是试图将数据集的样本划分为若干个互不相交的类簇，从而每个簇对应一个潜在的类别21. 原型聚类:假设聚类结构能通过一组原型刻画，先对原型进行初始化，然后对对原型进行迭代求解。（k均值，学习向量化，高斯混合聚类）22. 密度聚类:密度聚类则是基于密度的聚类，它从样本分布的角度来考察样本之间的可连接性，并基于可连接性不断拓展聚类簇。23. 层次聚类：试图在不同的层次对数据集进行划

7、分，从而形成树形聚类结构，Agnes是一种自底向上的方法，它先将数据集中的每一个样本看作一个初始聚类簇，然后再算法运行的每一步中找到距离最近的两个聚类簇进行合并，直到达到预设的聚类簇个数。分析题：1，第二章给个例子，选择合适的采样方法2 ,第三章给出几个点用留一法用线性回归算出均方误差误差或者让均方误差最小，最小二乘法）3，第六章1给出数据把图画出来，找出支持向量和最大分类间隔（不会画，不会找。4. 第八章集成学习，给个例子选方法。5. 过拟合与欠拟合问题是什么，怎么解决？过拟合：学习能力过强，以至于把训练样本所包含的不太一般的特性都学到了。在决策树中，应采取剪枝；在神经网络中，应早停

8、或引入正则化。欠拟合：学习能力太差，训练样本的一般性质尚未学好。决策树中扩展分支；在神经网络学习中增加训练轮数。6. 什么是类别不平衡问题，如何处理？就是指分类问题中不同类别的训练样本相差悬殊的情况处理：再放缩，只要分类器的预测几率大于观察几率应判为正例。7. 神经网络中，如何跳出局部最小？（1）以多组参数初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数；（2）“模拟退火”在每一步以一定概率接受比当前解更差的结果；（3）随机梯度下降，计算梯度时加入随机因素（4）遗传算法8. 神经网络中，如何预防过拟合问题？（1）早停（2）引入正则化9. 为什么不使用阶跃函数？阶跃函数不连续，不光滑，不可导，存在梯度消失问题10. 引入核函数的作用？将样本从原始空间映射到一个更高维的特征空间。11. 贝叶斯公式定理设试验E的样本空间为已A为恵的事件我为S的一亍划分.且（A）0,P（/?r）0 0=1,2 宀则PCB. | A)=PM民）日比）f ： 1 ： fS | BpPfBp 一 PA）严1（5.7）式称为贝叶斯（Bayes）公式”实旺上由条撷率与全概率i：式描导岀12. 求范数大题：（20）第四章：选择划分属性p77页和剪枝处理第六章：支持向量机：给出数据把图画出来，找出支持向量和最大分类间隔第七章：朴素贝叶斯p151例题

展开阅读全文

机器学习总结

最新文档