机器学习及数据挖掘复习

资源描述

《机器学习及数据挖掘复习》由会员分享，可在线阅读，更多相关《机器学习及数据挖掘复习（13页珍藏版）》请在金锄头文库上搜索。

1、机器学习与数据挖掘复习第一章：Introduction1. 什么是数据挖掘：数据挖掘时从大量的数据中取出令人感兴趣的知识令人感兴趣的知识：有效地、新颖的、潜在有用的和最终可以理解的。2. 数据挖掘的分类从一般功能上的分类：a) 描述型数据挖掘模式：聚类,summarization，关联规那么，序列发现。b) 预测型数据挖掘值：分类，回归，时间序列分析，预测。3. KDD数据库中的知识发现的概念：KDD是一个选择和提取数据的过程，它能自动地发现新的、准确的、有用的模式以及现实世界现象的模型。数据挖掘是KDD过程的一个主要的组成局部。4. 用数据挖掘解决实际问题的大概步骤：a) 对数据进展K

2、DD过程的处理来获取知识。b) 用知识指导行动。c) 评估得到的结果：好的话就循环使用，不好的话分析、得到问题然后改良。5. KDD过程中的角色问题：6. 整个KDD过程：a) 合并多个数据源的数据。b) 对数据进展选择和预处理。c) 进展数据挖掘过程得到模式或者模型d) 对模型进展解释和评价得到知识。第二章数据和数据预处理1. 什么是数据：数据是数据对象和它的属性的集合。一个属性是一个对象的性质或特性。属性的集合描述了一个对象。2. 属性的类型：a) 标称nominal：它的值仅仅是不同的名字，只是提供足够的信息来区分对象。例如邮政编码、ID、性别。b) 序数：序数属性的值提供足够的信息

3、确定对象的序。例如硬度、成绩、街道。c) 区间：对于区间属性，值之间的差是有意义的，即存在测量单位。例如日历日期、温度。d) 比率：对于比率变量，差和比率都是有意义的。例如绝对温度、年龄、质量、长度。3. 用值的个数描述属性：a) 离散的：离散属性具有有限惑无限可数个值，这样的属性可以是分类的。b) 连续的：连续属性是取实数值的属性。4. 非对称属性：对于非对称属性，出现非零属性值才是最重要的。5. 数据集的类型：a) 记录型数据：每一个数据对象都是有固定数目的属性组成的。数据矩阵：如果一个数据集中的所有数据对象都具有一样的数值属性集，那么数据对象可以看做是多维空间中的点，其中每个位代表

4、描述对象的一个不同属性。文档数据：每个文档看成是一个向量。事务数据：每一个事务涉及一个项的集合。b) 图数据：可以表示数据对象间的关系或者是数据对象本身就是用图形表示。c) 有序数据：属性在时间或者空间上有关系。时态数据：记录型数据的扩展，但是每个记录都有一个时间。序列数据：由数据构成的序列，没有时间，但表述了一个时间的先后顺序。时间序列数据：每个记录都是一个时间序列。空间数据：属性和空间位置有关。6. 噪声和离群点的区别：噪声是对原始值产生了修改；离群点是具有不同于数据集中其他大局部数据对象的特征的数据对象，或是相对于该属性的典型值不寻常的属性值。7. 如何处理噪声数据：a) 分箱

5、binning：分享方法通过考察数据的近邻来光滑有序数据的值。b) 回归：可以用一个函数你和数据来光滑数据。c) 聚类：将数据划分为不同的类，落在类之外的视为离群点。d) 把计算机分析的结果让人检查看是否有问题。8. 数据预处理中的主要任务：a) 数据清洗：填补缺值、去除噪声、解决数据不一致、解决冗余。b) 数据集成：将不同数据源的数据放在一个地方。c) 数据转换：平滑处理、数据聚合、数据泛化、归一化、属性特征构造。d) 数据约减：减少数据量，但仍需从少量的数据中得到原有或接近原有的结果。e) 数据离散化对给定连续值划分为假设干小区间，每个区间用一个值表示。9. 相关分析两类方法：对于数值属性

6、可以通过计算两属性之间的相关系数。对于分类数据两属性之间的相关联系可以通过卡方来计算。10. 对数据归一化处理的三大类方法：a) 最小-最大标准化：.v - min av =(new _ maxi new _ 用并儿)+ new _ min amax a - min a_b) Z-score 标准化：T V - zV =Cac) 小数定标标准化：V1011. 属性约减的方法：a) 回归：拟合函数。b) 直方图：将数据划分为一定的区间，存储时只用存储其平均值。等宽度、等深度、 V-optimal：取最优化分、MaxDiff:根据值间距离来划分。c) 聚类：将数据聚为不同的类，存储类中最有代表性

7、的数据，例如中心点。d) 抽样：从数据中抽取一个样本，要能代表原来的数据。12. 数据离散化的方法：a) 数值型：i. 直方图：自上而下的划分。ii. 聚类的分析。iii. 基于熵的离散化。iv. 卡方分析。v. 自然划分的方法。b) 分类型数据：i. 模式集。ii. 属性集。iii. 通过只可以得到层次的关系。iv. 根据不同属性的取值自动生成。13. 计算二进制属性的相似性用SMC和Jaccard系数也可以不用于二进制属性，也可用于连续和计数属性Cosine相似性用来测文档和文档之间的距离。第三章概念学习1. 概念的概念：a) 概念是定义在一个大集合上的事物或对象的子集。b) 概念是定义

8、在一个大集合上的二值函数。2. 概念学习的概念：a) 概念学习就是从数据里提取出此概念的定义。b) 概念学习可看成从给定的数据输入、输出中拟合出一个二值函数。3. 概念学习的三种算法：a) Find-S:找到一个最具体的假设i. 把H中的每个h初始化成最具体的假设。ii. 它对所有否认样本都不处理。iii. 它保证能收敛到一个最具体的假设。iv. 缺点：找到一个假设，但是并没有表示他是唯一的，有可能有其他假设存在;不一定最具体的假设就是最好的；不能适应噪声的问题；假设不止一个，然而此算法只能找到一个。b) 候选-删除算法：输出与训练样例一致的所有假设的集合。使S更一般、使G更具体它也不适应噪

9、声问题。c) 列表后消除算法：列出所有的版本空间成员，然后把不适宜的找出。他要先将所有的假设找出来，然而这并不都是可以实现的。第四章决策树1. 决策数学系的概念：决策树学习是一个简单的逼近方法，学习一个离散型函数。学习函数被用一个决策树来表示；同时，决策树能被描述为if-then规那么。2. 决策树分类的根本步骤：a) 从数据归纳产生出一棵树。b) 用模型对新数据进展分类。3. 决策树学习过程：a) 生成根节点：对每一个属性进展评估，得到一个最好的属性作为根。b) 根属性有几个值就产生几个分支，将数据方案成假设干局部。c) 重复上述过程。4. 不纯度计算方法：a) Gini Index:G

10、邓“ =1-乞血J|f)2=YG!Ni；卜斤b) Entropy:Entropy(t) = -L p(j 0 log p(j t)叫=亦剧(p)-許丽咖Jf/c) Classification error:= 1-max P(| t)b) 分类速度快。c) 树小时容易解释。d) 分类精度和别的方法差不多在一些简单的数据集上。6. 如何解决过拟合现象：a) 预裁剪：在树充分长成前停下来。停顿的条件是所有的实例都被分为一个类，或者所有的属性值都一样。b) 后裁剪：将树充分生成，再按自下而上的方法进展裁剪。假设将子树裁剪后泛化的误差减小，那么将子树裁去，将类标号出现最多的标号作为裁掉树后补上的叶

11、子。7. 度量模型的方法：CountPREDICTED CLASSACTUALCLASSClass YesClass NoClass YesabClass NoCdx(7 + c/Accuracy =47 +力 dPrecision (p) =n + cRecall-口+ 1： - measure (F) =-兰 r + p 2i? + fl -k f8性能评估的方法：a) Holdout:用 2/3 训练，1/3 测试。b) 随机二次抽样：屡次重复Holdout方法来改良最分类器性能的评估。c) 穿插验证：把数据分为大小一样的k份，在每次运行，选择其中一份作检验集，其余的全做为训练集，该过

12、程重复k次，使得每份数据都用于检验恰好一次。d) 分块抽样。e) 带回放抽样：适用于数据集小的情况。9.ROC承受者操作特征曲线：曲线上的每一点代表每个分类器的性能。第五章神经网络1. 神经网络适合具有下面特征的问题：a) 实例是用很多“属性-值对表示的。b) 目标函数的输出可能是离散值、实数值或者由假设干实数属性或离散属性组成的向量。c) 训练数据可能包含错误。d) 可容忍长时间的训练。e) 可能需要快速求出目标函数值。f) 人类能否理解学到的目标函数是不重要的。2. 感知器：感知器以一个实数值向量作为输入，计算这些输出的线性组合，然后如果结果大于某个阈值就输出1,否那么输出-1。我们可以

13、把感知器看作是n维实例空间中的超平面决策面。3. 感知器网络的训练方法：a) 感知器训练法那么：从随机的权值开场，然后反复地应用这个感知器到每个训练样例，只要它误分类样例就修改感知器的权值。重复这个过程，直到感知器正确分类所有的训练样例。法那么如下：、吟比+A出=耳(f _ o)旳在有限次使用感知器训练法那么后，上面的训练过程会收敛到一个能正确分类所有训练样例的权向量，前提是训练样例线性可分，并且使用了充分小的n。如果数据不是线性可分的，那么不能保证训练过程收敛。b) Delta法那么：如果训练样本不是线性可分的，那么delta法那么会收敛到目标概念的最正确近似。Delta规那么

14、的拟合精度是足够好的，他用梯度下降的方法在假设空间中找出一组能够最好的拟合训练样本的一组。梯度下降法那么：随意给一组初始值，循环的修改初始值使误差E要足够小，他要在曲面上找一个下降方向最快的方向进展估计。一dEWi g +勁=q c) 这两个算法间的关键差异是感知器训练法那么根据阈值化的感知器输出误差更新权值，然而Delta法那么根据输入的非阈值化线性组合的误差来更新权值。4. 反向传播算法：用来学习由一系列确定的单元互连形成的多层网络的权值。它采用梯度下降方法试图最小化网络输出值和目标值之间的误差平方。先用样本数据训练神经网络时，它自动地将输出值与期望值进展比拟，得到误差信号，再根

15、据误差信号，从后向前调节个神经网络层神经元之间的连接强度，然后再进展运算，使误差减小，再将新的输出值与期望值进展比拟，得到新的比先前小的误差信号，再根据较小的误差信号，从后向前重新调节各神经网络层神经元之间的连接强度，依此不断地屡次进展，直到误差满足要求为止。第六章贝叶斯学习1. 贝叶斯学习方法的特征：a) 观察到的每个训练样例可以增量的降低或升高某假设的估计概率。b) 先验知识可以与观察数据一起决定假设的最终概率。c) 贝叶斯方法可允许假设做出不确定性的预测。d) 新的实例分类可由多个假设一起做出预测，用他们的概率来加权。e) 即使在贝叶斯方法计算复杂度较高时，他们仍可作为一个最优的决策的标准衡量其他方法。2. 贝叶斯公式：3.极大后验假设MAP和极大似然度ML：考虑候选假设集合H并在其中寻找给定数据D是

展开阅读全文