数据挖掘知识点归纳

资源描述

《数据挖掘知识点归纳》由会员分享，可在线阅读，更多相关《数据挖掘知识点归纳（9页珍藏版）》请在金锄头文库上搜索。

1、知识点一数据仓库1. 数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。2. 数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。3. 数据仓库围绕主题组织4. 数据仓库基于历史数据提供消息，是汇总的。5. 数据仓库用称作数据立方体的多维数据结构建模，每一个维对应于模式中的一个或者一组属性，每一个单元存放某种聚集的度量值6. 数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据7. 提供提供多维数据视图和汇总数据的预计算，数据仓库非常适合联机分析处理，允许在不同的抽象层提供数据，这种操作适合不同的用户角度8. OLAP例

2、子包括下钻和上卷，允许用户在不同的汇总级别上观察数据9. 多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘，允许在各种粒度进行多维组合探查，因此更有可能代表知识的有趣模式。知识点二可以挖掘什么数据1. 大量的数据挖掘功能，包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2. 数据挖掘功能用于指定数据挖掘任务发现的模式，分为描述性和预测性3. 描述性挖掘任务刻画目标数据中数据的一般性质4. 预测性挖掘任务在当前数据上进行归纳，以便做出预测5. 数据可以与类或概念相关联6. 用汇总、简洁、精确的表达描述类和概念，称为类/概念描述7. 描述

3、的方法有数据特征化（针对目标类）、数据区分（针对对比类）、数据特征化和区分8. 数据特征化用来查询用户指定的数据，上卷操作用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化，而不必与用户交互。形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述可以用广义关系或者规则（也叫特征规则）提供。9. 用规则表示的区分描述叫做区分规则。10. 数据频繁出现的模式叫做频繁模式，类型包括频繁项集、频繁子项集（又叫频繁序列）、频繁子结构。11. 频繁项集一般指频繁地在事务数据中一起出现的商品的集合12. 频繁子序列就是一个频繁序列模式13.

4、子结构涉及不同的结构，可以与项集和子项集一起出现14. 挖掘频繁模式导致发现数据中有趣的关联和相关性15. 包含单个谓词的关联规则称作单维关联规则。多个谓词的关联规则叫做多维关联规则。16. 如果不能同时满足最小支持度阈值和最小置信度阈值是无趣的关联规则。17. 频繁模式挖掘的基础是频繁项集挖掘18. 分类找出描述和区分数据类或概念的模型或者函数来预测类标号未知对象的类标号。19. 导出模型是基于训练数据集的分析，预测类标号未知对象的类标号。形式有分类规则、决策树、数学公式或者神经网络20. 决策树类似流程图的树结构，每一个结点代表一个属性上的测试，每一个分支代表测试的一个结果，树叶代表类

5、或者类分布。21. 分类时，神经网络类似于神经处理单元，单元之间加权连接。构造分类模型的方法还有朴素贝叶斯分类、支持向量机、K最近邻分类。22. 分类预测类别（离散的、无序的）标号，回归建立连续值函数模型来预测缺失的、难以获得的数据数据值23. 术语预测指数值预测和类标号预测24. 回归也包含基于可用数据的分布趋势识别25. 相关分析在分类和回归之前进行，试图识别与分类和回归过程显著相关的属性26. 聚类分析数据对象，产生数据组群的类标号，原则是最大类内相似性、最小化类间相似性。所形成的每一个簇看做一个对象集，可以导出规则。聚类便于分类法的形成，将观测组织成分层结构，把类似的事件组织在

6、一起27. 离群点指与数据的一般行为或模型不一致的数据对象，视为噪声或者异常舍弃。离群点数据分析也叫离群点分析或异常挖掘，用统计监测或者距离度量、基于密度方法识别28. 有趣的模式指易于被人理解、在某种确信度上对于新的或检验数据是有效的、潜在有用的、新颖的模式。有趣的模式代表知识。29. 模式兴趣的度量包括客观度量和反映特特定用户需要和兴趣的主观度量。客观度量基于所发现模式的结构和关于它们的统计量，比如规则的支持度、规则的置信度、分类规则的准确率与覆盖率。主观度量基于用户对数据的信念，比如是出乎意料、提供重要信息（也叫可行动的）30. 根据用户提供的约束和兴趣度度量对搜索聚焦，对某些

7、任务而言能够保证算法的完全性31. 模式兴趣度量根据模式的兴趣度对所发现的模式进行排位，可以通过减去模式空间中不满足预先设定的兴趣度约束的子集来指导和约束发现过程。知识点三数据对象与数据属性1. 数据集由数据对象组成，一个对象代表一个实体。2. 数据对象用属性描述，又叫样本、实例、数据点或对象。存放在数据库中的数据对象叫做数据元组。3. 属性是一个数据字段，表示数据对象的一个特征，也叫维、特征、变量。用来描述一个给定对象的一组属性叫做属性向量（或者特征向量）。涉及一个属性的叫做单变量、两个属性的叫做双变量4. 一个属性的类型由该属性可能具有的值的集合决定，分为标称的、二元的、序数的、

8、数值的5. 标称属性的值是一些符号或者事物的名称，每一个值代表某种类别、编码或者状态，被看做是分类或者枚举的，不必具有有意义的序6. 二元属性是一种标称属性，又叫布尔属性，只有两个状态：0 或者 1， 0 代表不出现， 1 代表出现。如果两种状态具体同等价值并且携带相同的权重，那二元属性是对称的。7. 序数属性可能的值之间具有有意义的序或秩评定，相继之间的差是未知的，通常用于等级评定调查。8. 数值属性用整数或者实数值表示，可以是区间标度或者比率标度的。区间标度属性用相同的单位尺度度量，有序，可以为负、零、正，允许比较和度量评估值之间的值。比率标度是具有固定零点的数值属性，可以说一个

9、数是另一个数的倍数9. 机器学习领域开发的分类算法通常把属性分为离散的、连续的。离散属性具有有限或者无限可数个值，可以用或者不用整数表示。连续属性值一般用浮点变量表示，实数值用有限位数字表示。知识点四数据的基本描述统计1. 中心趋势度量数据分布的中部或者中心位置，包括均值、中位数、众数、中列数2. 数据的分散度量包括极差、四分位数、四分位数极差、五数概括和和盒图、方差和标准差3. 图形可视化审视数据，包括条图、饼图、线图4. 为了抵消少数极端值的影响，使用截尾均值来高低极端值后的均值。5. 具有一个、两个、三个众数的数据集合叫做单峰、双峰、三峰6. 在具有完全对称的数据分布的单峰频率曲

10、线图中，均值、中位数和众数都是相同的中心值7. 分位数是取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。8. 识别可疑的离群点挑选落在第三个四分位数之上或者第一个四分位数之下至少 1.5*IQR （四分数极差）处的值。9. 五数概括包括中位值、四分位数Q1、四分位数Q3、最小和最大观测值组成盒图。知识点五度量数据的相似性和相异性1. 簇是数据对象的集合，使得每一个簇中的元素互相相似，与其他簇中的对象相异。2. 两种数据结构：数据矩阵（存放数据对象）和相异性矩阵（存放数据对象对的相异性值）3. 邻近性指相异性和相似性4. 数据矩阵也叫二模矩阵，相异矩阵只包含一种实体

11、，称为单模矩阵5. 欧几里得距离和曼哈顿距离满足：非负性、同一性、对称性、三角不等式，满足条件的测度叫做度量。6. 上确界距离是两个对象的最大值差知识点六数据预处理概述1. 数据质量包括准备性、完整性、一致性、时效性、可信性、可解释性。质量基于数据的应用目的。2. 数据预处理的主要任务数据清理、数据集成、数据归约、数据变换3. 数据清理是为了填补缺失的值、光滑噪声数据、识别和删除离群点、纠正数据的不一致性。这是一个两步的迭代的过程，分为偏差检测和数据变换4. 数据集成涉及集成多个文件、数据库、数据立方体，整合成一致的数据存储。语义异种性的解决、元数据、相关分析、元组重复检测和数据冲突

12、检测都有助于数据的集成。5. 数据归约得到数据集的简化表示，使信息内容的损失最小化。策略包括维归约和数值归约、数据压缩。维归约中减少所考虑的随机变量或者维的个数，方法包括小波变换、主成分分析、属性子集选择和属性创建。数值归约归约中，使用参数模型和非参数模型，用较小的表示取代数据。数据压缩指按照比例映射到一个较小的区间。不损失任何信息代表是无损的。6. 属性的原始值被区间或者叫高层的概念所取代可以采用离散化和概念分层产生的方法，使得数据在多个抽象层上进行。数据变换包括规范化、数据离散化、概念分层产生7. 冗余数据的删除既是数据清理也是数据归约8. 填补缺失值的方法有忽略元组、人工填写、使

13、用一个全局变量、使用属性的中心度量（中位数或者均值）、使用给定元组属性的同一类的所有样本的属性均值或者中位数、使用最可能的值（使用回归或者贝叶斯推理得到）9. 噪声是被测量的变量的随机误差或者方差10. 识别噪声的方法有基本统计描述技术和数据可视化方法11. 数据光滑技术有分箱、回归、离群点分析12. 分箱通过考察数据的近邻来光滑有序数据值，这些有序的值被分配到一些桶或箱中。13. 分箱考察近邻的值，它是局部光滑14. 对于用箱均值光滑，所有值都被替换成均值；用箱中位数光滑，每一个数都替换成中位数；用箱边界光滑，每一个数字都替换成最近的边界值，宽度越大代表光滑效果越好15. 数据变换指数

14、据被变换或者统一成适合挖掘的形式，策略包括光滑、属性构造、聚集、离散化、由标称数据产生概念分层。16. 光滑指去掉数据中的噪声，技术包括分箱、回归、聚类；属性构造通过已知属性产生新的属性添加到属性集中；聚类对数据的汇总和聚集；概念分层将属性泛化到较高的概念层17. 离散化技术根据如何离散化加以分类，比如自顶向下的分类或者离散化。使用类信息叫做监督的离散化。18. 离散化和概念分层也是数据归约的形式，原始数据被曲建或者标签取代。19. 用较小的单位表示属性将导致该属性有较大值域，因此倾向于使这样的属性具有较大的影响或者较高的权重20. 规范化或标准化的目的是避免对度量单位选择的依赖性，规

15、范化数据试图赋予所有属性相等的权重。方法有最小-最大规范化、z分数规范化和按小数定标规范化21. 最小-最大规范化：（v-minA） / （maxA-minA）（new_maxA-new_minA） +new_minAz分数规范化：（v-均值）/方差按小数定标规范化：全部除以一个数字22. 分箱是一种基于指定的箱个数的自顶向下的分裂技术。分箱不使用类信息，是一种非监督的离散化技术，对用户指定的箱个数敏感，容易受离群点的影响23. 直方图是一种非监督的离散化方法，将属性 A 的值划分为不相交的区间，叫做桶或者箱。直方图分析算法可以递归地用于每一个分区，自动地产生多级概念分层，直到达到一个

16、预先设定的概念层数，过程终止。对每一层使用最小区间长度来控制递归。24. 聚类将属性A划分为簇或组来离散化属性A。采用自顶向下的划分策略或组自底向上的合并策略产生概念分层，其中每一个簇形成的概念分层的一个结点。25. 决策树采用自顶向下的方式，是监督的离散化方法，使用了类标号。26. 相关性度量采用自底向上的策略，递归地找出最邻近的区间，合并，形成大区间。使用类标号，是监督的。相对类频率在一个区间应该完全一致，如果两个邻近的区间具有非常大的相似性就可以合并他们。27. ChiMerge 把数值属性 A 的每一个不同看做是一个区间，对每一个相邻区间进行检验，具有最小卡方检验值的表明有相似的

展开阅读全文