2022年数据挖掘复习共享

资源描述

《2022年数据挖掘复习共享》由会员分享，可在线阅读，更多相关《2022年数据挖掘复习共享（5页珍藏版）》请在金锄头文库上搜索。

1、一名词解释1 .数据挖掘：从大型数据库的数据中提取人们感兴趣的知识。2. 决策树：一个类似于流程图的树结构，内部节点表示一个属性(取值 )上的测试，其分支代表每个结果；其每个叶子节点代表一个类别，树的最高节点就是根节点。3. 聚类：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。4. 数据分类：从数据库中发现数据对象的共性，并将数据对象分成不同的几类的一个过程。5. 维：透视或关于一个组织想要记录的实体。6. 多层次关联规则：一个关联规则的内容涉及不同抽象层次的内容。7. 单层次关联规则：一个关联规则的内容涉及单一个层次的内容。8.局外者：数据库中可能包含一些数据对象，它们

2、与数据的一般行为或模型不一致。9. 数据仓库：一个面向主体的、集成的、时变的、非易失的数据集合，支持管理过程的决策制定。10. 数据集市：数据仓库的一个部门子集，它针对选定的主题，因此是部门范围的。11. 数据区别：将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。12. 数据特征化：目标类数据的一般特征或特性的汇总。13. 噪声数据：指数据中存在错误、异常(偏离期望值 )的数据。14. 不完整数据：感兴趣的属性没有值。15. 不一致数据：数据内涵出现不一致的情况。16. 数据清洗：消除数据中所存在的噪声以及纠正其不一致的错误。17. 数据集成：将来自多个数据源的数据合并到一起构成一

3、个完整的数据集。18. 数据消减：通过删除冗余特征或聚类消除多余数据。19. 数据转换：将一种格式的数据转换为另一种格式的数据。20.分类：预测分类标号（或离散值），在分类属性中的训练样本集和值(类标号 )的基础上分类，数据 (建立模型 )并使用它分类新数据。21. 簇：是一组数据对象的集合（是由聚类所生成的）。22. 数据源：是表明数据地址的联机字符串23. 数据源视图：是一个抽象层们能够让用户修改查看数据的方式，或者定义一个图表并在稍后转换实际的源。24. 一个图表题填空：菜单栏、标签页、解决方案资源管理器、属性窗口、错误窗口、设计窗口、设计标签。（顺时针方向填写）P82 二. 简答题1

4、. 预测与分类的区别是什么? 分类是预测数据对象的离散类别，预测是用于数据对象的连续取值2. 数据分类由哪几步过程组成? 第一步，建立一个模型，描述指定的数据类集或概念集；第二步，使用模型进行分类。3. ID3 算法的核心是什么? 在决策树各级节点上选择属性时，用信息增益作为属性的选择标准，以使得在每一个叶节点进行测试时能获得关于被测试记录最大的类别信息。4. 为什么朴素贝叶斯分类称为“ 朴素 ” 的？简述朴素贝叶斯分类的主要思想。朴素贝叶斯分类假定一个属性值对给定类的影响独立于其它属性的值。该假定称作类条件独立。做此假定是为了简化所需计算，并在此意义下称为“朴素的”。设为一个类别未知的数

5、据样本，H 为某个假设，若数据样本X 属于一个特定的类别C，分类问题就是决定P（ H|X），即在获得数据样本X 时假设成立的概率。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 5 页 - - - - - - - - - 5. 神经网络的优点和缺点分别是什么? 优点：其对噪音数据的高承受能力，以及它对未经过训练的数据的分类能力。缺点：需要很长的训练时间，因而对于有足够长训练时间的应用更合适。6. 典型的数据挖掘系统主要由哪几部分组成？数据库，数据仓库或其他信息库；数据库

6、或数据仓库服务器；知识库；数据挖掘引擎；图形用户界面7. OLAP 与 OLTP 的全称分别是什么？它们两者之间的区别是什么？联机事务处理OLTP (on-line transaction processing)；联机分析处理OLAP (on-line analytical processing)；OLTP 和 OLAP 的区别：用户和系统的面向性:OLTP 面向顾客，而OLAP 面向市场；数据内容： OLTP 系统管理当前数据，而OLAP 管理历史的数据；数据库设计： OLTP 系统采用实体-联系（ ER)模型和面向应用的数据库设计，而OLAP 系统通常采用星形和雪花模型；视图：OLTP 系

7、统主要关注一个企业或部门内部的当前数据，而 OLAP 系统主要关注汇总的统一的数据；访问模式： OLTP 访问主要有短的原子事务组成，而OLAP 系统的访问大部分是只读操作，尽管许多可能是复杂的查询。8. 数据仓库与数据集市的区别是什么？数据仓库收集了关于整个组织的主题信息，因此是企业范围的。对于数据仓库，通常使用星座模式，因为它能对多个相关的主题建模；数据集市是数据仓库的一个部门子集，它针对选定的主题，因此是部门范围的。对于数据集市，流行星型或雪花模式，因为它们都适合对单个主题建模。9. 不完整数据的产生原因有哪些？(1)有些属性的内容有时没有(2)有些数据当时被认为是不必要的(3)由于误

8、解或检测设备失灵导致相关数据没有记录下来(4)与其他记录内容不一致而被删除(5)历史记录或对数据的修改被忽略了。10. 噪声数据的产生原因有哪些？(1)数据采集设备有问题(2)在数据录入过程中发生了人为或计算机错误(3)数据传输过程中发生错误(4)由于命名规则或数据代码不同而引起的不一致。11. 对遗漏数据有哪些处理方法? 忽略该条记录；手工填补遗漏值；利用默认值填补遗漏值；利用均值填补遗漏值；利用同类别均值填补遗漏值；利用最可能的值填充遗漏值。12. 数据消减的主要策略有哪些？数据立方合计；维数消减；数据压缩；数据块消减；离散化与概念层次生成。13.数据源对象可以创建几种不同的安全认证选项

9、？4 种：使用特定用户名和密码；使用服务账户；使用当前用户的凭据；默认值。14.数据挖掘对聚类的典型要求有哪些？可伸缩性；处理不同类型属性的能力；发现任意形状的聚类；用于决定输入参数的领域知识最小化；处理“噪声” 数据的能力；对于输入记录的顺序不敏感；高维度；基于约束的聚类。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 5 页 - - - - - - - - - 15.简述下列聚类算法划分方法：给定一个 n 个对象或元组的数据库，一个划分方法构造数据的k 个划

10、分，每个划分表示一个聚类，并且k n。层次方法：对给定数据对象集合进行层次的分解。基于密度的方法：只要是临近区域的密度超过某个阀值，就继续聚类。基于网格的方法：把对象空间量化为有限数目的单元。基于模型的方法：试图优化给定的数据和某些数学模型之间的适应性。三. 计算题【1.】假定用于分析的数据包含属性age。数据元组中age 的值如下（按递增序）：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70 (a)使用按箱平均值平滑对以上数据进行平滑，箱的深度为3。(b)使用按箱边界值平滑

11、对以上数据进行平滑，箱的深度为3。例题如下操作：* price 的排序后数据 (美元 ): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * 划分为（等深的）箱: - 箱 1: 4, 8, 9, 15 - 箱 2: 21, 21, 24, 25 - 箱 3: 26, 28, 29, 34 * 用箱平均值平滑: - 箱 1: 9, 9, 9, 9 - 箱 2: 23, 23, 23, 23 - 箱 3: 29, 29, 29, 29 * 用箱边界值平滑: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin

12、 3: 26, 26, 26, 34 【2.】使用以下age数据：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70 ，回答以下问题：(a)使用 min-max 规范化，将age值 35 转换到 0.0,1.0区间。(b)使用 z-score 规范化转换age值 35，其中， age的标准偏差为12.94 年。(c)使用小数定标规范化转换age值 35。(d)画一个宽度为10 的等宽的直方图。例题如下操作：1. 大最小规格化：规格化对原始数据进行线性变换。假定 min A 和

13、max A 分别为属性A 的最小和最大值，最大最小规格化方法通过计算将A 的值 v 映射到区间 new _minA ，new _max A 中的 v 。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 5 页 - - - - - - - - - 例 3.1假定属性income 的最小与最大值分别为$12,000 和$98,000。我们想映射income（income 值为 $73,600）到区间 0， 1 。2. 零均值规格化：属性 A 的值基于 A 的平均值和标准差规范化

14、。A 的值 v 被规范化为v ，由下式计算：其中， A 和 A 分别为属性A 的平均值和标准差。当属性 A 的最大和最小值未知，或局外者左右了最小最大规格化时，该方法是有用的。例 3.2 假定属性income 的平均值和标准差分别为$54,000 和$16,000。使用零均值规格化方法，值 $73,600 被转换为什么 ? 3. 数点规格化：属性 A 的小数点位置进行规范化。小数点的移动位数依赖于A 的最大绝对值。A 的值 v 被规范化为v ，由下式计算：其中， j 是使得 Max(|v |)1 的最小整数。例 3.3 假定 A 的值由 -986 到 917。A 的最大绝对值为986。为使用十基数变换规格化方法，-986 被规范化为多少? 用 1,000（即， j=3）除每个值。这样，-986 被规范化为 -0.986。【3.】【4.】名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 5 页 - - - - - - - - - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 5 页 - - - - - - - - -

展开阅读全文

2022年数据挖掘复习共享

最新文档