数据仓库与数据挖掘学习要点及答案

资源描述

《数据仓库与数据挖掘学习要点及答案》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘学习要点及答案（4页珍藏版）》请在金锄头文库上搜索。

1、数据仓库与数据挖掘学习要点第一章引言 1、数据挖掘的概念，即什么是数据挖掘？数据挖掘数据挖掘-从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。合。2、数据挖掘的过程。数数据据输输入入数数据据挖挖掘掘数数据据预预处处理理数数据据后后处处理理数据清理规范化特征选择维缩减数据清理规范化特征选择维缩减模式发现关联 &相关分类聚类异常分析模式评估模式选择模式解释模式可视化模式评估模式选择模式解释模式可视化3、数据挖掘的功能是什么？即可以挖掘到什么类型的模式。 1）概念描述）概念描述: 特征和区分特

2、征和区分 2）频繁模式）频繁模式,关联关联 3）分类和预测）分类和预测 4）聚类分析）聚类分析 5）离群）离群点分析点分析 6）趋势和演变分析）趋势和演变分析 4、数据挖掘模式是要挖掘有趣的模式。什么是有趣模式，为什么要挖掘有趣的模式？有趣模式：易于被人理解的有趣模式：易于被人理解的, 在某种程度上在新的或测试数据上是有效的在某种程度上在新的或测试数据上是有效的, 潜在有用的潜在有用的, 新颖的新颖的, 或验证了用户希望证实的某种假设或验证了用户希望证实的某种假设模式兴趣度度量，无论是客观的还是主观的，都可以用来指导发现过程模式兴趣度度量，无论是客观的还是主观的，都可以用来指导发现过程 5、

3、关系数据库、数据仓库、数据挖掘构成一个怎样的层次，在功能上它们之间有什么样的关系？多种挖掘功能的集成、耦合多种挖掘功能的集成、耦合第二章数据预处理 1、为什么要预处理数据？现实世界中的数据是脏的：现实世界中的数据是脏的：1）不完全不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据2）噪音噪音: 包含错误或孤立点3）不一致不一致: 编码或名字存在差异2、数据预处理包括那些方面？数据清理数据清理填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致数据集成数据集成多个数据库, 数据立方体, 或文件的集成数据变换数据变换规范化和聚集数据归约数据归约得到数据的归

4、约表示, 它小得多, 但产生相同或类似的分析结果：维度规约、数值规约、数据压缩数据离散化和概念分层数据离散化和概念分层 3、数据清理的概念，数据清理包括那些方面？数据清理数据清理填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致数据清理包括缺失值、噪声数据、不一致性、偏差检测和数据交换数据清理包括缺失值、噪声数据、不一致性、偏差检测和数据交换 4、数据集成和变换的概念。数据集成数据集成多个数据库, 数据立方体, 或文件的集成数据变换数据变换规范化和聚集 5、数据规约的概念，数据规约包括那些方面？数据归约数据归约得到数据的归约表示, 它小得多, 但产生相同或类似

5、的分析结果：维度规约、数值规约、数据压缩数据规约包括数据规约包括数据立方体聚集、维度规约、数据压缩、数值规约、离散化和产生概念分层数据立方体聚集、维度规约、数据压缩、数值规约、离散化和产生概念分层 6、什么是数据离散化？什么是概念分层？数据离散化数据离散化把连续属性的区域分成区间把连续属性的区域分成区间概念分层概念分层递归离散化属性，产生属性值分层递归离散化属性，产生属性值分层/多分辨率划分多分辨率划分第三章数据仓库与 OLAP 技术 1、数据仓库的概念数据仓库是面向主题的数据仓库是面向主题的, 集成的集成的, 时变的时变的, 和非易失的数据集合和非易失的数据集合, 支持管理决

6、策过程支持管理决策过程 2、为什么需要数据仓库？数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，而产生的，目的是目的是 OLAP: 复杂的复杂的 OLAP 查询查询, 多维视图多维视图, 统一统一. 3、什么是数据立方体？数据立方体将数据建模数据立方体将数据建模, 并允许由多个维进行观察并允许由多个维进行观察 4、掌握数据立方体各种操作：上卷、下钻、切块、切片。上卷、下钻、切块、切片。 5、了解数据仓库的功能及在数据处理中的层次位置。第五章挖掘频繁模式、关联和相

7、关 1、项集、频繁项集的概念。设设 A 是一个由项目构成的集合，称为项集。是一个由项目构成的集合，称为项集。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或大项集）如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或大项集）。 2、支持度、置信度的概念及计算。项集项集 A 在事务数据库在事务数据库 D 中出现的次数中出现的次数占占 D 中总事务的百分比叫做项集的支持度。中总事务的百分比叫做项集的支持度。support (XY)=P (X uY) 置信度置信度, ,是指特定个体对待特定命题真实性相信的程度是指特定个体对待特定命题真实性相信的程度.

8、 .也就是概率是对个人信也就是概率是对个人信念合理性的量度念合理性的量度是一个条件概率是一个条件概率 P (Y | X)。confidence (XY)=P (Y | X) 3、Apriori 算法的过程及应用。 1)通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；集； 2)利用频繁项集构造出满足用户最小信任度的规则。利用频繁项集构造出满足用户最小信任度的规则。第六章分类和预测 1、什么是分类，什么是预测，二者有什么区别与联系？分类和预测是两种数据分析形式分类分类用于提取描述重要

9、数据类的模型用于提取描述重要数据类的模型预测预测用于预测未来的数据趋势的模型用于预测未来的数据趋势的模型相同点相同点1）两者都需要构建模型）两者都需要构建模型2）都用模型来估计未知值）都用模型来估计未知值预测当中主要的估计方法是回归分析预测当中主要的估计方法是回归分析线性回归和多元回归线性回归和多元回归非线性回归非线性回归不同点：不同点：分类法主要是用来预测类标号（分类属性值）分类法主要是用来预测类标号（分类属性值）预测法主要是用来估计连续值（量化属性值）预测法主要是用来估计连续值（量化属性值）决策树分类算法。 2、决策树分类算法。基本算法基本算法 (贪心算法贪心算法)1）树构建：树构建：

10、自顶向下递归地分治方式2）开始，开始，所有的训练样本位于根节点3）属性属性是分类属性(若是连续值,事先离散化)4）基于选择的属性，样本被递归地分割基于选择的属性，样本被递归地分割5）基于启发式基于启发式/统计测来选择测试属性统计测来选择测试属性 (例如例如信息增益信息增益) 4、什么是一元线性回归分析，回归分析有什么作用？对一元正态线性回归模型进行统计分析称为一元线性回归分析对一元正态线性回归模型进行统计分析称为一元线性回归分析其作用主要表现在以下几个方面：(1) 判别自变量是否能解释因变量的显著变化-关系是否存在；(2) 判别自变量能够在多大程度上解释因变量-关系的强度；(3) 判别关系

11、的结构或形式-反映因变量和自变量之间相关的数学表达式；(4) 预测自变量的值；(5) 当评价一个特殊变量或一组变量对因变量的贡献时，对其自变量进行控制。5、给出点列会用一元线性回归分析公式计算一元线性表达式，并做预测。第七章聚类分析 1、聚类的概念，聚类与分类的联系与区别。聚类聚类: 数据对象的集合数据对象的集合/簇簇 (cluster) |12|1)()( 1DiiDiiixxyyxxwxwyw10 同一簇中的对象彼此相似同一簇中的对象彼此相似不同簇中的对象彼此相异不同簇中的对象彼此相异聚类是无指导的分类聚类是无指导的分类: 没有预先定义的类；与分类规则不同，进行聚类前并不知道将没

12、有预先定义的类；与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组 2、掌握 K-均值算法的聚类过程及步骤。算法：算法： k-平均平均 (1) 任意选择任意选择 k 个对象作为初始的簇中心；个对象作为初始的簇中心； (2) repeat (3) 根据簇中对象的平均值根据簇中对象的平均值, 将每个对象将每个对象(重新重新)赋给最类似的簇；赋给最类似的簇； (4) 更新簇的平均值更新簇的平均值, 即重新计算每个簇中对象的平均值；即重新计算每个簇中对象的平均值； (5) until

13、不再发生变化不再发生变化结束条件为结束条件为：本次分类结果与上次分类结果相同或者收敛函数值小于给定的阀值。：本次分类结果与上次分类结果相同或者收敛函数值小于给定的阀值。 3、会用 K-均值算法对给定的点进行聚类，只考虑两次聚类结果相同即可达到结束条件。 4、密度聚类的算法的思想。算法：算法：1）任意选取一个点）任意选取一个点 p2）得到所有从）得到所有从 p 关于关于 Eps 和和 MinPts 密度可达的点密度可达的点.3）如果）如果 p 是一个核心点是一个核心点, 则找到一个聚类则找到一个聚类.4）如果）如果 p 是一个边界点是一个边界点, 没有从没有从 p 密度可达的点密度可

14、达的点, DBSCAN 将访问数据库中的下一个将访问数据库中的下一个点点.5）继续这一过程）继续这一过程, 直到数据库中的所有点都被处理直到数据库中的所有点都被处理. 5、凝聚层次聚类算法的思想。（）将每一个样本作为一个类，为所有不同的无序样本对的类间距离构造一个序列，然）将每一个样本作为一个类，为所有不同的无序样本对的类间距离构造一个序列，然后按升序对这个序列进行排序后按升序对这个序列进行排序（）通过已排序的距离序列，对每一个不同的阈值形成一个样本图，图中将距离比）通过已排序的距离序列，对每一个不同的阈值形成一个样本图，图中将距离比更近的各对样本合并成一个新的类若所有的样本都是这

15、个图的元素则停止；否则，更近的各对样本合并成一个新的类若所有的样本都是这个图的元素则停止；否则，重复该步骤重复该步骤（）这个算法的输出是一个嵌套的层次图，用希望的相似度水平去截取，在相应的子图）这个算法的输出是一个嵌套的层次图，用希望的相似度水平去截取，在相应的子图中生成一个由简单联合标识的分类中生成一个由简单联合标识的分类 6、分裂层次聚类的思想。DIANA（Divisive Analysis）算法属于分裂的层次聚类，首先将所有的对象初始化到一个簇中，）算法属于分裂的层次聚类，首先将所有的对象初始化到一个簇中，然后根据一些原则（比如最邻近的最大欧式距离）然后根据一些原则（比如最邻近的

16、最大欧式距离），将该簇分类。直到到达用户指定的簇数目或者两，将该簇分类。直到到达用户指定的簇数目或者两个簇之间的距离超过了某个阈值。个簇之间的距离超过了某个阈值。7、离群点的概念。离群点指数据中，远离数值的一般水平极端大值和极端小值。离群点指数据中，远离数值的一般水平极端大值和极端小值。 8、如何识别离群点？识别离群点有哪些方法？给定一个给定一个 n 个数据点或对象的集合个数据点或对象的集合, 及预期的孤立点的数目及预期的孤立点的数目 k, 发现与剩余的数据相比是发现与剩余的数据相比是相异的相异的, 例外的例外的, 或不一致的前或不一致的前 k 个对象个对象方法方法统计学方法统计学方法基于距离的方法基于距离的方法基于密度的方法基于密度的方法

展开阅读全文

数据仓库与数据挖掘学习要点 及答案

最新文档

数据仓库与数据挖掘学习要点及答案