数据挖掘-概念与技术(第三版)部分习题答案

资源描述

《数据挖掘-概念与技术(第三版)部分习题答案》由会员分享，可在线阅读，更多相关《数据挖掘-概念与技术(第三版)部分习题答案（19页珍藏版）》请在金锄头文库上搜索。

1、1.41.4 数据仓库和数据库有何不同？有哪些相似之处？数据仓库和数据库有何不同？有哪些相似之处？答答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER 数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。1.31.3 定义以下数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟定义以下数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据

2、挖掘功能的例子。悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的电脑科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Gradepoint aversge)的信息，还有所修的课程的最大数量。􀁺区分区分是将目标类数据对象的一般特性与一个或多个比照类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级电脑科学专业的学生，而具

3、有低GPA的学生的65%不是。􀁺 关联关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) owns(X,“personal computer”)support=12%, confidence=98% 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12%支持度主修电脑科学并且拥有一台个人电脑。这个组一个学生拥有一台个人电脑的概率是98%置信度，或确定度。􀁺分类与预测分类与预测不同，因为前者的作用是构造一系列能描述和区分

4、数据类型或概念的模型或功能，而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。􀁺聚类分析聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。􀁺数据演变分析数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类

5、、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析2.32.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 200+450+300=95015971. 所以，买 hot dogs 不是独立于买 humburgers 。两者存在正相关关系简述决策

6、树分类的主要步骤。给定一个具有50个属性每个属性包含100个不同值的 5GB的数据集，而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地电脑主存的使用说明你的答案是正确的。这个问题我们将使用雨林算法。假设有C 类标签。最需要的内存将是avc-set为根的树。计算avc-set的根节点，我们扫描一次数据库，构建avc-list每50个属性。每一个avc-list的尺寸是100C，avc-set的总大小是100C50，对于合理的C将很容易适应512 MB内存，计算其他avc-sets也是使用类似的方法，但他们将较小，因为很少属性可用。在并行计算时

7、，我们可以通过计算avc-set节点来减少同一水平上的扫描次数，使用这种每节点小avc-sets的方法，我们或许可以适应内存的水平。下表由雇员数据库的训练数据组成。数据已泛化。例如：age“31.35”表示年龄在31-35之间。对于给定的行， count表示department,status,age 和 salary在该行具有给定值的元组数。设 status 是类标号属性。a如何修改基本决策树算法，以便考虑每个广义数据元组即每一行的count?(b)使用修改的算法，构造给定数据的决策树。 (c)给定一个数据元组，它在属性department,age和salary的值分别为 “systems”, “26.30”,和 “46K.50K” 。该元组status的朴素贝叶斯分类是什么？支持向量机 SVM是一种具有高准确率的分类方法。然而，在使用大型数据元组集进行训练时，SVM的处理速度很慢。讨论如何克服这一困难，并为大型数据集有效的SVM算法。

展开阅读全文

数据挖掘-概念与技术(第三版)部分习题答案

最新文档