数据挖掘复习大纲(整理)

资源描述

《数据挖掘复习大纲(整理)》由会员分享，可在线阅读，更多相关《数据挖掘复习大纲(整理)（7页珍藏版）》请在金锄头文库上搜索。

1、一、填空题（每空 1分，共 10分）二、单项选择题（每题 2 分，共 10 分）三、简答题（3 道题，共 28 分）。四、计算题（40 分）五综合分析题(共 12 分)考试时间: 2014 年 6 月 24 日 (第 18 周星期 2 )考试地点：教 212第一章1数据挖掘的过程（P7）数据挖掘是一个过程，而非一个单纯的数据建模。数据挖掘是一个以数据为中心的循序渐进的螺旋式数据探索过程，它涉及业务理解、数据理解、数据准备、建立模型、方案评估和方案实施等多个阶段。2数据挖掘能做什么（P8）数据挖掘通常可以完成数据总结、分类、关联、聚类等若干主要任务。3数据挖掘的知识形式（P9）数据挖掘通过

2、各种分析方法最终得到的知识，通常的表现形式包括浓缩数据、树形图、推理规则以及数学模型等。第二章1从数据挖掘角度看，变量类型分为哪几类？（P30）从计量层次方面归纳，变量通常包括以下类型，即数据型变量、定类型变量和定序型变量，后两个类型也统称为分类型变量。Clementine 将变量类型进一步细分为：连续数值型，如年龄。离散数值型，如家庭人口数。二分类型，如性别。多分类型，如职业。定序型，如学历和收入水平。缺省型：缺省型是一种尚未明确的变量类型。2什么是实验因素、水平与实验指标？（P40）实验设计中，将实验设计者希望考察的实验条件称为实验因素，实验因素的具体取值为水平。将衡量实验结果好坏程度的指

3、标称为实验指标。第三章、第四章每个节点的功能（P47 ）Type ：变量说明，对读入数据流中变量取值的有效性进行限定、检查和修正。（P52 ）Filler：对变量值的重新计算。（P57 ）Reclassify ：对分类型变量的取值进行调整。（P59 ）Derive:生成新变量。（P62 ）Binning：对数值进行离散化处理，采用变量值分组方法。（P69 ）Partition：生成样本集分割变量。（将所得到的样本数据按一定比例随机分割为两个或三个子样本集。）（P73 ）Sort：样本排序。（P74 ）Select ：实现样本筛选。（P75 ）Sample：样本的随机抽样。（P76 ）Dis

4、tinct：样本浓缩处理。（P77 ）Aggregate:实现分类汇总。（P79 ）Balance：样本平衡处理。（P80 ）Transpose ：样本数据转置。（81）Restructure：数据的重新组织。第五章1什么是独立样本？什么是配对样本？（P107、111）所谓独立样本是指，从一总体中抽取一组样本对从另一总体中抽取一组样本没有任何影响，两组样本的样本量可以不相等。所谓配对样本可以是个案“前” “后”两种状态下某属性的两种不同特征值，也可以是某事物两个不同侧面或方面的描述。2数据质量的探索需要做些什么？（P84-88）数据质量的探索主要包括数据缺失问题、数据离群点和极端值两大方面，具

5、体包括数据中有效样本比例的计算、变量中用户缺失值和空白比例的计算和处理、数据中离群点的诊断和处理等。第六章1决策树的两个核心问题（P121）决策树主要围绕两大核心问题展开：第一，决策树的生长问题，即利用训练样本集完成决策树的建立过程；第二，决策树的剪枝问题，即利用检验样本集对形成的决策树进行精简。2决策树的生长过程（P122）决策树的生长过程本质是对训练样本的反复分组过程。决策树上的各个分枝是在数据不断分组的过程中逐渐生长出来的。当对某组数据的继续分组不再有意义时，决策树对应的分枝便不再生长；当所有数据组的继续分组均不再有意义时，决策树的生长过程宣告结束。此时，一棵完整的决策树便形成了。因此，

6、决策树生长的核心算法是确定数据分组标准，即决策树的分枝准则。3决策树修剪技术的分类（P123）常用的决策树修剪技术有预修剪和后修剪。预修剪技术主要用来限制决策树的充分生长，后修剪技术则是待决策树充分生长完毕后再进行剪枝。4使用信息增益以及信息增益率，确定最佳分组变量（P125-130 ）5决策树如何进行修剪（P130-131）6使用 PRISM 算法如何进行推理（P133)第 9 章1事务和项集的概念(P243)简单关联规则的分析对象是事务。事务可以理解为一种商业行业，含义极为宽泛。例如，超市顾客的购买行为是一种事务；网页用户的页面浏览行为是一种事务；一份保险公司的人寿保单也是一种事务。事务（

7、T）通常由事务标识（TID）和项目集合，简称项集X 组成。min)(STA2关联规则的置信度与支持度（P245）规则置信度：是对简单关联规则准确度的测量，描述了包含项目 X 的事务中同时也包含项目 Y项的概率，反映 X 出现条件下 Y 出现的可能性规则支持度：测试了简单关联规则的普遍性，表示项目 X 和项目Y 同时出现的概率。3频繁项集的概念（P249）频繁项集：指包含项目 A 的项集 C,如果其支持度大于等于用户指定的最小支持度，则 C(A)为频繁项集。4如何使用 Apriori 算法找出各频繁项集，以及从频繁项)(XTYCYX )(XTYCYXYX集中找出满足要求的关联规则（P250）第 10 章1 Clementine 的 K-Means 算法如何确定“亲疏程度”？（P271）通常， “亲疏程度”的测度一般有两个角度，第一，数据间的相似程度；第二，数据间的差异程度。衡量相似程度一般可采用简单相关系数或等级相关系数等，差异程度则一般通过某种距离来测度。K-Means 聚类方法采用第二个测度角度。2 K-Means 算法的具体过程（ P272）1、指定聚类数目 K。2、确定 K 个初始类中心。3、根据最近原则进行聚类。4、重新确定 K 个类中心。5、判断是否已经满足终止聚类的条件，如果没有满足则返回第三步，不断反复上述过程，直到满足迭代终止条件。

展开阅读全文