数据挖掘考试概念.doc

资源描述

《数据挖掘考试概念.doc》由会员分享，可在线阅读，更多相关《数据挖掘考试概念.doc（6页珍藏版）》请在金锄头文库上搜索。

1、1.当前数据挖掘研究的主要方向n 数据挖掘研究的发展方向n 新的应用领域新的工作形式新的数据类型数据挖掘的进一步深入2.数据挖掘的技术定义定义：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的，人们事先不知道的、但又是潜在有用的信息和知识的过程. 3.为什么要挖掘数据? 商业观点n 大量的数据被收集，贮入仓库n 计算机已经变的越来越便宜，功能越来越强大n 企业竞争压力大为什么挖掘数据? 科学的观点n 数据的收集和存储正以高速进行传统的技术方法对原始数据已不可实行4.知识发现过程、数据准备n 、数据挖掘阶段n 、结果解释和评价5.数据挖掘的

2、地位n KDD(knowledge discovery in data)是一种知识发现的一连串程序，数据挖掘只是KDD的一个重要程序.n 数据挖掘的质量取决于两方面的影响：一、所采用的数据挖掘技术的有效性；二、用于挖掘的数据的质量数量（数据量的大小）6、.数据挖掘的对象关系数据库数据仓库事务数据库高级数据库系统7、数据仓储应该具有这些数据：整合性数据（integrated data）、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓储挖掘出对决策有用的信息与知识，是建立数据仓储与使用Data Mining的最大目的8、Data

3、 Mining常能挖掘出超越归纳范围的关系，但OLAP仅能利用人工查询及可视化的报表来确认某些关系，.主要差异在于Data Mining用在产生假设，OLAP则用于查证假设9、数据挖掘主要有两大类主要任务：分类预测型任务和描述型任务10、数据挖掘的任务分类预测性的聚类描述性的关联规则发现描述性的序列模式发现描述性的预测回归预测性的异常发现预测型的11、聚类方法主要包括划分聚类、层次聚类、基于密度的聚类和kohonen聚类等；进行划分聚类，一般用距离来度量对象之间的相似性，典型的是欧氏距离；距离越大，则相似性越小，反之亦然；12、.序列模式发现目的：找出规则来预测在不同时间点上很

4、强的序列依赖性.异常检测n 从正常的行为中检测有意义的异常n 应用: 信用卡欺诈检测网络侵扰检测数据挖掘采用了分类和归纳这些典型的统计方法，它仍然有自己显著的特点：一、模型的复杂性二、问题大型性. 三、变量的离散性13.统计学是一门收集、组织数据并从这些数据集中得出结论的科学算术平均数.集中趋势的测度值之一最常用的测度值 .一组数据的均衡点所在.易受极端值的影响用于数值型数据表示一组已按升序排列的容量为n的数据集，那么中位数可以表示如下：14、中位数1. 集中趋势的测度值之一2. 排序后处于中间位置上的值不受极端值的影响n 主要用于定序数据，也可用数值型数据n 各变量值与中位数的离

5、差绝对值之和最小15、定义：众数是指社会现象总体中最普遍出现的标志值。n 出现次数最多的标志值就是众数16、定序数据是表示有相对重要性的类别的数值数据，可用于给强度、重要性分等级.例如，用1-5表示用户对某产品的质量评价，分别表示很差、较差、中等、较好、很好. 贝叶斯定理提供了一种由概率、和来计算后验概率的方法，其基本关系是：v 聚类:是一个数据集将数据集划分为若干组（class）或类（cluster）的过程，并使得同一个组内的数据对象具有较高的相似度；而不同组中的数据对象是不相似的。v 聚类分析将一组（set）物理的或抽象的对象，根据它们之间的相似程度，分为若干组（group）；v

6、聚类是一种无监督的分类方法：不能事先定义类v 典型的应用作为一个调度的工具获得数据分布作为其他算法的一个组成部分样本数据与小类、小类与小类之间的度量1 、最短距离法T为一给定的阈值，如果对任意的，有 ( 为的距离)，则称G为一个类。v 两个类之间的距离是从两个类中抽取的每对样本（一个取自第一个类，另一个取自第二个类）的距离中的最小值。最长距离法：两个类之间的距离是从两个类中抽取的每对样本（一个取自第一个类，另一个取自第二个类）的距离中的最大值什么是好的聚类方法?v 一个好的聚类方法可以产生高质量的聚类：类的内部具有较高的相似度类间具有较低的相似度v 聚类结果的质量依赖于相似度评

7、价方法以及它们的应用；v 聚类结果的质量也取决于它发现隐藏模式的能力。.K-均值聚类v K-均值聚类方法是最简单、最常用的使用使用准则的方法。v K-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k为参数，把n个对象分为k 个类，以使类内具有较高的相似度，而类间的相似度较低。相似度的计算根据一个类中对象的平均值(被看作类的重心)来进行。v K-均值聚类的处理流程如下。首先，随机选择k个对象，每个对象都初始地代表一个类的平均值或中心。对剩余的对象，根据其与各自类中心的距离，将它赋给最近的类。然后重新计算每个类的平均值。这个过程不断重复，直到准则函数收敛。v 注意：类均值的初始值

8、是任意分配的，可以随机分配也可以直接使用前K个成员的属性值。K-均值法要求定义的类均值存在，并且要以期望的类的数目k作为输入。要求用户必须事先给出k（要生成的类的数目）可以算是该方法的一个缺点。而且，它对于“噪声”和孤立点数据是敏感的，少量的该类数据能够对平均值产生极大的影响。增量聚类v 1、对样本排序后，把第一个数据项分配到第一个类里。v 2、考虑下一个数据项，把它分配到目前某个类中或一个新类中。给分配是基于一些准则的，例如新数据项到目前类的重心的距离。在这种情况下，每次添加一个新数据项到一个目前的类中时，需要重新计算重心的值。v 3、重复步骤2，直到所有的数据样本都被聚类完毕。v 缺点：

9、依赖数据项的顺序。增量聚类对样本的顺序非常敏感。对于不同的顺序，该方法会生成完全不同的类。定义给定一个数据库D=t1,t2,tn,其中ti=,数据库模式包含下列属性A1，A2，,An。同时给定类别集合C=C1,Cm。对于数据库D，决策树或者分类树是指具有下列性质的树：1、每个内部结点都被标记一个属性Ai。2、每个弧都被标记一个谓词，这个谓词可应用于相应父结点的属性。3、每个叶结点都被标记一个类Cj。n 利用决策树求解分类问题包括两个步骤：n 1、决策树归纳,利用训练数据构建一棵决策树。n 2、对每个元组tiD，应用决策树确定元组的类别。Gain(S, A)是指已知属性A的值后导致熵的减少

10、。Gain(S, A)越大，说明选择测试属性A对分类提供的信息越多。通过分裂，我们希望得到尽可能纯的节点，这相当于降低了系统的熵。决策树的特点是非常直观，易于理解，符合人们的决策思维。此外，决策树也很容易转化为规则的形式1、你被搁浅在一个荒岛上，岛上到处都长满了蘑菇，但是找不到其他食物。有些蘑菇已被确定是有毒的，而其他无毒（通过先前同班的试验和错误而确定）。你是唯一留在荒岛上的人。你有如下数据：实例厚实否有味否有斑点否光滑否有毒否A0000 0B0010 0C1101 0D1001 1E0110 1F0011 1G0001 1H1100 1U1111 ?V0101 ?W1100 ?n 你知道

11、蘑菇AH是否有毒，但不知道UW是否有毒。对于前两个问题，只考虑AH。1）“有毒否”的熵是多少？2）你应当选择哪个属性作为决策树根节点？3）使用ID3算法构造一棵决策树，并预测案例U、V和W2、假定你是学院篮球队队长，根据下表给出记录，设计一种赢得下场比赛的策略。地点时间Sachin首发Girish进攻Girish防御对手中锋结果学院7pm 是中锋前锋高赢学院7pm 是前锋中锋矮赢大学7pm 是前锋前锋高赢大学9cm 是前锋前锋矮输学院7pm 是中锋中锋高赢大学7pm 是中锋中锋矮赢大学9pm 是中锋前锋矮输学院7pm 是中锋中锋矮赢学院7pm 是中锋前锋矮赢学院7pm 是中锋前锋高赢

展开阅读全文