数据挖掘考试概念.doc

上传人:桔**** 文档编号:550870353 上传时间:2023-02-20 格式:DOC 页数:6 大小:151.01KB
返回 下载 相关 举报
数据挖掘考试概念.doc_第1页
第1页 / 共6页
数据挖掘考试概念.doc_第2页
第2页 / 共6页
数据挖掘考试概念.doc_第3页
第3页 / 共6页
数据挖掘考试概念.doc_第4页
第4页 / 共6页
数据挖掘考试概念.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《数据挖掘考试概念.doc》由会员分享,可在线阅读,更多相关《数据挖掘考试概念.doc(6页珍藏版)》请在金锄头文库上搜索。

1、1.当前数据挖掘研究的主要方向n 数据挖掘研究的发展方向n 新的应用领域 新的工作形式 新的数据类型 数据挖掘的进一步深入2.数据挖掘的技术定义定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程. 3.为什么要 挖掘 数据? 商业观点n 大量的数据被收集,贮入仓库n 计算机已经变的越来越便宜,功能越来越强大n 企业竞争压力大 为什么 挖掘数据? 科学的观点n 数据的收集和存储正以高速进行 传统的技术方法对原始数据已不可实行4.知识发现过程、数据准备n 、数据挖掘阶段n 、结果解释和评价5.数据挖掘的

2、地位n KDD(knowledge discovery in data)是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序.n 数据挖掘的质量取决于两方面的影响:一、所采用的数据挖掘技术的有效性; 二、用于挖掘的数据的质量数量(数据量的大小)6、.数据挖掘的对象关系数据库数据仓库事务数据库高级数据库系统7、数据仓储应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用Data Mining的最大目的8、Data

3、 Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,.主要差异在于Data Mining用在产生假设,OLAP则用于查证假设9、数据挖掘主要有两大类主要任务:分类预测型任务和描述型任务10、数据挖掘的任务分类 预测性的 聚类 描述性的 关联规则发现 描述性的序列模式发现描述性的 预测回归 预测性的异常发现 预测型的11、聚类方法主要包括划分聚类、层次聚类、基于密度的聚类和kohonen聚类等;进行划分聚类,一般用距离来度量对象之间的相似性,典型的是欧氏距离;距离越大,则相似性越小,反之亦然;12、.序列模式发现目的:找出规则来预测在不同时间点上很

4、强的序列依赖性.异常检测n 从正常的行为中检测有意义的异常n 应用: 信用卡欺诈检测 网络侵扰检测数据挖掘采用了分类和归纳这些典型的统计方法,它仍然有自己显著的特点:一、模型的复杂性 二、问题大型性. 三、变量的离散性13.统计学是一门收集、组织数据并从这些数据集中得出结论的科学算术平均数.集中趋势的测度值之一 最常用的测度值 .一组数据的均衡点所在.易受极端值的影响 用于数值型数据表示一组已按升序排列的容量 为n的数据集,那么中位数可以表示如下:14、中位数1. 集中趋势的测度值之一2. 排序后处于中间位置上的值 不受极端值的影响n 主要用于定序数据,也可用数值型数据n 各变量值与中位数的离

5、差绝对值之和最小15、定义:众数是指社会现象总体中最普遍出现的标志值。n 出现次数最多的标志值就是众数16、定序数据是表示有相对重要性的类别的数值数据,可用于给强度、重要性分等级.例如,用1-5表示用户对某产品的质量评价,分别表示很差、较差、中等、较好、很好. 贝叶斯定理提供了一种由概率 、和 来计算后验概率的方法,其基本关系是:v 聚类:是一个数据集 将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度; 而不同组中的数据对象是不相似的。v 聚类分析 将一组(set)物理的或抽象的对象,根据它们之间的相似程度,分为若干组(group);v

6、 聚类是一种无监督的分类方法:不能事先定义类v 典型的应用 作为一个调度的工具获得数据分布 作为其他算法的一个组成部分样本数据与小类、小类与小类之间的度量1 、最短距离法T为一给定的阈值,如果对任意的 ,有 ( 为 的距离),则称G为一个类。v 两个类之间的距离是从两个类中抽取的每对样本(一个取自第一个类,另一个取自第二个类)的距离中的最小值。最长距离法: 两个类之间的距离是从两个类中抽取的每对样本(一个取自第一个类,另一个取自第二个类)的距离中的最大值什么是好的聚类方法?v 一个好的聚类方法可以产生高质量的聚类: 类的内部具有较高的相似度 类间具有较低的相似度v 聚类结果的质量依赖于相似度评

7、价方法以及它们的应用;v 聚类结果的质量也取决于它发现隐藏模式的能力。.K-均值聚类v K-均值聚类方法是最简单、最常用的使用使用准则的方法。v K-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k为参数,把n个对象分为k 个类,以使类内具有较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象的平均值(被看作类的重心)来进行。v K-均值聚类的处理流程如下。首先,随机选择k个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛。v 注意:类均值的初始值

8、是任意分配的,可以随机分配也可以直接使用前K个成员的属性值。K-均值法要求定义的类均值存在,并且要以期望的类的数目k作为输入。 要求用户必须事先给出k(要生成的类的数目)可以算是该方法的一个缺点。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。增量聚类v 1、对样本排序后,把第一个数据项分配到第一个类里。v 2、考虑下一个数据项,把它分配到目前某个类中或一个新类中。给分配是基于一些准则的,例如新数据项到目前类的重心的距离。在这种情况下,每次添加一个新数据项到一个目前的类中时,需要重新计算重心的值。v 3、重复步骤2,直到所有的数据样本都被聚类完毕。v 缺点:

9、依赖数据项的顺序 。增量聚类对样本的顺序非常敏感。对于不同的顺序,该方法会生成完全不同的类。定义 给定一个数据库D=t1,t2,tn,其中ti=,数据库模式包含下列属性A1,A2,,An。同时给定类别集合C=C1,Cm。对于数据库D,决策树或者分类树是指具有下列性质的树:1、每个内部结点都被标记一个属性Ai。2、每个弧都被标记一个谓词,这个谓词可应用于相应父结点的属性。3、每个叶结点都被标记一个类Cj。n 利用决策树求解分类问题包括两个步骤:n 1、决策树归纳,利用训练数据构建一棵决策 树。n 2、对每个元组tiD,应用决策树确定元组的类别。Gain(S, A)是指已知属性A的值后导致熵的减少

10、。Gain(S, A)越大,说明选择测试属性A对分类提供的信息越多。通过分裂,我们希望得到尽可能纯的节点,这相当于降低了系统的熵。 决策树的特点是非常直观,易于理解,符合人们的决策思维。此外,决策树也很容易转化为规则的形式1、你被搁浅在一个荒岛上,岛上到处都长满了蘑菇,但是找不到其他食物。有些蘑菇已被确定是有毒的,而其他无毒(通过先前同班的试验和错误而确定)。你是唯一留在荒岛上的人。你有如下数据:实例厚实否有味否有斑点否光滑否有毒否A0000 0B0010 0C1101 0D1001 1E0110 1F0011 1G0001 1H1100 1U1111 ?V0101 ?W1100 ?n 你知道

11、蘑菇AH是否有毒,但不知道UW是否有毒。对于前两个问题,只考虑AH。1)“有毒否”的熵是多少?2)你应当选择哪个属性作为决策树根节点?3)使用ID3算法构造一棵决策树,并预测案例U、V和W2、假定你是学院篮球队队长,根据下表给出记录,设计一种赢得下场比赛的策略。地点时间Sachin首发Girish进攻Girish防御对手中锋 结果学院7pm 是 中锋 前锋 高 赢学院7pm 是 前锋 中锋 矮 赢大学7pm 是 前锋 前锋 高 赢大学9cm 是 前锋 前锋 矮 输学院7pm 是 中锋 中锋 高 赢 大学7pm 是 中锋 中锋 矮 赢大学9pm 是 中锋 前锋 矮 输学院7pm 是 中锋 中锋 矮 赢学院7pm 是 中锋 前锋 矮 赢学院7pm 是 中锋 前锋 高 赢

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号