数据挖掘复习要点－金锄头文库

资源描述

《数据挖掘复习要点》由会员分享，可在线阅读，更多相关《数据挖掘复习要点（4页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘1.数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识的过程。(商业定义)按企业即定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或已知的规律，并进一步将其模型化的先进的有效方法。2.数据挖掘的功能：描述和预测。描述：刻画了数据库数据的一般特性；预测：在当前数据上进行分析，以此进行推断。1) 概念描述：通过对某类对象关联数据的汇总、分析和比较，对此类对象的内涵进行描述，并概括这类对象的有关特征。2) 多层次概念描述：将低层次概念集映射到高层次概念集的方法。3) 关联分析：目的是找出

2、数据库中隐藏的关联网。4) 聚类：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的方法。5) 分类：从数据库对象中发现共性，并将数据对象分成不同类别的一个过程。6) 偏差检测：偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。7) 孤立点分析：对于数据的一般行为或模型不一致的数据进行分析。8) 自动预测趋势和行为：针对具有时序属性的数据或者是序列项目的数据。9) 时序演变分析：寻找事件或对象行为随事件变化的规律或趋势，并以此来建立模型。10) 信息摘要：一种自动编制文摘的技术，即利用计算机将一篇文章浓缩成一篇短文的过程。11) 信息抽取：根据一个事先定义好的、描述所需信息规格的

3、模板，从非结构化的文本中抽取相关信息的过程。12) 元数据挖掘，对元数据进行挖掘。3.数据挖的掘步骤：1) 确定业务对象；2) 数据准备a) 数据的选择 c) 数据的转换b) 数据的预处理3) 数据挖掘，对所得到的经过转换的数据进行挖掘。4) 结果分析，解释并评估结果；5) 知识的同化，将分析所得到的知识集成到业务信息系统的组织结构中去。4.数据挖掘的人员：1) 业务分析人员，要求精通业务，能够解释业务对象，并根据各业务对象确定用于数据定义和挖掘算法的业务需要；2) 数据分析人员，精通数据分析技术，并对统计学有较熟练的掌握，有能力把业务需求转化为数据挖掘的各步操作选择合适的技术；3) 数

4、据管理人员，精通数据管理技术，并从数据库仓库中收集数据。5.数据挖掘与传统的数据分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的，因此数据挖掘所得到的信息应具有先前未知、有效和实用性三个特征。1) 关系数据库，是信息最丰富的数据源；2) 数据仓库，是数据挖掘良好的数据源，数据挖掘为数据仓库提供了有效的分析处理手段；3) 文本数据库，所记载的内容均为文字，为非结构化；4) 复杂类型的数据库，是指非单纯文本的数据库或能够表示动态序列数据的数据库，主要分为(1)空间数据库(2)时序数据库(3)多媒体数据库。6.数据挖掘的常用方法：分类技术：决策树，是通过一系列规则对数据进行

5、分类的过程；贝叶斯分类；神经网络，基于自学习数学模型，通过数据的编码及神经元的迭代来求解，玩成复杂的模式抽取及趋势分析功能；遗传算法与进化理论，基于进化理论的机器学习方法，它采用遗传结合、遗传交叉变异以及自然选择等操作实现规则的生成；类比学习；其他。粗糙集、模糊集方法等。1)a)b)c)d)2)3)e)f)聚类分析技术：a) 基于划分的聚类方法b) 基于层次的聚类方法c) 基于密度的聚类方法概念分层技术：a) 模式分层b) 集合分组分层d)e)c)d)基于网格的聚类方法基于模型的聚类方法操作导入分层基于规则分层7. 支持度和置信度1) 支持度是事务集中同时包含X和Y的事务数与所有

6、事务数之比，反映规则的可靠程度。记为 = 丁二丁 - V2) 置信度是指同时包含X和Y的事务数与包含X的事务数之比，反映规则的把握程度。记为二:上:鼻二= Y.二 r Y.(同时满足最小支持度和置信度阈值的规则称为强规则。序列s的支持度大于或等于用户给定的最小支持度阈值，则称s是一个频繁序列。)8. 聚类分析：根据事物的某方面特征把它们划分成为若干小类，使得隶属同一类的个体具有较高的相似度或类似的性质，而不属于同一类的个体具有较低的相似度分析过程。9. 聚类分析在数据挖掘中的主要发展及研究方向：1) 海量数据中的聚类分析方法2) 高维数据的聚类分析方法3) 有更新数据的聚类分析方法4) 解

7、决对数输入顺序的敏感性5) 对异常值或噪声数据的处理6) 有限制条件的聚类分析7) 聚类分析结果的可解释性10不同类型数据的距离1) 定距数据，指其指标可以用连续的数字来表示的一类数据。a) 欧式距离：=b) 平方欧式距离:.=：-：e) 马氏距离：. = : - , - ： - ,，V 为c) 绝对值距离:=:-变量的协方差阵d)明考斯基距离:=:厂2)定序数据，表示对事务进行分类的数据，这些类型之间是有序列的。3) 定类数据，表示对事物进行分类的数据，不同的是这些不同类型之间没有顺序关系，相互之间是平行的。a)简单匹配系数b)雅克比匹配系数：.=7-4) 计数数据，表示某种状态或

8、性质出现的次数。 a) 卡方距离：b) Phi 方距离：d.nAl乩EOJ 乜E沁5) 多种数据的综合a.： V： = _J“：.、：11.层次聚类大致分为两种类型：1) 一种是自下而上的聚合型聚类，在聚类分析的开始将每一个样本点视为一类，首先将距离最近的两个个体聚为一类，然后在其余的 n-1 类中再寻找距离最近的两类，将其合并为一类，这样依次进行下去，最终所有样本点都聚为一类；2) 另一种是自上而下的拆分型聚类方式，这种方法的思想是首先将所有样本点视为一类，寻找到一种划分使得两类之间的距离尽可能远，接着在已经划分好两类的基础上再寻找某种划分将样本点分为三类，使得类与类之间的距离尽可能

9、远，这样依次进行下去，最终每个样本点自成一类。缺点：层次聚类类似一种贪心算法，当两个样本点被聚为一类后，在后边的聚类过程中它们总是在一类之中，不能够根据之后进程中的情况对前边所进行的聚类进行调整。12.基于划分的聚类1) 初始凝聚点的选择2) 初始分类3) 修改分类的方法13.决策树数据分类的过程最终分类第一步、建立一个描述已知数据集类别或概念的模型。通过对数据库中各数据进行内容的分析而获得的。第二步、利用所获得的模型进行分类操作。先对模型分类准确率进行估计，再使用模型进行预测。14. 决策树算法通过构造决策树来发现数据中蕴涵的分类规则包含许多种不同的算法，主要分为三类：1) 基于统计

10、理论的方法，以CART算法为代表，对于非终端节点来说，有两个分枝；2) 基于信息理论的方法，以 ID3 算法为代表，非终端的节点分枝由样本类别个数决定；3) 以AID，CHAID算法为代表，非终端节点的分枝数在2至样本类别个数范围内分布。15. 剪枝，一种克服噪声的技术，用于解决过匹配问题，同时它也能使树得到简化而变得更容易理解。剪枝的原则包括：奥卡姆剃刀原则“如无必要，勿增实体”决策树越小就越容易理解，其存储与传输的代价也就越小。常用的剪枝技术有：预剪枝技术，在构造决策树时，不再对不纯的训练子集进行进一步的剪枝方法。预剪枝技术限制了决策树的过度生长。后剪枝技术，在树完全生成之后的剪枝

11、策略。16.ID3 算法基本概念概念包括：1) 决策树的每个内部节点对应样本的一个非类别属性，该节点的每棵子树代表这个属性的取值范围的一个子区间(子集)。一个叶节点代表从根节点到该叶节点的路径对应的样本所属的类别。这也是决策树的定义。2) 决策树的每个内部节点都与具有最大信息量的非类别属性相关联，这决定什么是一棵好的决策树。3) 通常用“熵”来衡量一个内部节点的信息量，熵的定义使用信息论中的定义。ID3 算法的基本思想是自上而下地使用贪心算法搜索训练样本集，在每个节点处测试每一个属性，从而构建决策树。17. “神经网络”或“人工神经网络”是指用大量的简单计算单元(即神经元)构成的非线

12、性系统，它在一定程度和层次上模仿了人脑神经系统的信息处理、存储及检索功能，因而具有学习、记忆和计算等处理功能。18. 神经网络的显著特点：1) 具有非线性映射能力3) 容易实现并行计算2) 不需要精确的数学模型，擅长从输入输4) 由于神经网络由大量简单计算单元组出数据中学习有用有用知识成，因而易于软硬件实现。神经网络在人工智能和数据挖掘中有至关重要的作用，其典型应用包括：模式识别、逻辑处理、优化与控制、信号处理等。神经网络在数据挖掘上主要应用于聚类、分类和预测。19. 神经网络的学习问题就是网络的权值调整问题。神经网络的学习方法归纳：a) 死记式学习b) 有指导学习c) 无指导学习d) 自组织学习BP算法的思路20.计算题： P21 关联规则算法 P44-50 距离的算法e) 有指导与无指导的混合学习f) Boltzmann 学习g) 模糊学习 P102 增益比例 P139 BP 算法h) 加强学习 P98 ID3 算法完)

展开阅读全文