数据挖掘知识点－金锄头文库

资源描述

《数据挖掘知识点》由会员分享，可在线阅读，更多相关《数据挖掘知识点（9页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘知识点：1、数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识。数据库 DB 系统最主要的功能：数据存储、查询处理、事物处理。数据挖掘的主要功能：关联分析、时序模式、聚类分析、分类、偏差检测、预测数据预处理：是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数，或者是处理一些不好的数据，从而改善实例数据的质量和提高数据挖掘的速度。数据预处理功能：数据集成，数据清理，数据变换，数据简化。2、数据挖掘的基本算法：1、分类：分类的目的是构造一个分类函数或分类模型（分类器），该模型能把数据库中的数据项映射到某一个给定类别。分类定义：给

2、定数据库 Dt1,t2,tn ，元组 ti D，类的集合C C1,Cm ，分类问题定义为从数据库到类集合的映射 f：D C，即数据库中的元组 ti 分配到某个类 Cj 中，有 Cj ti|f(ti) = Cj，1i n，且tiD 。ID3 算法：ID3 算法是国际上最具影响和最早的决策树算法。首先通过检验数据库中的所有字段，找出具有最大信息增益 Gian（A) 的字段作为决策树碑的一个结点，再根据字段的不同取值建立树的分支，对每个子集分支重复建立下层结点和分支，直到某一子集的结果属于同一类。信息量计算公式：I(s1,s2,sm)=Pi log2(pi) （i=1, ,m）（S 是 s 个数据样

3、本的集合。类别属性具有 m 个不同值 Ci。si 是类 Ci 中的样本数。 pi 是任意样本属于类别 Ci 的概率，并用 si/s 估计。）由非类别属性 A 划分为子集的熵(也叫做信息熵)计算公式为：E(A)= (s1j+ +smj)/s * I(s1j，，smj) （非类别属性 A 具有 v 个不同值a1，a2 ，av 。利用属性 A 将集合 S 划分为 v 个子集S1 ，S2 ，，Sv ；其中 Sj 包含 S 集合中在属性 A 上具有值 aj的数据样本。Sij 是子集 Sj 中类 Ci 的样本数(Sij 是子集 Sj 中类 Ci 的样本数)。）信息增益：Gain(A)= I(s1,

4、s2,sm) E(A)例题：Dayoutlook TemperatureHumidity Wind Play ball1 晴 Hot High Weak No2 晴 Hot High StrongNo3 多云 Hot High Weak Yes4 有雨 mild High Weak Yes5 有雨 Cool Normal Weak Yes6 有雨 Cool Normal StrongNo7 多云 Cool Normal StrongYes8 晴 mild High Weak No9 晴 Cool Normal Weak Yes10 有雨 mild Normal Weak Yes11 晴 mil

5、d Normal StrongYes12 多云 mild High StrongYes13 多云 hot Normal Weak Yes14 有雨 mild High StrongNo类 C1 运动“适合” ，类 C2 对运动“不适合”I(s1, s2) = I(9, 5) =0.940计算属性天气的熵:： 971.0)2,3(145),4(,)(IIE天气贝叶斯分类方法:贝叶斯分类方法是一种基于统计的学习方法，利用概率统计进行学习分类，如预测一个数据对象属于某个类别的概率。贝叶斯定理：主要算法：朴素贝叶斯分类、贝叶斯信念网络分类算法等。朴素贝叶斯分类:朴素贝叶斯分类算法利用贝叶斯定理来预测

6、一个未知类别的样本属于各个类别的可能性，选择可能性最大的一个类别作为该样本的最终类别。原理：（1）设样本有 n 个属性(A1,A2,.,An) ，每个样本可看作是 n 维空间的一个点X=(x1,x2,.,xn)。（2）假定有 m 个不同的类别，C1,C2,.Cm。X 是一个未知类别的样本。预测X 的类别为后验概率最大的那个类别，即算法将未知类别的样本 X 归到类 Ci，当且仅当P(Ci|X) P(Cj|X),对于所有的 j 成立（1jm，ji）即 P(Ci|X)最大。（3）根据贝叶斯定理得知P(Ci|X)=P(X|Ci)P(Ci)/P(X)。P(X)对于所有类为常数，因此只需 P(X|Ci)P

7、(Ci)取最大即可 )()(|()|( XPHXHP246.0)(s,1)(天气天气 EIGain天气 C1 C2I(pi, ni)晴朗 230.971多云 400有雨 320.971 048.)(1529风况湿度温度ai类的先验概率 P(Ci)由 P(Ci)=si/s 估算Si 训练样本中属于类 Ci 的样本数，s 全部训练样本的样本数。（4）给定具有多属性的数据集，计算 P(x|Ci)的开销可能非常大，为降低计算P(x|Ci)的开销，朴素贝叶斯做了类条件独立假设，即假定一个属性值对给定类的影响独立于其他属性值，属性之间不存在依赖关系，则：P(X|Ci)P(x1|Ci)P(

9、计算概率值 Q = P(X|Cj)* P(Cj);(5) end for(6) 选择计算概率值 Q 最大的 Ci (1=i=m)作为类别输出。例题：Dayoutlook TemperatureHumidity Wind Play ball1 晴 Hot High Weak No2 晴 Hot High StrongNo3 多云 Hot High Weak Yes4 有雨 mild High Weak Yes5 有雨 Cool Normal Weak Yes6 有雨 Cool Normal StrongNo7 多云 Cool Normal StrongYes8 晴 mild High Weak

10、No9 晴 Cool Normal Weak Yes10 有雨 mild Normal Weak Yes11 晴 mild Normal StrongYes12 多云 mild High StrongYes13 多云 hot Normal Weak Yes14 有雨 mild High StrongNo使用朴素贝叶斯算法预测未知样本：x=rainy，hot ，normal，weak ，？属性 play 为 yes 还是 no 的概率。1、 P（play=yes | x）=P（ x | play=yes）* P（play=yes）=P（ x1| play=yes）* P（x2|play=yes）

13、 Laplace )：朴素贝叶斯分类算法在计算概率的时候存在概率=0，及概率值可能很小的情况，所以，在某些情况下，需要考虑条件概率的 Laplace估计和解决小概率相乘溢出问题。条件概率=0 ，用条件概率的 Laplace 估计。Laplace 估计定义：P(Xi|Yj)=(nc+l*p)/(n+l)N 是类 Yj 中的实例总数，nc 是类 Yj 的训练样例中取值为 Xi 的样例数，l p例题：序号是否有房婚姻状况年收入拖欠贷款1 Yes Single 125K No2 No Married 100K No3 No Single 70K No4 Yes Married 120K No5

14、 No Divorced 95K Yes6 No Married 60K No7 Yes Divorced 220K No8 No Single 85K Yes9 No Married 75K No10 No Single 90K Yes当条件概率为 0 时，用 Laplace 估计求 X=（yes，single，80k,? ）拖欠贷款的属性为 yes 还是 no 的概率。设是否有房为 x1，婚姻状况为 x2,年收入为 x3. 1)P(拖欠贷款=yes | x)=P （ x | 拖欠贷款=yes） P （拖欠贷款=yes）=P（ x1|拖欠贷款=yes） P（x 2|拖欠贷款=yes）P(x

16、00k+70k+120k+60k+220k+75k）=110k2、聚类a）聚类（Clustering ）是一个将数据集划分为若干组（class）或类（cluster）的过程，并使得同一个组内的数据对象具有较高的相似度；而不同组中的数据对象是不相似的。b）有关的聚类方法（类型）主要有：划分类方法、分层类方法、基于密度类方法、基于网格类方法和基于模型类方法。c）聚类和分类的相同点和不同点分析：一是按照定义区分；二是聚类不依赖于预先定义好的类，它要划分的是未知的；是无指导学习，聚类是观察式学习，而不是示例式学习。（聚类又称分段，是一种对具有共同趋势和模式的数据元组进行分组的方法。） d）无论如何最大程度的实现类中对象相似度最大，类间相似度最小是聚类分析的指导思想。e）数据挖掘对聚类

展开阅读全文