数据挖掘模型介绍－金锄头文库

资源描述

《数据挖掘模型介绍》由会员分享，可在线阅读，更多相关《数据挖掘模型介绍（78页珍藏版）》请在金锄头文库上搜索。

1、刘海飞,数据挖掘模型,2,数据挖掘概念与流程数据挖掘模型介绍决策树模型聚类模型关联模型回归模型时间序列模型主成分与因子模型神经网络模型,目录,数据挖掘(Data Mining)是通过分析每个数据，从大量数据中寻找其规律的技术。 3个步骤：数据准备、规律寻找和规律表示。挖掘任务：关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论（Http:/www.crisp-dm.org） CRISP-DM（Cross-Industry Standard Process for Data

2、 Mining，跨行业数据挖掘标准流程）注重数据挖掘技术的应用。CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准，将典型的挖掘和模型的部署紧密结合。,3,数据挖掘-CRISP-DM模型,4,数据挖掘-CRISP-DM模型,CRISP-DM模型过程的挖掘流程包括：业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。,CRISP-DM数据挖掘流程,数据挖掘(Data Mining)技术主要无监督和有监督两大类。无监督数据挖掘：不区别对待各个变量，而只是考察变量间的关系。有监督数据挖掘：从数据中获得深度细致的信息，根据一些

3、变量建立模型，来预测另一些变量。有监督数据挖掘方法：聚类分析、因子分析、主成分分析、神经网络、预测等；无监督数据挖掘方法：关联规则挖掘、时序挖掘、偏差分析等。,5,数据挖掘技术,6,找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有决策树算法、贝叶斯分类和支持向量机算法（Support Vector Machine）等等。,分类算法,决策树分类模型的工作过程图,Building Tree,基本思想：提取分类规则，

4、进行分类预测,决策树进行分类步骤,决策树生成算法分成两个步骤树的生成开始，数据都在根节点递归的进行数据分片树的修剪去掉一些可能是噪音或者异常的数据决策树使用: 对未知数据进行分割按照决策树上采用的分割属性逐层往下，直到一个叶子节点,决策树算法,基本算法（贪心算法）自上而下分而治之的方法开始时，所有的数据都在根节点属性都是种类字段 (如果是连续的，将其离散化) 所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain：信息增益) 停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行

5、分割,伪代码(Building Tree),Procedure BuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q While Q is not Empty do 取出队列Q中的第一个节点N if N 不纯 (Pure) for 每一个属性 A 估计该节点在A上的信息增益选出最佳的属性，将N分裂为N1、N2 ,信息增益度度量,任意样本分类的期望信息： I(s1,s2,sm)=Pi log2(pi) (i=1.m) 其中，数据集为S，m为S的分类数目， Pi Ci为某分类标号，Pi为任意样本属于Ci的概率， si为分类Ci上的样本数由A划分为子集的熵： E(A)= (

6、s1j+ +smj)/s * I(s1j+ +smj) A为属性，具有V个不同的取值信息增益：Gain(A)= I(s1,s2,sm) E(A),训练集(举例),使用信息增益进行属性选择,Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age:,Hence Similarly,使用信息增益进行属性选择,使用信息增益进行属性选择,使用信息增益进行属性选择,使用信息增益进行属性选择,使用信息增益进行属性选择,Decision

7、Tree (结果输出),age?,overcast,student?,credit rating?,no,yes,fair,excellent,=30,40,no,no,yes,yes,yes,30.40,20,1决策树,优点： 1)可以生成可以理解的规则； 2)计算量相对来说不是很大； 3) 可以处理连续和种类字段、对数据没有特殊要求； 4) 决策树可以清晰的显示哪些字段比较重要。缺点： 1) 对连续性的字段比较难预测； 2) 对有时间顺序的数据，需要很多预处理的工作； 3) 当类别太多时，错误可能就会增加的比较快； 4) 一般的算法分类的时候，只是根据一个字段来分类。,21,1决策树,决

8、策树法属于风险型决策方法，不同于确定型决策方法，二者适用的条件也不同。应用决策树决策方法必须具备以下条件：（1）具有决策者期望达到的明确目标；（2）存在决策者可以选择的两个以上的可行备选方案；（3）存在着决策者无法控制的两种以上的自然状态；（4）不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出来；（5）决策者能估计出不同的自然状态发生概率。,22,1决策树案例,一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是，在这些申请贷款的客户中，大约有20%的人拖欠贷款。通过使用地理、人口和金融变量，该公司希望为该项目建立预测模型判断客户

9、是否拖欠贷款。,23,1决策树案例,SAMPSIO.HMEQ数据集中的变量，分析数据之后，该公司选择了12个预测变量来建立模型判断贷款申请人是否拖欠。回应变量（目标变量）标识房屋净值贷款申请人是否会拖欠贷款。变量，以及它们的模型角色、度量水平、描述，在下表中已经显示。SAMPSIO.HMEQ数据集中的变量，,24,1决策树案例,聚类分析无处不在,挖掘有价值的客户，并制定相应的促销策略：如，对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告，比在大街上乱发传单命中率更高，成本更低！,2聚类分析,聚类分析无处不在,谁是银行信用卡的黄金客户？利用储蓄额、刷卡消费金额、诚信

10、度等变量对客户分类，找出“黄金客户”！这样银行可以制定更吸引的服务，留住客户！比如：一定额度和期限的免息透资服务！百盛的贵宾打折卡！在他或她生日的时候送上一个小蛋糕！,2聚类分析,27,2聚类分析,聚类就是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的算法、基于密度算法和基于网格的算法等等。聚类对数据没有特殊要求：离散的、连续的数值型、字符型不指定类别数：针对小样本制定类别数：针对大样本要注意变量之间的相关性（相对独立）

11、,数据矩阵：用m个变量（也称为属性）来表现n个对象相异度矩阵：存储n个对象两两之间的近似度，通常用一个维的矩阵表示,聚类分析原理介绍,相似性Similar的度量（统计学角度）距离Q型聚类（主要讨论）主要用于对样本分类常用的距离有（只适用于具有间隔尺度变量的聚类）：明考夫斯基距离（包括：绝对距离、欧式距离、切比雪夫距离）兰氏距离马氏距离斜交空间距离相似系数R型聚类用于对变量分类，可以用变量之间的相似系数的变形如1rij定义距离,聚类分析条件,相似性Similar的度量（统计学角度） Q型聚类主要用于对样本分类常用的距离有（只适用于具有间隔尺度变量的聚类）：明考夫斯基距离

12、（包括：绝对距离、欧式距离、切比雪夫距离）兰氏距离马氏距离斜交空间距离 R型聚类用于对变量分类，可以用变量之间的相似系数的变形如1rij定义距离,30,客户关系管理是一个以客户为中心保持企业与客户互动的过程。销售客户是哪些客户层、哪些客户需要这样的产品、是否考虑客户生命周期、是否建立以客户为导向的客户关系、谁是公司最有价值的客户等等。要回答以上问题，综合各种数据，从不同角度对客户进行分群、分组划分。从与公司有较大业务联系的客户交易额出发：,2聚类分析举例说明,说明：与本公司交易额 2003年为X1, 2004年为X2, 2005年为X3，预计将来交易额为X4,31,利用proc fas

13、tclus语句来实现，程序如下：,2聚类分析举例说明,DATA glgz; input company $ X1 X2 X3 X4; CARDS; 1 18.2750.489.9978.74 222.2260.7711.7094.70 317.1645.0910.3272.56 417.3848.458.9574.78 520.4156.8611.4088.67 615.8041.3410.1867.32 718.6552.809.4480.89 820.8459.9911.6192.44 916.1749.188.2773.62 1015.4742.569.1767.20 1116.4150

14、.339.2275.96 1217.6841.518.8768.06 1317.8652.0210.1079.98 1412.0626.668.0046.72 1521.9361.0411.8194.78 1614.3139.548.3962.24 1716.3336.947.4060.67 1819.7552.169.0280.93 1912.8034.929.2456.96 2022.5159.3110.6592.47 ; RUN;,PROC FASTCLUS maxclusters=3 data=glgz list outtree=out1; var X1 X2 X3 X4; ID co

15、mpany; RUN;,2聚类分析举例说明,程序运行结果：,第一类：价值最高的客户2家：公司14、19 第二类：价值较高的客户有8家：公司2、5、7、8、13、15、18、20 第三类：价值偏低的客户有10家,33,关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。,3.关联规则,关联规则的挖掘就是在事务数据库D中找出具有用户给定

16、的最小支持度minsup和最小置信度minconf的关联规则。最小支持度minsup ：用户规定的关联规则必须满足的最小支持度，它表示了一组物品集在统计意义上的需满足的最低程度。最小置信度minconf ：用户规定的关联规则必须满足的最小置信度，它反应了关联规则的最低可靠度。,34,3.关联规则,满足的条件： 1、基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型例：性别=“女”=职业=“秘书”、性别=“女”=avg（收入）=2300 2、基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则例：IBM台式机=Sony打印机、台式机=Sony打印机 3、基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的例：啤酒=尿布、性别=“女”=职业=“秘书”,35,3.关联规则,36,3.关联规则,37,3.关联规则,38,3.关联规则,39,3.关联规则,40,3.关联规则,41,3.关联规则,42,3.关联规则,43,假设I是项的集合。给定一个交易数据

展开阅读全文