管理统计学课件：第9章01聚类分析

资源描述

《管理统计学课件：第9章01聚类分析》由会员分享，可在线阅读，更多相关《管理统计学课件：第9章01聚类分析（80页珍藏版）》请在金锄头文库上搜索。

1、上节课内容回顾12v8.1 回归分析概述v8.2 一元线性回归v8.3 多元线性回归回归分析概述v回归分析是在观测数据的基础上，以一种确定的函数关系去近似替代比较模糊笼统的相关关系。3一元线性回归4v一元线性回归方程（y的期望值是x的线性函数）：y=a+bx8.2.3 回归方程的检验v需要对样本回归方程进行各种检验（即使一些杂乱无章的散点也可以配出一条直线）v回归分析中的显著性检验包含三个方面对回归直线的拟合优度检验判定系数R2和相关系数对整个方程线性关系的显著性检验F检验法对回归系数的显著性检验t检验法8.3.1 多元线性回归模型v多元线性回归模型：描述因变量y如何依赖于自变量方程v多元线性

2、总体回归方程：8.3.3 多元回归方程的检验v和一元回归方程一样，多元回归方程也需要对样本回归方程进行各种检验（即使一些杂乱无章的散点也可以配出多元方程）v回归分析中的显著性检验包含两个方面对回归方程的拟合优度检验；对整个方程线性关系的显著性检验F检验法对回归系数的显著性检验t检验法对多重共线性的判断。多重共线性v解决共线性的措施将一个或多个相关的自变量从模型中剔除，使保留的自变量尽可能不相关v检验共线性指标指指指指标标名称名称名称名称检验标检验标准准准准容差（容差（ToleranceTolerance）若某自若某自变变量容差小于量容差小于0.10.1，则则存在共存在共线线性性问题问题方差膨方

3、差膨胀胀率（率（VIFVIF）容差的倒数，越大共容差的倒数，越大共线线性性问题问题越越严严重重特征根（特征根（EigenvaluesEigenvalues）若多个若多个维维度的特征根等于度的特征根等于0 0，则则可能存在共可能存在共线线性性问题问题条件指数（条件指数（Condition IndexCondition Index）若某个若某个维维度的条件指数大于度的条件指数大于3030，则则可能存在共可能存在共线线性性问题问题8.3.4 变量的筛选策略v多元回归分析中，被解释变量会受众多因素的共同影响，需要由多个解释变量解释v究竟哪些自变量应该引入模型？哪些自变量不应该引入模型？对自变量进行一定

4、的筛选和控制v希望尽可能用最少的变量来建立模型v解释变量的筛选三种基本策略向前筛选向后筛选逐步筛选筛选策略（续）v向前筛选：解释变量不断进入回归方程的过程（变量逐渐增多）选择与被解释变量具有最高线性相关系数的变量进入方程，并进行回归方程的各种检验在剩余的变量中寻找与解释变量偏相关系数最高并通过检验的变量进入回归方程，并对新建立的回归方程进行各种检验一直重复这个过程，直到再也没有可进入方程的变量为止v向后筛选：变量不断剔除出回归方程的过程（变量逐渐减少）所有变量全部引入回归方程，并对回归方程进行各种检验在回归系数显著性检验不显著的一个或多个变量中，剔除回归系数检验不显著的变量，并重新建立回归方程

5、和进行各种检验直到再也没有可剔除的变量为止v逐步筛选：向前筛选和向后筛选策略的综合（变量先进入回归方程再判断筛选）在向前筛选策略的基础上，结合向后筛选策略，在每个变量进入方程后再次判断是否存在可以剔除方程的变量在引入变量的每一个阶段都提供了再剔除不显著变量的机会常用的变量筛选策略多元线性回归的SPSS操作v调查主管工作总体评价影响因素v选择了5个调查项目作为可能的解释变量变变量量量量定定定定义义Y Y对对主管工作情况的主管工作情况的总总体体评评价价X1X1处处理雇理雇员员的抱怨的抱怨X2X2不允不允许许特特权权X3X3学学习习新知新知识识的机会的机会X4X4已已经经工作工作业绩业绩升升职职X5

6、X5对对不良表不良表现现吹毛求疵吹毛求疵主管人员业绩数据SPSS操作步骤v输入数据，定义变量Y、X1、X2、X3、X4、X5选择菜单栏中的【分析】【回归】【线性】命令，弹出【线性回归】对话框。v选择解释变量Y进入“因变量”框将X1，X2和X5进入“自变量”框在“方法”下拉栏中选择“进入”选项单击“下一张”将X3和X4拉入“自变量”，“方法”选择“逐步法”。而X6直接不予考虑v在【线性回归】对话框。中单击“统计量”按钮选中“估计”和“模型拟合度”复选框选中“共线性诊断”复选框v单击OK按钮模型拟合度的检验结果表回归分析的结果表拟合结果为Y=0.696X1-0.046X2-0.033X5+18.4

7、12 Sig.取值可知，仅X1的系数是有统计学意义的，还需进行共线性检验，本模型中不存在共线性问题共线性检验结果表特征根均不等于0，则不存在共线性问题，条件指数均小于30，本例中模型不存在共线性的问题。2024/8/118聚类分析Cluster Analysis9.1 聚类分析9.1 聚类分析基本原理和方法9.2 系统聚类法9.3 K均值聚类法9.4 系统聚类的SPSS应用9.5 K均值聚类法的SPSS应用20什么是聚类分析？v聚类分析是根据“物以类聚”的道理，对样本或指标进行分类的一种多元统计分析方法。v聚类分析属于无监督的机器学习方法。聚类分析在没有标签信息的情况下，按照合理的样本属性，对

8、样本进行分类。21聚类分析的基本思想v基本思想是认为研究的样本或变量之间存在着程度不同的相似性（亲疏关系）。v根据一批样本的多个观测指标，找出一些能够度量样本或变量之间相似程度的统计量，以这些统计量作为分类的依据，把一些相似程度较大的样本（或指标）聚合为一类，把另外一些相似程度较大的样本（或指标）聚合为一类，直到把所有的样本（或指标）都聚合完毕。22聚类分析应用v对客户进行分类，然后对每一类客户进行精准促销：喜欢一大早来买酸奶和鲜肉老人老年用品，量大从优广告。购买纸尿裤的用户有小孩子推荐婴儿车。喜欢光顾军事网站，体育网站的同学比较崇尚野性推荐户外用品。v针对潜在客户的精准营销比在大街上乱发传单

9、命中率更高，成本更低！23聚类分析无处不在v信用评估？利用储蓄额、刷卡消费金额、诚信度等变量对客户分类，找出“黄金客户”！这样银行就可制定更具吸引力的服务，留住客户！比如：v一定额度和期限的免息透支服务！v赠送大型超市的贵宾打折卡！v在他或她生日的时候送上一个小蛋糕！24聚类的应用领域v经济领域：通过消费行为来刻画不同的客户群的特征（用户画像）。对住宅区进行聚类，确定自动提款机ATM的安放位置股票市场板块分析，找出最具活力的板块龙头股企业，个人信用等级分类创业公司成长性聚类v生物学领域推导植物和动物的分类；v数据挖掘领域作为其他数学算法的预处理步骤，获得数据分布状况，集中对特定的类做进一步的研

10、究。25样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种：研究样本或变量的亲疏程度的数量指标有两种：v另另一一种种叫叫距距离离，它它是是将将每每一一个个样样本本看看作作p p维维空空间间的的一一个个点点，并并用用某某种种度度量量测测量量点点与与点点之之间间的的距距离离，距距离较近的归为一类，距离较远的点应属于不同的类。离较近的归为一类，距离较远的点应属于不同的类。v一一种种叫叫相相似似系系数数，性性质质越越接接近近的的变变量量或或样样本本，它它们们的的相相似似系系数数越越接接近近于于1 1或或一一l l，而而彼彼此此无无关关的的变变量量或或样样本本它它们们的的相相似似系系数

11、数则则越越接接近近于于0 0，相相似似的的为为一一类类，不相似的为不同类。不相似的为不同类。26v设有n个样本，每个样本有p项指标（变量），原始资料矩阵为：亲疏程度的亲疏程度的测度测度距离距离27v偏差距离v欧式距离v明考斯基距离v切比雪夫距离常见的距离统计量28v1.偏差距离v2.欧氏距离x1: 0, 3, 1, 2, 0x2: 1, 3, 0, 1, 0，求两样本的偏差距离和欧式距离。29v3.明考斯基距离(Minkowski)v4.切比雪夫距离(Chebychev)x1: 0, 3, 1, 2, 0x2: 1, 3, 0, 1, 0，求两样本的切比雪夫距离。亲疏程度的测度亲疏程度的测度相

12、似系数相似系数v相似系数的计算 v（1）夹角余弦v设在n维空间的向量：定义夹角余弦为： x1: 0, 3, 1, 2, 0x2: 1, 3, 0, 1, 0，求两样本的夹角余弦。v（2）相关系数v相关系数常用rij表示，这是大家较为熟悉的统计量之一。v设和是第i和第j个样品的观测值，则二者之间的相似测度为：32聚类的类型v根据聚类对象的不同，分为Q型聚类和R型聚类。vQ型聚类：样本之间的聚类即Q型聚类分析，则常用距离来测度样本之间的亲疏程度。vR型聚类：变量之间的聚类即R型聚类分析，常用相似系数来测度变量之间的亲疏程度。33常见的聚类方法介绍v根据聚类方法的不同分为系统聚类和K均值聚类。

13、v系统聚类：又称为层次聚类（hierarchicalcluster），是指聚类过程是按照一定层次进行的。vK均值聚类（K-meansCluster）34系统聚类v基本思想：在在聚聚类类分分析析的的开开始始，每每个个样样本本（或或变变量量）自自成成一一类类；然然后后，按按照照某某种种方方法法度度量量所所有有样样本本（或或变变量量）之之间间的的亲亲疏疏程程度度，并并把把最最相相似似的的样样本本（或或变变量量）首首先先聚聚成成一一小小类类；接接下下来来，度度量量剩剩余余的的样样本本（或或变变量量）和和小小类类间间的的亲亲疏疏程程度度，并并将将当当前前最最接接近近的的样样本本（或或变变量量）与与小小类

14、类聚聚成成一一类类；再再接接下下来来，再再度度量量剩剩余余的的样样本本（或或变变量量）和和小小类类间间的的亲亲疏疏程程度度，并并将将当当前前最最接接近近的的样样本本（或或变变量量）与与小小类类聚聚成成一一类类；如如此此反反复复，直直到到所所有样本（或变量）聚成一类为止。有样本（或变量）聚成一类为止。35v系统聚类法不仅需要度量个体与个体之间的系统聚类法不仅需要度量个体与个体之间的距离，还要度量类与类之间的距离。类间距距离，还要度量类与类之间的距离。类间距离被度量出来之后，距离最小的两个小类将离被度量出来之后，距离最小的两个小类将首先被合并成为一类。首先被合并成为一类。类间距离计算方法v根据系统

15、分类法，第一步将n个样品看作n个类，然后合并距离最近的两类为一个种类。如何计算类与类的距离呢？v用D(s,t)表示类s和类t之间的距离，常用的类间距离有以下几种：37类间距离的度量方法v最短距离法(NearestNeighbor)v最长距离法(FurtherNeighbor)v组间平均连接法(Between-grouplinkage)v组内平均连接法(Within-grouplinkage)v重心法(Centroidclustering)v中位数法(Medianclustering)38最短距离法(NearestNeighbor)v以两类中距离最近的两个个体之间的距离作以两类中距离最近的两个个

16、体之间的距离作为类间距离。为类间距离。39x21x12x22x1140最长距离法(FurtherNeighbor)v以两类中距离最远的两个个体之间的距离作以两类中距离最远的两个个体之间的距离作为类间距离。为类间距离。41x11x2142组间平均连接法(Between-grouplinkage)v以以两两类类个个体体两两两两之之间间距距离离的的平平均均数数作作为为类类间间距离。距离。43组间平均连接法（Between-group Linkage)44组内平均连接法(Within-grouplinkage)v将将两两类类个个体体合合并并为为一一类类后后，以以合合并并后后类类中中所所有个体之间的平均

17、距离作为类间距离。有个体之间的平均距离作为类间距离。45组内平均连接法（Within-groupLinkage)x21x12x22x1146重心法(Centroidclustering)v以以两两类类变变量量均均值值（重重心心）之之间间的的距距离离作作为为类类间距离。间距离。47重心距离：均值点的距离48中位数法(Medianclustering)v以两类变量中位数之间的距离作为类间距离。以两类变量中位数之间的距离作为类间距离。系统聚类法实例：v给出6个五维模式样本，按最小距离准则进行系统聚类分析。x1:0,3,1,2,0x2:1,3,0,1,0x3:3,3,0,0,1x4:1,1,0,2,0

18、x5:3,2,1,2,1x6:4,1,1,1,0495051525354直接聚类谱系图直接聚类谱系图最终得出聚类谱系图最终得出聚类谱系图X6X5X4X3X2X11235456k-均值聚类K-meansClustervK-均值聚类也叫快速聚类v要求事先确定分类数v运算速度快（特别是对于大样本）57k-均值聚类K-meansClusterv系统首先选择k个聚类中心，根据其他观测值与聚类中心的距离远近，将所有的观测值分成k类；再将k个类的中心（均值）作为新的聚类中心，重新按照距离进行分类；，这样一直迭代下去，直到达到指定的迭代次数或达到中止迭代的判据要求时，聚类过程结束。58聚类分析终止的条件v迭代

19、次数：当目前的迭代次数等于指定的迭代次数（SPSS默认为10）时终止迭代。v类中心点偏移程度：新确定的类中心点距上个类中心点的最大偏移量小于等于指定的量（SPSS默认为0）时终止聚类。k-均值聚类算法实例v假定我们有如下9个点vA1(2,10)A2(2,5)A3(8,4)A4(5,8)A5(7,5)A6(6,4)A7(1,2)A8(4,9)v希望分成3个聚类v初始化选择A1(2,10),A4(5,8)，A7(1,2)为聚类中心点，两点距离定义为(a,b)=|x2x1|+|y2y1|.59偏差距离偏差距离60616263图形化计算过程64第一次迭代结果65第二次迭代结果66直到两次迭代结果不发生

20、变化：最终迭代结果聚类分析的SPSS应用v系统聚类的SPSS应用vK均值聚类法的SPSS应用67系统聚类法的SPSS应用v要研究我国主要商业银行的综合竞争力，收集的数据如右表所示。这里选取了中国工商银行、中国建设银行、招商银行、民生银行。这些商业银行的综合竞争力指标主要有10个如右表表所示，请使用系统聚类分析法对其分类。6869选择主菜单中的【分析】【分类】【系统聚类】命令，弹出【系统聚类分析】对话框7071聚类分析过程表聚类分析过程表72聚类分析结果表聚类分析结果表73层次聚类冰柱图层次聚类冰柱图74层次聚类树形图层次聚类树形图K均值聚类法的SPSS应用v为了更深入了解我国环境的污染程度，现利用2009年的数据对全国31个省、直辖市进行聚类分析。分析选用了3个指标：工业废弃总排放量X1，工业废水总排放量X2,二氧化硫排放量X3.数据如右表所示：75选择主菜单中的【分析】【分类】【K均值聚类】命令，弹出【K均值聚类分析】对话框，如图所示。7677787980

展开阅读全文

管理统计学课件：第9章01聚类分析

最新文档