多元统计分析（第5版）PPT第4章

资源描述

《多元统计分析（第5版）PPT第4章》由会员分享，可在线阅读，更多相关《多元统计分析（第5版）PPT第4章（62页珍藏版）》请在金锄头文库上搜索。

1、2022/7/11中国人民大学六西格玛质量管理研究中心14.1 判别分析的基本思想判别分析的基本思想 4.2 距离判别距离判别4.3 Bayes判别判别 4.4 Fisher判别判别 4.5 逐步判别逐步判别 4.6 判别分析应用的几个例子判别分析应用的几个例子第第4 4章章判别分析判别分析 2022/7/11中国人民大学六西格玛质量管理研究中心2 目录上页下页返回结束第第4 4章章判别分析判别分析本章介绍的判别分析来解决被解释变量是非度量变量的情形。在这种情况下，人们对于预测和解释影响一个对象所属类别的关系感兴趣，比如为什么某人是或者不是消费者，一家公司成功还是破产等。判别

2、分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功。在每种情况下，将对象进行分组，并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。2022/7/11中国人民大学六西格玛质量管理研究中心3 目录上页下页返回结束 4.1 4.1 判别分析的基本思想判别分析的基本思想有时会遇到包含属性被解释变量和几个度量解释变量的问题，这时需要选择一种合适的分析方法。比如，我们希望区分好和差的信用风险。如果有信用风险的度量指

3、标，就可以使用多元回归。但我们可能仅能判断某人是在好的或者差的一类，这就不是多元回归分析所要求的度量类型。当被解释变量是属性变量而解释变量是度量变量时，判别分析是合适的统计分析方法。判别分析能够解决两组或者更多组的情况。当包含两组时，称作两组判别分析。当包含三组或者三组以上时，称作多组判别分析（Multiple discriminant analysis）。判别分析的假设条件判别分析最基本的要求是,分组类型在两组以上；在第一阶段工作是每组个案的规模必须至少在一个以上。解释变量必须是可测量的，才能够计算其平均值和方差，使其能合理地应用于统计函数。2022/7/11中国人民大学六西格玛质量管理研究

4、中心4 目录上页下页返回结束判别分析的假设之一，是每一个判别变量（解释变量）不能是其他判别变量的线性组合。即不存在多重共线性问题。判别分析的假设之二，是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数，它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下，可以使用很简单的公式来计算判别函数和进行显著性检验。判别分析的假设之三，是各判别变量之间具有多元正态分布，即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时，计算的概率将非常不准确。2022/7/11中国人民大学六西格玛质量管理研究中心

5、54.2 4.2 距离判别距离判别目录上页下页返回结束 4.2.1 两总体情况 2022/7/11中国人民大学六西格玛质量管理研究中心64.2 4.2 距离判别距离判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心74.2 4.2 距离判别距离判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心84.2 4.2 距离判别距离判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心94.2 4.2 距离判别距离判别目录上页下页返回结束 2022/7/11中国人民大学

6、六西格玛质量管理研究中心104.2 4.2 距离判别距离判别目录上页下页返回结束 4.2.2 多总体情况1.协差阵相同 2022/7/11中国人民大学六西格玛质量管理研究中心114.2 4.2 距离判别距离判别目录上页下页返回结束 2.协差阵不相同 2022/7/11中国人民大学六西格玛质量管理研究中心124.2 4.2 距离判别距离判别 2022/7/11中国人民大学六西格玛质量管理研究中心134.2 4.2 距离判别距离判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心144.3 Bayes4.3 Bayes判别判别目录上页

7、下页返回结束贝叶斯（Bayes）统计的思想是：假定对研究的对象已有一定的认识，常用先验概率分布来描述这种认识，然后我们取得一个样本，用样本来修正已有的认识（先验概率分布），得到后验概率分布，各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析，就得到贝叶斯判别。2022/7/11中国人民大学六西格玛质量管理研究中心154.3 Bayes4.3 Bayes判别判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心164.4 Fisher4.4 Fisher判别判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究

8、中心174.4 Fisher4.4 Fisher判别判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心184.4 Fisher4.4 Fisher判别判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心194.4 Fisher4.4 Fisher判别判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心204.4 Fisher4.4 Fisher判别判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心214.5 4.5 逐步判别逐步判别目录

9、上页下页返回结束在多元回归中熟知，变量选择的好坏直接影响回归的效果，而在判别分析中也有类似的问题。如果在某个判别问题中，将其中最主要的指标忽略了，由此建立的判别函数其效果一定不好。但是在许多问题中，事先并不十分清楚哪些指标是主要的，这时，是否将有关的指标尽量收集加入计算才好呢？理论和实践证明，指标太多了，不仅带来大量的计算，同时许多对判别无作用的指标反而会干扰了我们的视线。因此适当筛选变量的问题就成为一个很重要的事情。凡具有筛选变量能力的判别方法统称为逐步判别法。和通常的判别分析一样，逐步判别也有许多不同的原则，从而产生各种方法。有关逐步判别法的理论基础详见1所讨论指标的附加信息检验。

10、2022/7/11中国人民大学六西格玛质量管理研究中心224.5 4.5 逐步判别逐步判别目录上页下页返回结束逐步判别的原则2022/7/11中国人民大学六西格玛质量管理研究中心234.5 4.5 逐步判别逐步判别目录上页下页返回结束 2022/7/11中国人民大学六西格玛质量管理研究中心244.5 4.5 逐步判别逐步判别目录上页下页返回结束（）这时既不能选进新变量，又不能剔除已选进的变量，将已选中的变量建立判别函数。2022/7/11中国人民大学六西格玛质量管理研究中心254.6 判别分析应用的几个例子判别分析应用的几个例子目录上页下页返回结束判

11、别分析的逻辑框图如下：2022/7/11中国人民大学六西格玛质量管理研究中心26 目录上页下页返回结束图图4.1 4.1 判别分析步骤框图判别分析步骤框图下面用SPSS软件中的Discriminant模块来实现判别分析。定义新的变量y为被解释变量,用“1”代表Setosa鸢尾花,用“2”代表Versicolor鸢尾花,用“3”代表Virginica鸢尾花,将萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)四个变量作为解释变量。使用SPSS软件中的AnalyzeClassifyDiscrimin

12、ant,就进入了判别分析的对话框。分组变量(Grouping Variable)选择y,然后定义其区域,最小值是1,最大值是3。解释变量(Independents)选择sepal.length,sepal.width,petal.length和petal.width。保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法,我们还可以选择判别的方法(Method)。得到分析结果如下(见输出结果41)。输出结果41分析的是各组的描述统计量和对各组均值是否相等的检验。第1张表反映的是有效样本量及变量缺失的情况。第2张表是各组变量的描述统计分析。第3张表是对各组均值是

13、否相等的检验。由第3张表可以看出,在0.01的显著性水平上我们拒绝变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值相等的假设,即认为变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值是有显著差异的。输出结果42是对各组协方差矩阵是否相等的Boxs M检验。第1张表反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出,协方差矩阵不是病态矩阵。第2张表是对各总体协方差阵是否相等的统计检验。

14、由F值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用Within-groups和Separate-groups两种协方差所得出的结果是否存在显著差异。如果存在显著差异,就应该采用Separate-groups协方差矩阵;反之,就用Within-groups协方差矩阵。输出结果44显示的是判别函数、判别载荷和各组的重心。第1张表是标准化的判别函数,表示为:y1=-0.427Sepal.Length*-0.521Sepal.Width*+0.947Pe

15、tal.Length*+0.575Petal.Width*y2=0.012Sepal.Length*+0.735Sepal.Width*-0.401Petal.Length*+0.581Petal.Width*这里*表示标准化变量,标准化变量的系数也就是前面讲的判别权重。第2张表是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出,哪些解释变量对判别函数的贡献较大。第3张表是非标准化的判别函数,表示为:y1=-2.105-0.829Sepal.Length-1.534Sepal.Width+2.201Petal.Length+2.810Petal.Widthy2=-6.661+0.024Sep

16、al.Length+2.165Sepal.Width-0.932Petal.Length+2.839Petal.Width我们可以根据这个判别函数计算每个观测的判别Z得分。第4张表是反映判别函数在各组的重心。根据结果,判别函数在y=1这一组的重心为(-7.608,0.215),在y=2这一组的重心为(1.825,-0.728),在y=3这一组的重心为(5.783,0.513)。这样,我们就可以根据每个观测的判别Z得分对观测进行分类。2022/7/11中国人民大学六西格玛质量管理研究中心39输出结果45是分类的统计结果。第1张表概括了分类过程,说明150个观测都参与分类。第2张表说明各组的先验概率,我们在Classify选项中选择的是所有组的先验概率相等。第3张表是每组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明:y=1这一组的分类函数是 f1=-86.308+23.544Sepal.Length+23.588Sepal.Width-16.431Petal.Length-17.398Petal.Widthy=2这组的分类函数是f2=-72.853+15.698

展开阅读全文

多元统计分析（第5版）PPT第4章

最新文档