第十一章第十一章判别分析9/23/20242 目录 上页 下页 返回 结束 •回归模型普及性的基础在于用它去预测和解释度量(metric)变量但是对于非度量(nonmetric)变量,多元回归不适合解决此类问题本章介绍的判别分析来解决被解释变量是非度量变量的情形在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等 •判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功在每种情况下,将对象进行分组,并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别 判别分析的基本思想判别分析的基本思想 判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法分成若干类的情况下,确定样品所属类别的方法例如,在医疗诊断中,医生根据体温,脉搏,心率,白血球等多种指标,来判别此人患哪种病判别分析的特点判别分析的特点 根据已掌握的,历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则,然后,当遇到新样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属类别。
Discriminant analysisDiscriminant analysis Fisher判别法判别法 距离判别法距离判别法 Bayes判别法判别法 逐步判别法逐步判别法 ……训练样本训练样本训练集训练集检测样本检测样本检测集检测集判别准则判别准则判别准则判别准则判别效率判别效率判别效率判别效率学习学习检测检测评价评价判别分析的分类判别分析的分类按判别准则的不同:按判别准则的不同:距离判别距离判别贝叶斯判别贝叶斯判别费希尔判别费希尔判别在判别分析中,需要解决的问题在判别分析中,需要解决的问题判别准则和判别函数的确立判别准则和判别函数的确立判别准则用于衡量样品与各已知组别的接近判别准则用于衡量样品与各已知组别的接近程度常用的有距离准则,费希尔准则,程度常用的有距离准则,费希尔准则,贝叶斯准则贝叶斯准则判别函数是基于一定判别准则计算出的用于判别函数是基于一定判别准则计算出的用于衡量样品与各已知组别的接近程度的函数衡量样品与各已知组别的接近程度的函数式或描述指标式或描述指标判别分析法的基本要求:判别分析法的基本要求:分组类型在两组以上分组类型在两组以上第一阶段时每组的元素规模必须在一个以上第一阶段时每组的元素规模必须在一个以上解释变量必须是可测量的。
解释变量必须是可测量的判别分析的假设前提:判别分析的假设前提:判别分析的假设之一判别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合即不存在多重共线性问题判别分析的假设之二判别分析的假设之二,是各组变量的协方差矩阵相等判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验 判别分析的假设之三判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布在这种条件下可以精确计算显著性检验值和分组归属的概率当违背该假设时,计算的概率将非常不准确 第八章 第一节第一节机动 目录 上页 下页 返回 结束 距离判别 距离判别的最直观的想法是计算样品到第距离判别的最直观的想法是计算样品到第i类总体的距离,哪个距离最小就将它判类总体的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属本与某类别之间距离的大小,判别其所属类别。
类别 马氏距离的定义:马氏距离的定义:•设总体G为m元总体(考察m个指标),均值向量为 ,协方差阵为 ,则样品 (二)两个总体距离判别法(二)两个总体距离判别法 先考虑两个总体的情况,设有两个协差阵相同的m维正态总体,对给定的样本Y,,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离故我们用马氏距离来指定判别规则,有:1、协方差阵相等、协方差阵相等则前面的判别法则表示为则前面的判别法则表示为 当 和已知时, 是一个已知的m维向量,W(y)是y的线性函数,称为线性判别函数称为判别系数用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛 例例 在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业考核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。
现有二个企业,观测值分别为: (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41 劳动生产率 40.729.840.2454.5811.67 产品净值率 10.76.221.4111.677.90线性判别函数:线性判别函数:2、当总体的协方差已知,且不相等、当总体的协方差已知,且不相等 当总体的方差未知时,应该用样本的协方差矩阵代替步骤如下(假如两个总体): (1)分别计算各组的离差矩阵S1和S2; (2)计算 (3)计算类的均值 (4)计算 (5)计算 (6)生成判别函数,将检验样本代入,得分,判类 随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为: 设有个K总体,分别有均值向量μi(i=1,2,…,k)和协方差阵Σi= Σ,又设Y是一个待判样品则与的距离为(即判别函数)( (三三) ) 多总体的距离判别法多总体的距离判别法 上式中的第一项Y’ Σ-1Y与i无关,则舍去,得一个等价的函数将上式中提 -2,得则距离判别法的判别函数为:判别规则为注注:这与前面所提出的距离判别是等价的.24距离判别距离判别 目录 上页 下页 返回 结束 25 目录 上页 下页 返回 结束 2. 2. 协差阵不相同。
协差阵不相同 9/23/2024中国人民大学六西格玛质量管理研究中心26 目录 上页 下页 返回 结束 (四)对判别效果做出检验(四)对判别效果做出检验 由上面的分析可以看出,马氏距离判别法是合理的,但是由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判这并不意谓着不会发生误判 (四)对判别效果做出检验(四)对判别效果做出检验 1、错判概率1 1、错判概率、错判概率 第八章 第二节第二节机动 目录 上页 下页 返回 结束 贝叶斯判别法 距离判别只要求知道总体的数字特征,不涉及总距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计距离判别方法简本的均值和协方差矩阵来估计距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失即先验概率,没有考虑到错判的损失贝叶斯判贝叶斯判别法别法正是为了解决这两个问题提出的判别分析方正是为了解决这两个问题提出的判别分析方法。
法 办公室新来了一个雇员小王,小王是好人还是坏办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测按人们主观意识,一个人是好人人大家都在猜测按人们主观意识,一个人是好人或坏人的概率均为或坏人的概率均为0.50.5坏人总是要做坏事,好人坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为事的概率为0.90.9,坏人做好事的概率为,坏人做好事的概率为0.20.2,一天,,一天,小王做了一件好事,小王是好人的概率有多大,你小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人现在把小王判为何种人一、标准的一、标准的BayesBayes判别判别 距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异 一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,BayesBayes判别就具有这些优点,其判别效果更加理想,应用也更广泛贝叶斯公式是一个我们熟知的公式贝叶斯公式是一个我们熟知的公式 设有总体 , 具有概率密度函 数 。
并且根据以往的统计分析,知道 出现的概率为 即当样本 发生时,求他属于某类的概率由贝叶斯公式计算后验概率,有:判别规则则 判给 在正态的假定下, 为正态分布的密度函数则 判给 上式两边取对数并去掉与上式两边取对数并去掉与 i 无关的项,则等价的判无关的项,则等价的判别函数为:别函数为: 下面讨论总体服从正态分布的情形下面讨论总体服从正态分布的情形问题转化为若 ,则判 则判别函数退化为令 问题转化为若 ,则判 完全成为距离判别法 令有问题转化为若 ,则判 当先验概率相等,二、二、 考虑错判损失的考虑错判损失的Bayes判别分析判别分析 设有总体 , 具有概率密度函 数 并且根据以往的统计分析,知道 出现的概率为 。
又D1,D2,┅,Dk是R(p)的一个分划,判别法则为:当样品X落入Di , 时, 这个分划应该使平均损失最小 【定义】【定义】(平均错判损失)(平均错判损失) 用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率 C(j/i)表示相应错判所造成的损失 则平均错判损失为: 使ECM最小的分划,是Bayes判别分析的解 若总体G1,G2,,Gk的先验概率为且相应的密度函数为 ,损失为 时,则划分的Bayes解为其中它表示把样品X判归 的平均损失 含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体 第八章 第三节第三节机动 目录 上页 下页 返回 结束 费希尔判别Discriminant analysisDiscriminant analysisFisherFisher线性判别法线性判别法线性判别法线性判别法FisherFisher判别的基本思想判别的基本思想判别的基本思想判别的基本思想 将将 m组组n维的数据投影到某一个方向,使得投影后的组维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。
与组之间尽可能地分开平面上两类数据训练样本的散点图平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线(两组数据样本在平面上存在一个合理的分界线L))x1x2L: c1x1+c2x2--c=0令:令:F(x1,x2)=c1x1+c2x2 F(x1,x2): 判别函数判别函数 c:判别值:判别值G1G2FisherFisher线性判别法线性判别法线性判别法线性判别法 一、两个总体的费歇(一、两个总体的费歇(FisherFisher)判别法)判别法 X不能使总体单位尽可能分开的方向u能使总体单位尽可能分开的方向 旋转坐标轴至总体单位尽可能分开的方向,此时旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个分类变量被简化为一个 Discriminant analysisDiscriminant analysis已知已知已知已知:数据属性有:数据属性有n个,每个数据点为个,每个数据点为n维向量维向量X::已知总体数据分为两类:已知总体数据分为两类: G1和和G2 ,总体,总体G1有有p个样本点,总体个样本点,总体G2有有q个样本点。
个样本点属属 性性 (分量)(分量)12…n总体总体G1(i=1, …, p)1 X1(1)x11(1)x12(1)…x1n(1)……………i Xi(1)xi1(1)xi2(1)…xin(1)……………p Xp(1)xp1(1)xp2(1)…xpn(1)总体总体G2 (i=1, …, q)1 X1(2)x11(2)x12(2)…x1n(2)……………i Xi(2)xi1(2)xi2(2)…xin(2)……………q Xq(2)xq1(2)xq2(2)…xqn(2)目标目标目标目标:求解在:求解在n维空间中总体维空间中总体G1和总体和总体G2的最优分界平面的最优分界平面(一)费歇判别的基本思想(一)费歇判别的基本思想 从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数FisherFisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,FisherFisher在1936年提出该判别方法对总体的分布不做任何要求 从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数. Discriminant analysisDiscriminant analysis定义线性判别函数为:定义线性判别函数为:其中其中Ci (i = 1, 2, …, n)为常数(待定系数)。
为常数(待定系数)若判别值为若判别值为 C ,, 对于任何未知数据点对于任何未知数据点X(x1, x2, …, xn),代入判别函数,,代入判别函数,依据依据F (x1, x2, …, xn)与与C值的比较,可以判别点值的比较,可以判别点X属于哪一类属于哪一类1、确定待定系数、确定待定系数Ci (i = 1, 2, …, n)2、确定判别值、确定判别值CDiscriminant analysisDiscriminant analysis将类将类G1的的p个点、类个点、类G2的的q个点分别代入判别函数:个点分别代入判别函数:其中,其中,确定待定系数确定待定系数确定待定系数确定待定系数C Ci iDiscriminant analysisDiscriminant analysis令:令: A与与G1和和G2两类点的几何中心的距离相关显然,判别函数两类点的几何中心的距离相关显然,判别函数F (x1, x2, …, xn)应该使应该使 A值越大越好值越大越好令:令: B与与G1和和G2两类点的相对于各自几何中心的离差相关显然,判别函两类点的相对于各自几何中心的离差相关显然,判别函数数F (x1, x2, …, xn)应该使应该使 B值越小越好。
值越小越好Discriminant analysisDiscriminant analysis构造函数构造函数I::选择合适的待定系数选择合适的待定系数Ci (i = 1, 2, …, n),,使得函数使得函数I(C1, C2, …, Cn)达到极大值达到极大值Discriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysis消去非零的因子消去非零的因子 ,得到求解待定系数,得到求解待定系数(C1, C2, …, Cn)的的线性方程组:线性方程组:Discriminant analysisDiscriminant analysis确定判别值确定判别值确定判别值确定判别值C C判别函数已知,不妨写成:判别函数已知,不妨写成:将将G1的的p个点、个点、 G2的的q个点分别代入判别函数:个点分别代入判别函数:对对G1、、G2的的(p+q)个点的判别函数值取总体的平均值:个点的判别函数值取总体的平均值:显然,显然, 值是两类点的判别函数值的加权平均,处于两类判别函数平值是两类点的判别函数值的加权平均,处于两类判别函数平均值之间,也等价于两类点的总体几何中心的判别函数值。
因此,将均值之间,也等价于两类点的总体几何中心的判别函数值因此,将判别值判别值C取为取为 值:值:Discriminant analysisDiscriminant analysisFisherFisher线性判别的基本步骤线性判别的基本步骤线性判别的基本步骤线性判别的基本步骤属属 性性 (分量)(分量)12…nG1(i=1, …, p)1 X1(1)x11(1)x12(1)…x1n(1)……………i Xi(1)xi1(1)xi2(1)…xin(1)……………p Xp(1)xp1(1)xp2(1)…xpn(1)G2(i=1, …, q)1 X1(2)x11(2)x12(2)…x1n(2)……………i Xi(2)xi1(2)xi2(2)…xin(2)……………q Xq(2)xq1(2)xq2(2)…xqn(2)问问问问 题题题题已知数据样本点分为两类:已知数据样本点分为两类: G1和和G2 ,, G1有有p个点,个点, G2有有q个点求出个点求出判别函数判别函数F (x1, x2, …, xn)和判别值和判别值C 。
对于任何未知数据点对于任何未知数据点X(x1, x2, …, xn),依据,依据F (x1, x2, …, xn)与与C值的比较,判别点值的比较,判别点X属于哪一类属于哪一类Discriminant analysisDiscriminant analysisSTEP 1STEP 1先对样本点数据先对样本点数据Xi(1)(xi1 (1), xi2 (1), …, xin (1))(( i=1, …, p)、)、 Xi(2)(xi1 (2), xi2 (2), …, xin (2))(( i=1, …, q)分别计算以下求和以及平均值:)分别计算以下求和以及平均值:Discriminant analysisDiscriminant analysisSTEP 2STEP 2计算计算di和和Sij,注意对称性,注意对称性Sij = Sji ::Discriminant analysisDiscriminant analysisSTEP 3STEP 3解线性代数方程组:解线性代数方程组:若方程有解,得到判别函数若方程有解,得到判别函数F::Discriminant analysisDiscriminant analysisSTEP 4STEP 4将平均值代入判别函数,然后计算判别值将平均值代入判别函数,然后计算判别值C::Discriminant analysisDiscriminant analysisSTEP 5STEP 5对未知数据对未知数据X(x1, x2, …, xn)进行判别:将数据进行判别:将数据X(x1, x2, …, xn)代入判别代入判别函数函数F,与判别值进行比较,判别其属于哪一类。
与判别值进行比较,判别其属于哪一类Discriminant analysisDiscriminant analysisFisherFisher线性判别的应用举例线性判别的应用举例线性判别的应用举例线性判别的应用举例x1x2样本序号x1x2类别157124323782486253616251766189629542Discriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysisDiscriminant analysis判别效果的评价判别效果的评价判别效果的评价判别效果的评价错判损失错判损失错判损失错判损失错判率错判率错判率错判率N(G1|G2)N(G2|G1)Discriminant analysisDiscriminant analysisp(x)xG1:N( 1, 1)G2:N( 2, 2) 1 2 *P(G1|G2)P(G2|G1)Discriminant analysisDiscriminant analysis检验判别效果的方法检验判别效果的方法检验判别效果的方法检验判别效果的方法训练集的回判训练集的回判训练集的回判训练集的回判 训练集(训练集(训练集(训练集(Learning setLearning set))))::训练样本集训练样本集检测集(检测集(检测集(检测集(Test setTest set))))::检测样本集(类别未知)检测样本集(类别未知)利用训练集作为检测集:利用训练集作为检测集:利用训练集作为检测集:利用训练集作为检测集:用判别方法对已知类型的样本进用判别方法对已知类型的样本进行回判,统计判错的个数以及占样本总数的比例,作为错行回判,统计判错的个数以及占样本总数的比例,作为错判率的估计。
判率的估计特点:特点:特点:特点:容易低估错判率容易低估错判率 Discriminant analysisDiscriminant analysis其中系数 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小当建立了判别式以后,对一个新的样品值,我们可以将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类假设我们可以得到一个线性判别函数:我们可以把两个总体的样品代入上面的判别式分别对上面两式左右相加,再除以样品个数,可得两个总体的重心: 最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好(三)判别准则(三)判别准则 如果由原始数据y求得判别函数得分为Y*,对与一个样品代入判别函数中,若Y*>Y0,则判 给G1,否则判给G2二、多个总体的二、多个总体的Fisher判别法判别法 (一一) 判别函数判别函数Fisher判别法实际上是致力于寻找一个最能反映组和组 之 间 差 异 的 投 影 方 向 , 即 寻 找 线 性 判 别 函 数 ,设有 个总体 ,分别有均值向量 , ,…, 和协方差阵 , 分别各总体中得到样品:第i个总体的样本均值向量 综合的样本均值向量 第i个总体样本组内离差平方和 综合的组内离差平方和组间离差平方和如果判别分析是有效的,则所有的样品的线性组合 满足组内离差平方和小,而组间离差平方和大。
则而 所对应的特征向量即FisherFisher样品判别函数是 然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数其特征向量构成第二个判别函数的系数类推得到m(m
个不同的总体有关 下面来介绍两总体判别效果的检验下面来介绍两总体判别效果的检验 当总体数k=2时,所谓判别效果的检验,就是检验两总体的均值是否有显著性差异若两总体的均值不相等,则建立的判别准则是有意义的,否则没意义除非考虑其它新的判别变量 其中 是第i个总体的样品个数,在两总体均值相等的假设成立下,F统计量服从分子自由度为m而分母自由度为 的F分布,由此求出显著性概率p,若p值小于给定的显著性水平 则否定两总体均值相等的假设反之,则两总体的均值没显著性差异 现在推广到k个总体判别效果的检验 具体做法是,首先检验k个类的均值向量是否全都相等,若不全相等,则进一步对K个总体两两配对,然后再检验这两总体的判别效果是否显著,具体方法与两总体判别效果的检验相同•根据威尔克斯分布的定义,可知 对各变量判别能力的检验对各变量判别能力的检验•当检验K个类的均值向量是否全都相等时, 若K个总体的均值向量之间有显著性差异, 也不能保证其个分量的均值向量之间有显著性差异,若第i个分量之间没有显著性差异,说明相应的 对判别分类不起作用,应该删除。
变量判别能力的度量; 变量判别能力的检验; 详细过程见书 第八章 第五节第五节机动 目录 上页 下页 返回 结束 逐步判别法 基本思想:基本思想: 通常判别函数中会通常判别函数中会 包含多个变量包含多个变量 但这些但这些 在判别函数中所起的作用是不同的,有些在判别函数中所起的作用是不同的,有些变量重要,有些变量不重要若将重要的变量忽略变量重要,有些变量不重要若将重要的变量忽略了,判别效果肯定不行另一方面,若判别变量太了,判别效果肯定不行另一方面,若判别变量太多,计算量大,影响估计精度,对判别效果产生影多,计算量大,影响估计精度,对判别效果产生影响因此,变量选择是判别分析中的重要问题因此,变量选择是判别分析中的重要问题 基本方法基本方法 逐步判别法采用有进有出的算法,即每一步都进行检验。
首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除逐步判别法的基本原理逐步判别法的基本原理 根据多元方差分析的原理,定义A为样本点的组内离差 平方和,T为样本点的总离差 平方和,此时有 要分析某一变量是否有显著的判别能力,可按以下步骤来进行: 设判别函数中已有q个变量,记为 这时考虑是否需要增加变量 , 此时可计算偏维尔克斯(Wilks)统计量可以证明记•则表明变量 判别能力显著,在判别函数中应加入变量•对于判别函数中已存在的q个变量X*中,是否有对判别能力不显著的变量存在,若存在,应予以剔除考虑变量 是否从判别函数中剔除,记删除掉 的变量组为X*(K),则有 此时,如果有 则表明变量 的判别能力不显著,需要将 从X*中剔除 重复上述变量引入和剔除的过程,直至既不能引入 新变量,又不能剔除已有的变量,此时将已选中的变量来建立判别函数 第八章 第六节第六节机动 目录 上页 下页 返回 结束 判别分析方法步骤及框图 102 目录 上页 下页 返回 结束 使用判别分析可以看作是下面6个步骤的过程:第第1 1步:判别分析的对象步:判别分析的对象判别分析的研究目的:1. 确定在两个或者更多事先定义的组上的一组变量的平均得分剖面是否存在显著性差异。
2. 确定哪些变量在两个或更多组的平均得分剖面的差异中解释最多3. 在一组变量得分的基础上,建立将对象(个体、公司、产品等等)分类的步骤4. 建立由这组变量形成的组与组之间判别函数的数目及构成 103 目录 上页 下页 返回 结束 第第2 2步:判别分析的研究设计步:判别分析的研究设计判别分析的成功应用需要考虑到几个要点这些要点包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割一)解释变量和被解释变量的选择解释变量和被解释变量的选择要应用判别分析,研究者必须首先指定解释变量与被解释变量这里,解释变量为定量变量,而被解释变量为定性变量104 目录 上页 下页 返回 结束 研究者首先应该关注被解释变量被解释变量的组数可以是两个或更多,但这些组必须具有相互排斥性和完全性被解释变量有时确实是定性的变量然而也有一些情况,即使被解释变量不是真的定性变量,判别分析也是适用的我们可能有一个被解释变量是顺序或者间隔尺度的变量,而要作为定性变量使用这种情况下我们可以创建一个定性变量当确定了被解释变量后,研究者必须确定分析中应包括的解释变量解释变量的选择通常有两种方法。
第一种是从以前的研究中或者从该研究问题根本的理论模型中确定变量第二种方法是直觉——运用研究者的知识,直观地选择没有以前研究或理论存在但是逻辑上与预测解释变量的组相关的变量105 目录 上页 下页 返回 结束 (二)样本容量样本容量判别分析对样本量与预测变量个数的比率很敏感许多研究建议比率为每个预测变量20个观测尽管这个比率在实际中难以保持,但研究者应注意,当样本量相对于解释变量个数在减少时,结果是不稳定的建议最小的样本量是每个变量有5个观测除总的样本量以外,研究者还必须考虑每组的样本容量至少,最小的组的大小必须超过解释变量的个数作为实际的指导,每组应至少有20个观测但即使所有的组大小都超过了20,研究者还应注意组的相对大小如果组的大小相差很大,这可能影响到判别函数的估计和观测的分类在分类阶段,大的组有不相称的高的分类机会106 目录 上页 下页 返回 结束 (三)样本的分割样本的分割很多时候样本需要分割为两个子样本,一个用于估计判别函数,另一个用于验证每个子样本都有适当的大小来支持结论是很重要的分割样本有很多种方法,最常用的一种是通过一个子样本来估计判别函数,而用另一个子样本来验证。
常用的过程是将整个样本随机地分为两组其中的一组,分析样本是用来估计判别函数的另一组保留样本,是用来验证结论的这种验证方法称为分割样本或者交叉验证方法107 目录 上页 下页 返回 结束 如果划分分析样本和保留样本没有固定的原则最常用的程序是分为两半当选择分析组和保留组的个体时,通常遵循比例分层抽样也就是分析组和保留组的各组大小比率应与整个样本的各组大小比率相同如果研究者要划分样本,这个样本应该充分的大一般来讲,研究者需要整个样本至少为100,将它分为两组108 目录 上页 下页 返回 结束 第第3 3步:判别分析的假定步:判别分析的假定推导判别函数的关键假定是解释变量的多元正态性和由被解释变量定义的各组的未知但相等的协方差结构不满足多元正态性假定在估计判别方程时可能会出现问题因此,如果可能的话,建议使用Logistic回归作为一种替代方法不等的协方差矩阵可能会负面影响分类过程如果样本量小而协方差阵不等,那么估计过程的统计显著性会受到负面影响最可能的情况是在适当的样本量的组之间存在不等的协方差阵,那么观测会被“过度归类”到大的协方差阵的组中可以通过增加样本量和使用各组特定的协方差阵减小这种影响。
9/23/2024109 目录 上页 下页 返回 结束 最后,如果组间的协方差阵存在大的差异,没有方法可以减小这种影响时,在许多统计问题中可以使用二次判别技术另一个可能影响结果的是解释变量的多重共线性当使用逐步判别时这种考虑尤为重要研究者在解释判别方程时必须注意多重共线性的程度和它对哪些变量进入逐步解的影响9/23/2024110 目录 上页 下页 返回 结束 第第4 4步:估计判别模型和评估整体拟合步:估计判别模型和评估整体拟合为了推导判别函数,研究者必须确定估计的方法,然后确定保留的函数个数随着估计的函数,可以用多种方法来评估模型拟合首先,判别Z得分,可以为每一个观测计算基于Z得分的各组均值的比较提供了组与组之间判别的一种测量通过分到正确类中的观测来测量预测精度一系列准则可以用来评价判别过程是否达到了实际的或者统计的显著性最后,个体诊断可以分析每个观测的分类精度和它对于整个模型估计的相对影响111 目录 上页 下页 返回 结束 第第5 5步:结果的解释步:结果的解释9/23/2024112 目录 上页 下页 返回 结束 解释判别函数传统的方法是观察计算判别函数时赋予每个变量的标准化判别权重(有时也称为判别系数)的符号和大小。
忽略符号时,较大权重的解释变量意味着对判别函数的判别力贡献更多符号只是代表那个变量有正的还是负的贡献对判别权重的解释也有一些批评比如解释变量存在多重共线性情况时,判别权重可能会出现问题另一个问题是判别权重被认为不稳定近年来,由于判别权重的缺陷,判别载荷逐渐作为解释的基础判别载荷,有时也称为结构相关系数,是每个解释变量与判别函数的简单相关系数判别载荷反映的是每个解释变量对判别函数的相对贡献判别载荷也可能存在不稳定性 9/23/2024113 目录 上页 下页 返回 结束 判别分析的逻辑框图如下: 第八章 第七节第七节机动 目录 上页 下页 返回 结束 判别分析的上机实现 116 目录 上页 下页 返回 结束 这这里里举举两两个个例例子子,,一一个个例例子子是是分分两两组组的的情情况况,,一一个个是是分分多多组组的的情情况况我我们们分分别别用用 S SP PS SS S软软 件件 中中 的的D D i is sc cr ri im m i in n a a n n t t模模 块块 来来 实实 现现 判判 别别 分分 析析 。
117 目录 上页 下页 返回 结束 118 目录 上页 下页 返回 结束 (一)二元变量的判别分析计算 119 目录 上页 下页 返回 结束 另外,如果需要更深入的分析,可以选择其他项统计量(Statistics)选项中可以选择描述统计量Mean,ANVOA,Box’M ,函数可以选择Fisher和非标准化函数,同时还可以使用哪种矩阵由于只有两个自变量,我们不需要使用逐步判别法分类(Classify)选项中可以选择先验概率(所有组相等或根据组的大小计算概率),子选项显示(display)中可以选择每个个体的结果(Casewise results),综合表(Summery Table)和“留一个在外”的验证原则,还可以选择使用哪种协方差矩阵以及作图保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率如果采用逐步判别法,我们还可以选择判别的方法(Method)得到分析结果如下:120 目录 上页 下页 返回 结束 9/23/2024中国人民大学六西格玛质量管理研究中心121 目录 上页 下页 返回 结束 122 目录 上页 下页 返回 结束 123 目录 上页 下页 返回 结束 9/23/2024中国人民大学六西格玛质量管理研究中心124 目录 上页 下页 返回 结束 输出结果4.3分析的是典型判别函数。
第1张表反映判别函数的特征值、解释方差的比例和典型相关系数注意我们仅选取了两个解释变量,所以判别函数解释了全部的方差)第2张表是对第一个判别函数的显著性检验由Wilks’ Lambda检验,认为判别函数在0.01的显著性水平上是极显著的 9/23/2024中国人民大学六西格玛质量管理研究中心125 目录 上页 下页 返回 结束 输出结果4.4显示的是判别函数、判别载荷和各组的重心126 目录 上页 下页 返回 结束 第2张表是结构矩阵,即判别载荷由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大127 目录 上页 下页 返回 结束 128 目录 上页 下页 返回 结束 9/23/2024中国人民大学六西格玛质量管理研究中心129 目录 上页 下页 返回 结束 输出结果4.5是分类的统计结果第1张表概括了分类过程,说明24个观测都参与分类第2张表说明各组的先验概率,我们在Classify选项中选择的是所有组的先验概率相等第3张表是每组的分类函数(区别于判别函数),也称费歇线性判别函数, 130 目录 上页 下页 返回 结束 第4张表是分类矩阵表。
Predicted Group Membership表示预测的所属组关系,Original表示原始数据的所属组关系,Cross-validated表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的 131 目录 上页 下页 返回 结束 下面我们看一个三总体判别的例子例【例4.2】】研究者希望能够根据气候、经济因素、人口等信息来判断某国家或地区属于哪一类型这里国家country(因变量)有3种类别,OECD表示经合组织的国家(包括美国、加拿大和西欧等发达国家),Pacific/Asia表示亚太地区的国家,Africa表示非洲地区的国家考虑了以下几个自变量,climate(气候因素,包括沙漠气候、干旱气候、地中海气候、海洋气候、温带气候和极地气候等),urban(城市居民的比例),population(人口数),gdp_cap(人均GDP)数据集来自SPSS10.0自带的数据集World95.sav 132 目录 上页 下页 返回 结束 进入判别分析对话框以后,我们使用逐步判别分析,Method选择马氏距离。
得到如下输出结果:首先显示有类的输出结果4.1的3张表,第1张表是分析的样本及其缺失情况第2张表是各组变量的描述统计分析第3张表是各组变量均值是否相等的统计检验,结果说明四个自变量各组的均值在0.05的显著性水平上是不相等的此处从略 133 目录 上页 下页 返回 结束 输出结果4.6是对协方差阵是否相等的检验由第2张表可以看出,原假设被拒绝,即认为各组的协方差阵不等注意这里违反了原假设)134 目录 上页 下页 返回 结束 135 目录 上页 下页 返回 结束 136 目录 上页 下页 返回 结束 输出结果4.7是说明逐步回归的结果第1,2张表说明变量进入判别函数的情况第3张表说明不在判别函数的变量,结果反映城市居民的比例(urban)对判别函数的贡献不显著,其他三个自变量被选入判别方程第4张表说明判别函数的显著性,由Step3的结果说明判别函数在0.05的显著性水平上是显著的,模型拟合较好 137 目录 上页 下页 返回 结束 138 目录 上页 下页 返回 结束 输出结果4.8分析的是典型判别函数。
第1张表说明选取了两个典型判别函数,它们可以解释全部的方差第2张表是对两个判别函数的Wilks’ Lamada检验,检验结果说明两个判别函数在0.05的显著性水平上是显著的第3张表是标准化判别函数,第4张表是结构矩阵(即判别载荷矩阵),第5张表是非标准化判别函数,由这几张表可以说明,第一判别函数主要反映一国的气候和经济因素,第二判别函数主要反映人口因素第6张表反映各组的重心,我们由此可以计算出临界点,从而根据判别函数计算出判别Z得分,对各个观测进行归类139 目录 上页 下页 返回 结束 140 目录 上页 下页 返回 结束 输出结果4-9的第1张表是对观测分类的总体概括,有一个观测至少有1个自变量缺失第2张表是各组的先验概率,由于我们选择先验概率按各组大小计算,所以各组的先验概率是与各组大小成比例的第3张表说明分类函数,也就是费歇线性判别函数,我们可以根据这三组的函数计算每个观测在各组的分类得分,然后将该观测归到得分最高的组中第4张图是根据典型判别函数作的所有组的散点图,比较直观地反映了各组观测的分类情况和各组的重心141 目录 上页 下页 返回 结束 第5张表是分类结果的矩阵,这里我们也使用了“留一个在外”的原则进行交叉验证,验证的结果还是可以接受的,表明模型拟合还是不错的。
由分类矩阵可以看出,OECD国家和非洲国家的个体误判概率很小,而亚太国家误判概率很大这说明了OECD国家经济比较发达,城市化水平较高,而且各成员国发展水平相差不大;非洲国家经济水平较低,城市化水平也较低,其成员国发展水平相差也不大;因此这两类国家比较容易判别,而亚太国家和地区发展水平不均衡,没有太多的共同点,导致其成员国不易判别根据输出结果4.8第2张表的均值和协差阵可以说明)我们还可以在对话框中选择Classify→Display→Casewise results,对每个观测进行诊断分析142 目录 上页 下页 返回 结束 例例4.3 为了研究2005年全国各地区农村居民家庭人均消费支出情况,按标准化欧氏平方距离、离差平方和聚类方法将29个省、市、自治区(除广东和西藏以外)分为三种类型,设置group变量取值分别为1、2、3试建立判别函数,判定广东、西藏分别属于哪个消费水平类型判别指标及原始数据见表4-2 143 目录 上页 下页 返回 结束 144 目录 上页 下页 返回 结束 145 目录 上页 下页 返回 结束 将原29个样品的回报结果列于表4-3,两个待判样品的判别结果列于表4-4。
广东省应判归第二类消费水平,西藏自治区归入第三类消费水平为宜本例的回报准确率高,说明各地区农村居民的消费水平划分为三种类型是合适的由于SPSS中的判别分析没有距离判别这一方法,因此距离判别法无法在SPSS中直接实现,但可以通过Excel等软件来进行手工计算146 目录 上页 下页 返回 结束 这里顺便指出,回报的误判率并不是“误判概率”,而且前者通常要小些,回判情况仅供使用时参考 147 目录 上页 下页 返回 结束 例例4.4 为了研究2005年全国各地区国有及国有控股工业企业的经营状况,按标准化欧氏平方距离、离差平方和聚类方法将29个省、市、自治区(除广东和西藏以外)分为三种类型,设置group变量取值分别为1、2、3试建立判别函数,判定广东、西藏分别属于哪个发展类型判别指标及原始数据见表4-5 148 目录 上页 下页 返回 结束 149 目录 上页 下页 返回 结束 150 目录 上页 下页 返回 结束 将原29个样品的回报结果列于表4-6,两个待判样品的判别结果列于表4-7广东省应判归第一类,西藏自治区归入第三类为宜。
本例的回报准确率高,说明各地区国有及控股工业企业经济效益划分为三种类型是合适的这也可看成聚类分析与判别分析的结合应用 151 目录 上页 下页 返回 结束 例例4.54.5 2005年全国城镇居民月平均消费状况可划分为两类,分类后的数据见表4-8试建立费歇尔线性判别函数,并将广东、西藏两个待判省区归类152 目录 上页 下页 返回 结束 153 目录 上页 下页 返回 结束 154 目录 上页 下页 返回 结束 155 目录 上页 下页 返回 结束 6.回判及待判样品的归类.回判及待判样品的归类156 目录 上页 下页 返回 结束 157 目录 上页 下页 返回 结束 158 目录 上页 下页 返回 结束 SPSS中进行费歇尔判别分析是十分快捷的首先按照表4-16把数据输入SPSS数据表中,然后依次点击“Analyze”→“Classify” →“Discriminant”,打开Discriminant Analysis对话框,将对话框左侧变量列表中的group选入 Grouping Variable框,并点击“Define Range”钮,在弹出的Discriminant Analysis:Define Range对话框中,定义判别原始数据的类别区间,本例为两类,故在Minimum处输入1、在Maximum处输入2,点击Continue钮返回Discriminant Analysis对话框。
159 目录 上页 下页 返回 结束 再从对话框左侧的变量列表中选将八个变量选Independents框,作为判别分析的基础数据变量点击“Statistics”钮,弹出Discriminant Analysis: Statistics对话框,在Descriptive栏中选Means项,要求对各组的各变量作均数与标准差的描述;在Function Coefficients栏中选Unstandardized项(注意,不是Fisher’s项!),要求显示费歇尔判别法建立的非标准化系数160 目录 上页 下页 返回 结束 之后,点击“Continue”钮返回Discriminant Analysis对话框点击“Save”钮,弹出Discriminant Analysis: Save New Variables对话框,选Predicted group membership项要求将回判的结果存入原始数据库中点击“Continue”钮返回Discriminant Analysis对话框,其他项目不变,点击“OK”钮即完成分析在输出结果中可以看到各组均值、标准差、协方差阵等描述统计结果以及判别函数,返回数据表中,可以看到判别结果已经作为一个新的变量被保存,广东和西藏均被划分到第二大类,篇幅所限,各输出结果在此不再列示。
161 目录 上页 下页 返回 结束 例例4.6 2005年全国各地区农村居民家庭人均消费情况可划分为三种类型,分类后的数据见表4-2试用SPSS软件建立Bayes判别函数,并将待判样品归类162 目录 上页 下页 返回 结束 163 目录 上页 下页 返回 结束 164 目录 上页 下页 返回 结束 根据判别函数,就可以对原各组样品以及待判样品进行回判和判别,此时在SPSS中返回原数据表,可以看到一个新的变量名为Dis_1,其对应的各值就是对各地区的回判和判别结果,可知广东被划分到第二类消费水平地区,西藏被划分到第三类消费水平地区,并且原各组样品的回报误判率为零以上判别结果综合整理列于表4-10 165 目录 上页 下页 返回 结束 166 目录 上页 下页 返回 结束 在例4.5和4.6中,我们是将事先确定的所有八个指标变量都选入来进行判别分析,在实际应用中,我们也大多是设计尽可能多的相关指标来进行聚类和判别分析,然而事实是,指标太多不仅增大了计算量,而且那些对判别无用的指标也会干扰我们的视线。
因此对众多指标进行筛选,找出对判别函数贡献比较突出,具有较强判别能力的指标成为一个很重要的事情凡是具有筛选变量能力的判别方法统称为逐步判别法,有关这些方法的具体论述可见参考文献[2] 167 目录 上页 下页 返回 结束 在此我们以例4.6为例介绍逐步判别法在SPSS中的实现操作步骤仍与例4.5类似,不同之处在于点击“Analyze”→“Classify” →“Discriminant”,打开Discriminant Analysis对话框后,将Independents栏下的“Enter independents together”项改选为“Use stepwise method”,此时窗口最下面一行的“Method”按钮被激活,点击后进入Discriminant Analysis:stepwise method对话框,在method栏中选中Mahalanobis distance项,即采用马氏距离,其他选项保持不变,返回主对话框后,其他操作仍按例4.5进行,点击“OK”得到输出结果,部分列举如下: 168 目录 上页 下页 返回 结束 169 目录 上页 下页 返回 结束 170 目录 上页 下页 返回 结束 。