多元统计分析讲义(第三章)

资源描述

《多元统计分析讲义(第三章)》由会员分享，可在线阅读，更多相关《多元统计分析讲义(第三章)（26页珍藏版）》请在金锄头文库上搜索。

1、注意电子文档使用范围多元统计分析Multivariate Statistical Analysis主讲：统计学院许启发（）统计学院应用统计学教研室School of Statistics2004年9月第三章判别分析【教学目的】1 让学生了解判别分析的背景、基本思想；2 掌握判别分析的基本原理与方法；3 掌握判别分析的操作步骤和基本过程；4 学会应用聚类分析解决实际问题。【教学重点】1 注意判别分析与聚类分析的关系（联系与区别）；2 阐述各种判别分析方法。1 概述一、什么是判别分析1研究背景科学研究中，经常会遇到这样的问题：某研究对象以某种方式（如先前的结果或经验）已划分成若干类

2、型，而每一类型都是用一些指标来表征的，即不同类型的的观测值在某种意义上有一定的差异。当得到一个新样本观测值（或个体）的关于指标的观测值时，要判断该样本观测值（或个体）属于这几个已知类型中的哪一个，这类问题通常称为判别分析。也就是说，判别分析（discriminant analysis）是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。判别分析的应用十分广泛。例如，在工业生产中，要根据某种产品的一些非破坏性测量指标判别产品的质量等级；在经济分析中，根据人均国民收入，人均工农业产值，人均消费水平等指标判断一个国家的经济发展程度；在考古研究中，根据挖掘的古人头盖骨的容量，周长等判

3、断此人的性别；在地质勘探中，根据某地的地质结构，化探和物探等各项指标来判断该地的矿化类型；在医学诊断中，医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病，等等。值得注意的是，作为一种统计方法，判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题，如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系，也就没有必要应用判别分析方法了。2基本思想及意义用统计的语言来描述判别分析，就是已知有个总体（每个总体可认为是属于的指标取值的全体），它们的分布函数均为p维函数，对于任一给定的新样本观测值关于指标的观测值，我们要判断该样本观测值应属于这g 个总体中的哪一个。在实际应用中，通常

4、由取自各总体的关于指标的样本为该总体的代表，该样本称为训练样本。判别分析即提取训练样本中各总体的信息以构造一定的准则来决定新样本观测值的归属问题。训练样本往往是历史上对某现象长期观测或者是用昂贵的试验手段得到的，因此对当前的新样本观测值，我们自然希望将其指标值中的信息同各总体训练样本中的信息作比较，使可在一定程度上判定新样本观测值的所属类型。概括起来，下述几个方面体现了判别分析的重要意义。第一，为未来的决策和行动提供参考。例如，以前对一些公司在破产前两年观测到某些重要的金融指标值。现在，要根据另一个同类型公司的这些指标的观测值，预测该公司两年后是否将濒临破产的危险，这便是一种判别，其结论可以帮

5、助该公司决策人员及早采取措施，防止将来可能破产的结局。第二，避免破产的破坏。例如，一只灯泡的寿命只有将它用坏时才能得知；一种材料的强度只有将它压坏时才能获得。一般地，我们希望根据一些非破坏性的测量指标，便可将产品分出质量等级，这也要用到判别分析。第三，减少获得直接分类信息的昂贵代价。例如在医学诊断中，一些疾病可用代价昂贵的化验和手术得到确诊，但通常人们往往更希望通过便于观测（从而也可能导致误诊）的一些外部症状来诊断，以避免过大的开支和对患有不必要的损伤。第四，在直接分类信息不能获得的情况下可用判别分析。例如，要判断某未署名的文学作品是否出自某已故作家之手，很显然，我们不能直接去问他。这时可以用

6、这位已故作家署名作品的写作特点（用一些变量描述）为训练样本，用判别分析方法在一定程度上判定该未署名作品是否由该作家所作。从以上例子也可以清楚地看到，如果不是利用直接明确的分类信息来判断某样本观测值的归属问题，难免会出现误判的情况。判别分析的任务是依据训练样本所提供的信息，建立在某种意义下最优（如误判概率最小，或误判损失最小等）的准则来判定一个新样本属于哪一个总体。根据判别准则的不同，我们主要介绍距离判别、Fisher判别和Bayes判别。二、判别分析的分类及准则1分类（1）按照判别组数分：两组判别和多组判别；（2）按照所用的数学模型分：线性判别和非线性判别；（3）按照处理度量的方法分：逐步判

7、别和序贯判别。2准则主要有：马氏距离最小准则，Fisher准则，平均损失最小准则，最小平方准则，最大似然准则，最大概率准则。并可由此提出判别方法：距离判别法，Fisher判别法，Bayes判别法，逐步判别法。三、判别分析与聚类分析判别分析是用以判别个体所属群体的一种统计分析方法，产生于20世纪30年代。判别分析是在已知研究对象分成若干类型（或组别）并已取得各种类型的一批已知样品的观测数据，在此基础上根据某些准则建立判别式，然后对未知样品进行判别分类。聚类分析，一批给定样品要划分的类型事先并不知道，正需要通过聚类分析来给以确定类型。判别分析与聚类分析经常结合使用：通过聚类分析首先确定出几个类型

8、，对难以分类的样品再使用判别分析，确定其类别归属。2 距离判别法距离判别是通过定义样本指标的观测值（p维）到各总体的距离，以其大小判定样本观测值属于哪个总体。常用的距离是Mahalanobis距离（简称马氏距离），其定义如下：设G是p维总体，均值向量为，协方差矩阵为，定义p维样本到总体G的马氏距离为一、基本思想首先根据已知分类的数据，分别计算各类的重心即分组（类）的均值。判别准则是对任给的一次观测，若它与第类的重心距离最近，就认为它来自第类。距离判别法对各类总体分类并无特殊的要求。二、两个总体的距离判别法设有两个总体（或称两类）、，其均值向量和协差阵分别为和，从第一个总体中抽取个样品，从第

9、二个总体中抽取个样品，每个样品测量个指标。总体总体变量样品变量样品均值均值任取一样品（待判），实测指标值为，问应归并为哪一类？1计算到总体和的距离，分别记为：和；2判别3距离的定义（马氏距离）（1）当时此时，考察样品到两总体的马氏距离的平方差，由于其中，。令，则判别准则可以简化为：更进一步，令，则可表示为：上式表明，当和均已知时，是的线性函数，称之为线性判别，称之为判别系数。线性判别函数因其使用方便而得到广泛的应用。但在实际问题中，和通常是未知的，我们所具有的资料只是来自两个总体的训练样本。这时，可以通过训练样本对及作估计。设为来自的样本（每个均为维列向量），则式中，为样本的协差阵。和为无

10、偏估计。这时，判别函数的估计为其中，。则NOTE：对于当维时，若两个总体的分布分别为和，属于多维的一种特例。教材P105给出该特例形式，并且给出了错判的概率。（2）当时正如本节开始所述，可由和的大小判定属于哪个总体，或令作为判别函数，这时判别函数是的二次函数。实际应用中，若和未知，可用总体的训练样本对它们作估计，从而得到判别函数的估计为其中，与表达同上。三、多个总体的距离判别将两个总体的情况推广到多个总体。设有个p维总体，均值向量分别为，协方差矩阵分别为，从每个总体中抽取个样品，每个样品测量个指标（）。类似两总体的距离差别，计算新样本观测值到各总体的距离，比较这个距离，判定属于其距离最短的

11、总体（若最短距离不惟一，则可将归于具有最短距离总体中的任一个，因此，不妨设最短距离惟一）。下面仍就各协方差矩阵相等和不等的情况予以详细讨论。1当时此时，由前面的马氏距离定义知：，则判别函数为：则到的距离最小等价于对所有的，有，从而判别准则可以写为当和通常是未知的，可以利用各总体的训练样本对其进行估计，得到估计的判别函数。设为来自的样本（每个均为维列向量），则式中，为的样本离差阵。和为无偏估计。2当不全相等时这时只需直接计算，若，则判。同样地，若和是未知的，则可以用它们的估计量和计算得到到各总体的距离，从而进行判断。或者，可以构造判别函数判别准则同上。四、判别准则的评价当一个判别准则提出以后

12、，很自然的问题就是它们的优良性如何。通常，一个判别准则的优劣，用它的误判概率来衡量。以两总体为例，一个判别准则的误判概率即属于而判归或者相反的概率。但只有当总体的分布完全已知时，才有可能精确计算误判概率。在实际应用中，这种情况是很少见的，因为在大多数情况下，我们可利用的资料只是来自各总体的训练样本，而总体的分布是未知的。下面我们以两个总体为例，介绍两种以训练样本为基础的评价判别准则优劣的方法。它们也很容易推广到多个总体的情况。1貌似误判率方法当利用各总体的训练样本构造出判别准则后，评价此准则优劣的一个可行的办法是通过对训练样本中的各样本逐个回判（即将各样本观测值代入判别准则中进行再判别），利用

13、回判的误判率来衡量判别准则的效果，具体方法如下：设和为两个总体，为来自和的容量分别为和的训练样本，以此按一定方法（如距离判别法）构造一个判别准则（或判别函数），以全体训练样本作为个新样本，逐个代入已建立的判别准则中判别其归属，这个过程称为回判。为明了起见，将回判结果连同其实际分类列成如下的四格表3.1。表3.1 两总体回判结果回判情况实际归类合计其中，代表属于的样品被正确判归的个数；代表属于的样品被正确判归的个数；代表属于的样品被正确判归的个数；代表属于的样品被正确判归的个数。定义貌似误判率为回归中判错样品的比例，记为，即在一定程度上反映了某判别准则的误判率且对任何误判准则都易于计算。但是，是

14、由建立判别函数的数据反过来又用作评估准则优劣的数据而得到的，因此作为真实误判率的估计是有偏的，往往要比真实的误判率来的小。但作为误判概率的一种近似，当训练样本容量较大时，还是具有一定的参考价值。2.刀切法刀切法也称为Lachenbruch删除法或交差确认法（Cross-Validation）。其基本思想是每次剔除训练样本中的一个样本，利用其余容量为的训练样本建立判别准则（或判别函数），再用所建立的判别准则对删除的那个样本观测值作判断，对训练样本中的每个样本观测值重复上述步骤，以其误判的比例作为误判概率的估计。具体地说：（1）从总体的容量的训练样本开始，剔除其中的一个样本观测值，用剩余的容量为的训练样本和总体的容量为的训练样本建立判别函数；（2）用（1）中建立的判别函数对删除的那个样本观测值作判别；（3）重复步骤（1）和（2），直到的训练样本中的个样本观测值依次被删除和判别，用记误判的样本观测值个数；（4）对总体的训练样本重复步骤（1），（2）和（3），并用记误判的样本观测值个数。则总的误判比例为可以证明它是实际误判概率的渐近无偏估计。刀切法比貌似误判率法要更合理些，但缺点是计算量较大。在

展开阅读全文