判别分析专题.doc

上传人:小** 文档编号:89075931 上传时间:2019-05-17 格式:DOC 页数:19 大小:556.33KB
返回 下载 相关 举报
判别分析专题.doc_第1页
第1页 / 共19页
判别分析专题.doc_第2页
第2页 / 共19页
判别分析专题.doc_第3页
第3页 / 共19页
判别分析专题.doc_第4页
第4页 / 共19页
判别分析专题.doc_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《判别分析专题.doc》由会员分享,可在线阅读,更多相关《判别分析专题.doc(19页珍藏版)》请在金锄头文库上搜索。

1、判别分析专题5.1 引言有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。在科学研究和日常生活中,我们经常会遇到对观测到的样品数据进行判别分类的问题。例如,在经济学中,可根据各国的人均国民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的所属类型;在人口学中,可根据平均预期寿命、经济水平和婴儿死亡率等

2、因素来判定这个地区人口死亡水平的所属类型;在医学上,经常要根据患者的不同症状和化验结果等多项指标来诊断其患病类型;在气象学中,要根据最近的一些气象资料来判断明天是否会下雨;等等。所有这些问题一般都可以应用统计学中的判别分析方法予以解决。由于判定一个样品的归属一般需要依据样品的多项指标,其统计推断及分析也是按这些指标来进行的,所以将判别分析放在多元分析中讨论是合适的。判别分析要解决的问题是在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。从概率统计的角度来看,判别分析问题可以归结为:设有个组(或总体),所有组的样品都测量了相同的个指标,可表示为一个维向量,这个

3、组的分布函数分别是,均为元分布函数,对于给定一个新样品,要求判断它属于哪一组。本章将介绍距离判别、贝叶斯(Bayes)判别和典型判别等几种常用的判别分析方法。5.2 距离判别一、马氏距离的概念通常情况下,我们所说的距离一般是指欧氏距离,即维欧氏空间中两点和之间的平方距离度量为(5.2.1)但是在统计学,特别是在多元分析中,有时用欧氏距离显得不太合适,下面我们用一个例子来说明之。设有两个正态总体,现有一个样品位于如图5.1所示的点,距总体的中心远,距总体的中心远,那么,点处的样品到底离哪一个总体近呢?若按欧氏距离来度量,点离总体要比离总体“近一些”。但是,从概率论的角度来看,点位于右侧的处,而位

4、于左侧处,应该认为点离总体“近一些”。显然,后一种度量更合理些。为此,我们引入一种由印度著名统计学家马哈拉诺比斯(Mahalanobis,1936年)提出的“马氏距离”的概念。设是从均值为,协方差矩阵为()的总体中抽取的两个样品(维),则总体内两点与之间的平方马氏距离定义为(5.2.2)定义点到总体的平方马氏距离为(5.2.3)二、两组距离判别设组和的均值分别为和,协方差矩阵分别为和(),是一个新样品(维),今欲判断它来自哪一组。1,一个直观的想法是计算新样品到两个组的平方马氏距离和,并按如下的判别规则进行判断(5.2.4)为简化上面的表述,考虑与之间的差,有备注:同理备注完毕。其中是两个组均

5、值的平均值,令(5.2.5)则则判别规则(5.2.4)式可表述为(5.2.6)称为两组距离判别的判别函数,由于它是的线性函数,故又称为线性判别函数,称为判别系数。使用判别函数进行判断,难免会发生错判。用表示来自,而误判为的概率;用表示来自,而误判为的概率,即,a. 假定和皆为正态组若和皆为正态组,则当,即时,令,于是(因为)从而有所以备注:备注完毕。同理若和皆为正态组,则当,即时所以令则从而其中表示标准正态分布的分布函数。故而两个误判概率相同,均为(5.2.7)在实际应用中,各组的均值和协方差矩阵一般都是未知的,可由样本均值和样本协方差矩阵分别估计。设是来自组的样本,是来自组的样本,和的一个无

6、偏估计分别为和的一个联合无偏估计为其中此时,两组距离判别的判别函数为(5.2.8)这里,。其判别规则为(5.2.9)b. 和不能假定皆为正态组若和不能假定为正态组,则可使用相互验证方法(称为比例法或刀切法)对误判率和作出估计。令和这里是中除去之后个观测向量的平均值,。设是使,成立的个数,则估计为。类似地,令和这里是中除去之后个观测向量的平均值,。设是使,成立的个数,则估计为。例5.2.1 设, 和的分布分别为和,均已知,则判别系数,判别函数为,判别规则为下面计算误判概率。由于所以,则来自的被误判为的概率和来自的被误判为的概率均是和的分布如图5.2所示,是右边的面积,是左边的面积。如果两个组很接

7、近,则两个误判概率都将很大。这时,作判别分析就没有多大的实际意义。2,采用作为判别规则的形式。另一种方式是,选择判别函数为(5.2.10)它是的二次函数,相应的判别规则为(5.2.11)在实际应用中,各组的均值和协方差矩阵一般都是未知的,可由样本均值和样本协方差矩阵分别估计。设是来自组的样本,是来自组的样本,和的一个无偏估计分别为和和可分别估计为和例5.2.2 在例5.2.1中,设和这两个组的方差不相同,分别为和,这时,故,当时,式中它是和的加权平均,其权数分别为与常称为阈值点。备注:如图5.3所示,当时,就化为例5.2.1中的。备注完毕。判别规则为三、多组距离判别1协方差矩阵相同设有个组,它

8、们的均值分别为,协方差矩阵均是,则其中,。因此,线性判别函数为,(5.2.12)相应的判别规则为,若(5.2.13)当,均未知时,可通过相应的样本值来代替。设是从组中抽取的一个样本(),则()和可估计为,和,其中,2协方差矩阵不同设有个组,它们的均值分别为,协方差矩阵分别为,且它们不全相同,则计算到各组的平方马氏距离,(5.2.14)判别规则为,若(5.2.15)当,未知时,()的估计同前,()的估计为,例5.2.3 对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目,这些训练项目(成绩)为:30米跑(),投掷小球(),挺举重量(),抛实心球(),前抛铅球(),五级跳(),全

9、部数据列于表5.1。现有14名未定级的运动员,需根据这六项训练项目成绩(列于表5.4)对它们进行分组。备注:新样品距离判别的计算结果列于表5.5。判别结果:有9名一级,5名健将级运动员。备注完毕。5.3贝叶斯(Bayes)判别设有个组,且,。又设样品来自组的先验概率为,满足。到的平方马氏距离是。备注:这里换了一种记法,原来记为。备注完毕。来自的的概率密度为(5.3.1)利用贝叶斯理论,属于的后验概率(即当样品已知时,它属于的概率)为,(5.3.2)到的广义平方距离定义为,(5.3.3)其中,由此可推出属于的后验概率为,(5.3.4)可采用如下的判别规则,若(5.3.5)它也可以等价地表达为,若

10、(5.3.6)如果,则广义平方距离将退化为上一节的平方马氏距离,即,这时,判别规则(5.3.6)式将等同于(5.2.13)式,即等同于,若(5.2.13)实际应用中,以上各式中的和()一般是未知的,需要通过样本进行估计,可用来估计。的估计可分两种情况:当时,可采用联合协方差矩阵进行估计;当不全相等时,可采用组内协方差矩阵分别进行估计。若对来自哪一组的先验信息一无所知,则可认为。例5.3.1 在例5.2.3中使用贝叶斯判别法。设先验概率,这时,因此,属于的后验概率为,备注:将53名定好级和14名未定级的运动员归属各组的后验概率分别列于表5.6和表5.7。判别结果完全等同于例5.2.3。备注完毕。

11、5.4 典型判别设有个样品来自组,共有个样品,每一个样品都可视为维欧氏空间中的一个点,所有个点由个不同的集合组成,第个集合(由组形成)含有个点。空间中的这些子集越是彼此分开,组之间的差异就越明显,样品来自哪一组也就越容易判断。当或2时,我们可以把所有的个点都画在坐标轴或坐标平面上,通过观测个点集合的位置,从直观上就可以直接对各组加以辨别。然而,在实际问题中,一般大于3,这样也就无法直接从直观的几何图形上区别各组。多元分析中有一个非常重要的思想方法,就是采用降维技术,把中的点通过适当方式投影到低维空间,即用低维向量近似地替代维向量,然后在低维空间上再进行组的辨别。样品在降维之后难免损失一部分信息

12、,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留绝大部分的有用信息,即关于能够反映组之间差异的信息。为便于理解,我们以下用一个简单的二维例子来加以说明。如图5.4所示,两个组的所有个体都测量了两个变量和,将所有点画于直角坐标系上,一个组的个体用“”表示,另一个组的个体用“”表示。假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图5.4中可见,如果两个组的点都投影到直线上,则这两组的投影点在该直线上的分布几乎无任何差异,它们完全混合在一起,我们无法将这两个点集合区别开来,这样的降维把反映两组间差异的

13、信息都给损失了,显然是不可取的。事实上,最好的投影是投影到直线上,因为它把两组的投影点很清楚地区分了开来,这种降维把有关两组差异的信息很好地保留了下来,几乎没有任何损失,如此再作判别分析就显得非常容易。我们现考虑将组的维数据投影到某个最佳方向(即一维表达式),为了数学上的方便,使用个数据分量的线性组合作为一维表达式。设来自组的维观测值为,将它们投影到某一共同方向,得到的投影点是线性组合,这里为一为常数向量,表示投影方向。这样,所有的维观测值就简化为一维观测值。下面我们用表示组中的均值,表示所有组的总平均值,即,如果我们想度量个组之间的系统差异程度,则一个合适的方法是采用一元方差分析的技术。的总

14、离差平方和式中的处理间离差平方和式中的组内离差平方和式中并有关系式、和所含有的自由度分别为、和。假定各组的真实方差相等,则可以对个组的真实组均值之间是否有显著差异进行检验。原假设是个真实组均值相等,检验统计量为当时,拒绝原假设。值越大,拒绝原假设的理由就越充分,可以认为各组真实组均值之间的差异也就越大。值的大小与有关,可看成是的函数,要使各组的差异程度尽可能地大,应选择这样的,以使值达到最大,也就是使(5.4.1)达到最大。使达到最大的并不唯一,因为若使得达到最大,则也使达到最大,其中为任意非零实数。由(1.8.2)式知,的最大值就是的最大特征值。将的全部非零特征值依次记为,它们都是特征方程(5.4.2)的根,相应的特征向量依次记为,满足方程,(5.4.3)备注:因为,所以,即,即备注完毕。因为,(5.4.4)所以,选择投影方向,能使得处理间离差平方和与组内离差平方和之比达到最大值。在上述讨论中,我们致力于

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号