(北大)第五章判别分析

上传人:tian****1990 文档编号:81713732 上传时间:2019-02-22 格式:PPT 页数:161 大小:2.60MB
返回 下载 相关 举报
(北大)第五章判别分析_第1页
第1页 / 共161页
(北大)第五章判别分析_第2页
第2页 / 共161页
(北大)第五章判别分析_第3页
第3页 / 共161页
(北大)第五章判别分析_第4页
第4页 / 共161页
(北大)第五章判别分析_第5页
第5页 / 共161页
点击查看更多>>
资源描述

《(北大)第五章判别分析》由会员分享,可在线阅读,更多相关《(北大)第五章判别分析(161页珍藏版)》请在金锄头文库上搜索。

1、1,应用多元统计分析,第五章 判 别 分 析,2,第五章 判别分析 目 录,5.1 距离判别 5.2 Bayes(贝叶斯)判别法及 广义平方距离判别法 5.3 Fisher(费歇)判别 5.4 判别效果的检验及 各变量判别能力的检验 5.5 逐步判别,3,第五章 判别分析 什么是判别分析,判别分析是用于判断样品所属类型的一种统计分析方法. 在生产、科研和日常生活中经常遇到如何根据观测到的数据资料对所研究的对象进行判别归类的问题. 例如:在医学诊断中,一个病人肺部有阴影,医生要判断他是肺结核、肺部良性肿瘤还是肺癌.这里肺结核病人、良性瘤病人、肺癌病人组成三个总体,病人来源于这三个总体之一,判别分

2、析的目的是通过测得病人的指标(阴影的大小,边缘是否光滑,体温多少)来判断他应该属哪个总体(即判断他生什么病).,4,第五章 判别分析 什么是判别分析,在气象学中,由气象资料判断明天是阴天还是晴天, 是有雨还是无雨. 在市场预测中,由调查资料判断下季度(或下个月)产品是畅销、平常或滞销. 股票持有者根据某种股票近期的变化情况判断此种股票价格下一周是上升还是下跌. 在环境科学中,由气象条件,污染浓度等判断该地区是属严重污染,一般污染还是无污染. 在地质勘探中,由岩石标本的多种特征判断地层的地质年代,是有矿还是无矿,是富矿还是贫矿. 在体育运动中,由运动员的多项运动指标来判定游泳运动员的“苗子“是适

3、合练蛙泳,仰泳还是自由泳等,5,第五章 判别分析 什么是判别分析,判别分析是应用性很强的一种多元统计方法, 已渗透到各个领域.但不管是哪个领域,判别分析问题 都可以这样描述: 设有k个m维总体G1,G2,Gk,其分布特征已知(如已知分布函数分别为F1(x),F2(x),Fk(x),或知道来自各个总体的训练样本).对给定的一个新样品X,我们要判断它来自哪个总体. 在进行判别归类时,由假设的前提,判别的依据及处理的手法不同,可得出不同判别方法.如距离判别,Bayes判别,Fisher判别或典型判别,逐步判别,序贯判别等. 本章介绍几个常用的判别方法.,6,第五章 5.1 距离判别法,距离判别的基本

4、思想是: 样品和哪个总体距离最近,就判它属哪个总体. 距离判别也称为直观判别法. 我们在具体讨论距离判别法之前,应给出合理的距离的定义.,9,第五章 5.1 距离判别法 马氏距离,设备B生产的产品质量较分散,出现x0为78的可能性仍较大; 而设备A生产的产品质量较集中,出现x0为78的可能性较小. 判X0为设备B的产品更合理. 这种相对于分散性的距离就是本节介绍的马氏距离.,10,第五章 5.1 距离判别法 马氏距离,一般地,我们假设G1的分布为N(1),21),G2的分布为 N(2),22),则利用相对距离的定义,可以找出分界点*(不妨设 (2)(1),当(2)x(1)时,令,而按这种距离最

5、近的判别准则为:,11,第五章 5.1 距离判别法 利用马氏距离对两个一维正态总体判别归类示意图,利用马氏距离对两个一维正态总体判别归类 令:,(* =79为到两总体相 对距离相等的分界点),x0=78*=79 判x0G2.,12,第五章 5.1 距离判别法 马氏距离,定义5.1.1(马氏距离) 设总体G为m维总体(考察m个指标),均值向量为=(1,2 , ,m),协方差阵为=(ij),则样品X=(x1,x2,xm)与总体G的马氏距离定义为,13,第五章 5.1 距离判别法 多总体样本特征量,设有k个总体Gi(i=1,k),已知来自Gi (i=1,k) 的训练样本为:,其中ni是取自Gi的样品

6、个数,则均值向量i的估计量为,14,第五章 5.1 距离判别法 多总体样本特征量,总体Gi的协方差阵i的估计Si为,并称St为组内协差阵.,称为组内离差阵,15,第五章 5.1 距离判别法 多总体样本特征量,当假定1=k=时,反映分散性的协方差阵的估计S为,并称S为合并样本协差阵;,问题是对任给定的m维样品X=(x1,x2 ,xm ),要判断它来自哪个总体.,其中,16,第五章 5.1 距离判别法 两总体判别:1=2 时的判别方法,最直观的想法是分别计算样品X到两个总体的距离d21(X)和d22(X) (或记为d2(X,G1)和d2(X,G2) ), 并按距离最近准则判别归类,即判别准则为:

7、判X G1 , 当d2(X,G1) d2(X,G2)时, 待判, 当d2(X,G1) = d2(X,G2)时. 这里的距离指马氏距离.利用马氏距离的定义及两总体协差阵相等的假设,可以简化马氏距离的计算公式.,17,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法,对给定样品X,为比较X到各总体的马氏距离,只须计算Yi(X ) :,18,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法,Ci,因为函数Yi(X)是X的线性函数(i=1,2),故,19,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法,若考察这两个马氏距离之差,经计算可得:,20,第五章 5

8、.1 距离判别法 两总体判别: 1=2 时的判别方法,即,21,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法,则判别准则还可以写为: 判XG1, 当W(X)0时, 判XG2, 当W(X)0时 待判, 当W(X)=0时. W(X)是X的线性函数,即 W(X)=a(X-X*) =Y1(X)-Y2(X) , 其中a=S-1(X(1) - X(2) ), W(X)也称为线性判别函数,a为判别系数.,22,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法,W(X)把m维空间Rm划分为叁部分: D1=X:W(X)0, D2 =X:W(X)0, D0=X:W(X)=0. 则D

9、1 , D2 , D0 是Rm的一个划分. 显然,判别方法的最终结果是得到Rm中的一 个划分.由判别函数W(X)得到划分D1 , D2 , D0 当样品X落入D1 时判XG1, 当样品X落入D2时,判XG2 , 当样品X落入D0时, 待判,23,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法,例如m=2时,直线W(X)=0把平面分为两个区域 D1,和D2.,W(X)=0,D1=X =(x1 , x2 ) :W(X)0,D2 =X =(x1 , x2 ) :W(X)0,x1,x2,X=(x1 , x2 ),24,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法(m=

10、1),考察m=1的特殊情况,并设两总体为正态总体,其分布已知为N(1,2)和N(2,2)(两总体的方差相同,记为2 ),这时判别函数为,其中,不妨设12 ,则a为正数,W(x)的符号取决于 x或x.,25,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法(m=1时的错判率),用这种判别法会发生错判,如X来自G1,但却落入D2, 被判为属G2 .错判的概率为下图中阴影左半部分 的面积,并记为P(2|1).类似有P(1|2).,分界点=77.5,26,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法(m=1时的错判率),上例中,当1=80,2 =75,=2时 分界点 =

11、(80+75)/2=77.5,故错判概率为 P(2|1)= PX77.5|XG2 (XN(75,4) ) = P(X-75)/2(77.5-75)/2 = PU1.25 (U=(X-75)/2N(0,1) ) = 1-(1.25)= 0.1056=P(2|1),27,第五章 5.1 距离判别法 两总体判别: 1=2 时的判别方法(m=1时的错判率),一般地,经计算可得:,由错判概率的公式及上图可见, 当两总体均值靠得很近(即| 1 - 2 |很小)时,则错判概率很大,这时作判别分析是没有意义的.因此只有当两总体的均值有显著性差异时,作判别分析才有意义.,28,第五章 5.1 距离判别法 两总体

12、判别:简例1,简例1 :记二维正态总体N2(i), )为Gi(i=1,2)(两总体协差阵相同),已知来自Gi(i=1,2)的样本数据阵为,(1) 试求两总体的样本组内离差阵A1, A2和合并样本协差阵S. (2) 今有样品x0 =(2,8),试问按马氏距离准则样品x0应判归哪一类.,29,第五章 5.1 距离判别法 两总体判别:简例1,(1)解:,30,第五章 5.1 距离判别法 两总体判别:简例1,而且,31,第五章 5.1 距离判别法 两总体判别:简例1,(2)解一:计算马氏距离,32,第五章 5.1 距离判别法 两总体判别:简例1,(2)解二:计算线性判别函数Yi(X)(i=1,2),3

13、3,第五章 5.1 距离判别法 两总体判别:简例1,34,第五章 5.1 距离判别法 两总体判别:简例1,(2)解三:计算线性判别函数W(X),35,第五章 5.1 距离判别法 两总体判别: 12 时的判别方法,当两总体协差阵不等时,按距离判别准则先分别计算X到两个总体的距离d2(X,G1)和d2(X,G2),然后按距离最近准则判别归类.或者类似地计算判别函数W(X),并用于判别归类. 令 W(X)=d2(X,G2) - d2(X,G1)=Z(X)-Z0, 其中Z(X)为X的二次函数(因12 ),Z0是一常数 (具体表达式省略了).判别准则仍可以写为: 判XG1, 当W(X)0时, 或者 判X

14、G2, 当W(X)0时, 待判, 当W(X)=0时. 判XG2, 当W(X)0时.,36,第五章 5.1 距离判别法 两总体判别: 12 时的判别方法,当m=1,两总体为正态总体时,记Gi的均值为i,方差为2i (i=1,2),这时马氏距离的平方根为,37,第五章 5.1 距离判别法 两总体判别: 12 时的判别方法,分界点*把区间(2,1)分为两部分: D1=1 x * 和 D2=2 x*时, 判XG2, 当1 x*时,38,第五章 5.1 距离判别法 应用例子,例5.1.1(盐泉含钾性判别) 某地区经勘探证明A盆地是一个钾盐矿区,B盆地是一个钠盐矿区,其他盐盆地是否含钾盐有待作出判断.今从

15、A,B两盆地各抽取5个盐泉样品;从其他盆地抽得8个盐泉样品, 18个盐泉的特征数值见表5.1.试对后8个待判盐泉进行含钾性判别.,39,第五章 5.1 距离判别法 应用例子,40,第五章 5.1 距离判别法 应用例子,解一 A盆地和B盆地看作两个不同的总体,并假定两总体协差阵相等.本例中变量个数m=4, 两类总体各有5个训练样品(n1= n2=5),另有8个待判样品. 用SAS/STAT软件中的DISCRIM过程进行判别归类. (1)首先用DATA步生成SAS数据集D511. SAS程序如下:,41,第五章 5.1 距离判别法 应用例子的sas程序,data d511; input x1-x4 group $; cards; 13.85 2.79 7.80 49.60 A 2.18 1.06 1.22 20.60 B 8.85 3.38 5.17 26

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号