第5章 判别分析

上传人:aa****6 文档编号:56703226 上传时间:2018-10-15 格式:PPT 页数:175 大小:3.90MB
返回 下载 相关 举报
第5章 判别分析_第1页
第1页 / 共175页
第5章 判别分析_第2页
第2页 / 共175页
第5章 判别分析_第3页
第3页 / 共175页
第5章 判别分析_第4页
第4页 / 共175页
第5章 判别分析_第5页
第5页 / 共175页
点击查看更多>>
资源描述

《第5章 判别分析》由会员分享,可在线阅读,更多相关《第5章 判别分析(175页珍藏版)》请在金锄头文库上搜索。

1、1,判别分析,南通大学理学院,2,判别分析的基本思想及意义,若研究对象用某种方法已划分为若干类型。当得到一个新的样品数据(通常是多元的),要确定该样品属于已知类型中哪一类,这类问题属于判别分析。 质量等级天气预报地质勘探矿物类型营销数据金融市场风险医学诊断等,3,判别分析的基本思想及意义,设有 个总体 ,它们都是 元总体,其数量指标是设总体 的分布函数是 通常是连续型总体,即 具有概率密度对于任一新样品数据要判断它来自哪一个总体 。,4,判别分析的基本思想及意义,通常各个总体 的分布是未知的,由从各个总体取得的样本(训练样本)来估计。一般,先估计各个总体的均值向量与协方差矩阵。 从统计学的角度

2、,要求判别准则在某种准则下是最优的,例如错判的概率最小等。 根据不同的判别准则,有不同的判别方法,这里主要介绍距离判别和Bayes判别。,5,两个总体的距离判别,对于 元空间中的两个点:最常见的是欧氏距离,其平方和距离是而欧氏距离是,6,例:已知有两个类G1和G2,比如G1是设备A生产 的产品,G2是设备B生产的同类产品。设备A的 产品质量高(如考察指标为耐磨度X),其平均 耐磨度80,反映设备精度的方差为0.25;设备B 平均耐磨度75,反映设备精度的方差为4;今有 一新产品 X0 ,测得平均耐磨度78,试判断该产 品是哪台设备生产的?,7,两个总体的距离判别,设有两个一元总体 与 。有一个

3、样品,其值在A处。问:A点离哪个总体较“近”?从绝对长度来看,从统计学的观点看,,8,两个总体的距离判别,因此,对一元总体,样本点 距一元正态总体 的马氏平方距离是即使总体非正态,而其均值为 ,标准差为 ,其马氏平方距离也可用上式度量。推广到多元总体的情况,马氏距离应该如下定义:定义(1)设 是从均值向量为 、协方差矩阵为 的总体 中抽取的两个样品,则 两点之间的马氏平方距离是,9,两个总体的距离判别,又定义 与总体 的马氏平方距离是(2)设有两总体 和 , 的均值向量是 ,的均值向量是 ,又 , 的协方差矩阵相等,皆为 ,则总体 , 间马氏平方距离是,10,两个总体的距离判别,设 是从均值向

4、量为 、协方差矩阵为 抽取的两个样品, 和 之间的马氏距离是至总体 的马氏距离是,11,两个总体的距离判别,马氏距离满足距离的三条基本性质:设 是来自总体 的三个样品,则,12,两个总体的距离判别,设 , 为两个不同的 元已知总体, 的均值向量是 , , 的协方差矩阵是 , 。设是一个待判样品,距离判别准则为即当 到 的马氏距离不超过到 的马氏距离时,判 来自 ;反之,判 来自 。,13,两个总体的距离判别,两个总体协方差矩阵相等的情况考虑样品 到两总体的马氏距离的平方差:,14,两个总体的距离判别,两个总体协方差矩阵相等的情况记则因此,距离判别法则化为,15,两个总体的距离判别,两个总体协方

5、差矩阵相等的情况皆是 的线性函数。因此,当 时,两总体的距离判别简化为线性判别, 称为线性判别函数。我们将这种情况进一步简化为,16,两个总体的距离判别,两个总体协方差矩阵相等的情况其中 ,即 是两总体均值向量的平均。记其中 ,则距离判别更简化为其中 也是线性判别函数。,17,两个总体的距离判别,两个总体协方差矩阵相等的情况 在实际问题中, 及 通常都是未知的,数据资料是来自两个总体的训练样本。设 是来自总体 的训练样本,容量为 ; 是来自总体 的训练样本,容量为 ;每个样品皆是 元向量。,18,两个总体的距离判别,两个总体协方差矩阵相等的情况要以训练样本估计 及 。 的估计是各训练样本的均值

6、向量,即又两个训练样本的协方差矩阵各为,19,两个总体的距离判别,两个总体协方差矩阵相等的情况当 时, 的一个无偏估计是这样,线性判别函数 和 的估计各为,20,两个总体的距离判别,两个总体协方差矩阵相等的情况这样,两个总体的距离判别法则为,21,两个总体的距离判别,两个总体协方差矩阵不等的情况:这时,可令按下列判别法则:其中 分别是样品 到两个总体 的马氏平方距离,它们皆是 的二次函数,称为二次判别函数。,22,两个总体的距离判别,两个总体协方差矩阵不等的情况:实际问题中, , 往往未知,他们可用各总体的训练样本作估计,即分别以 估计 分别以 估计 ,得 的估计分别为判别法则为,23,判别准

7、则的评价,当一个判别准则提出以后,还要研究其优良性。考察一个判别准则的优良性,要考察误判概率,即考察 属于 而误判为属于 ,或 属于 而误判为属于 的概率。 首先,介绍以训练样本为基础用回代法估计误判率的方法: 1)误差率回代估计法;2)误判率的交叉确认估计法;,24,判别准则的评价,误差率回代估计法设 为两个总体, 与 是分别来自 的训练样本,其容量分别是 与 。以全体训练样本作为 个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。结果如表:,25,判别准则的评价,误差率回代估计法其中 是将属于 的样品误判为 的个数, 是将属于 的样品误判为 的个数,总的错误个数是 ,而两总

8、体训练样品的总数是 ,误判率的回代估计为注: 是由训练样本建立的判别函数反过来判别样品而得到的,因此 往往比真实误判率小。当训练样本容量较大时, 可以作为真实误判率的一种估计。,26,判别准则的评价,误判率的交叉确认估计 基本思想:每次剔除训练样本中的一个样品,利用其余容量为 的训练样本建立判别准则,再用所建立的判别准则对删除的那个样品作判别。对训练样本中的每个样品作上述分析,以其误判的比例作为误判概率的估计。,27,判别准则的评价,误判率的交叉确认估计 具体步骤:1)从总体 的容量为 的训练样本开始,剔除其中的一个样品,用剩余的容量为 的训练样本和总体 的容量为 的训练样本建立判别函数;2)

9、用建立的判别函数对删除的那个样品作判别;3)重复步骤1),2),直到 的训练样本中的 个样品依次被删除,又进行判别。其误判样品个数记为 。,28,判别准则的评价,4)对总体 的训练样本重复前三个步骤,并记其误判样品个数为 ,以作为误判率的估计。,29,例 5.1 为研究心肌梗塞的危险因素,考察两组人群,第一组G1是心肌梗塞组,第二组G2是正常组,考察2个血液指标:x1(总胆固醇);x2(高密度脂蛋白胆固醇)。两组人群各取23名,测得指标x1和x2的取值如表所示。在两总体协方差阵相等的假定下,建立距离判别准则,并对其中5个待判样品作判别。,30,G1 245 38 G1 236 40 G1 23

10、8 38 G1 233 31 G1 240 35 G1 235 40 G1 204 38 G1 200 43 G1 297 38 G1 200 43 G1 166 33 G1 144 28 G1 233 42 G1 143 24 G1 228 34 G1 264 41 G1 240 33 G1 180 27 G1 236 38 G1 168 36 G1 174 28 G1 215 38 G1 268 28 G2 174 47 G2 106 52 G2 173 53 G2 178 43 G2 198 53 G2 180 48 G2 134 36 G2 204 63 G2 168 52 G2 18

11、0 59 G2 177 75 G2 172 51 G2 166 40 G2 210 42 G2 166 33 G2 223 73 G2 136 67 G2 156 45 G2 201 45 G2 134 60 G2 195 51 G2 262 62 G2 183 44213 22 285 39 193 42 200 58 171 52,31,data examp5_1; input group $ x1 x2; cards; G1 245 38 G1 268 28 G2 174 47 G2 183 44 ; run;data test5_1; input x1 x2; cards; 213 2

12、2 171 52 ; run;,例5.1,建立训练样本,建立待测样本,32,proc discrim data=examp5_1testdata=test5_1 pool=yes method=normal listerr crosslisterr testlist wcov pcov; class group; var x1 x2; priors equal; run;,各总体的方差相等,回判中判错的样品信息,交叉确认法判错的样品信息,各总体的先验概率相等,给出待测数据集各样品的判别结果,33,34,35,36,37,38,39,40,41,42,PROC DISCRIM,PROC DISC

13、RIM options;CLASS variable;VAR variables;PRIORS probabilities;TESTCLASS variable;,43,PROC DISCRIM,PROC DISCRIM options;此语句中,“options”部分可包含下列内容:1)待分析的数据集选择:DATASAS data set:指定用以建立判别函数的SAS数据集(即训练样本数据集)。TESTDATA SAS data set:指定用以检验判别准则的SAS数据集名称。除分类变量外,改数据集中的变量应和训练样本数据集中的变量一致。,44,PROC DISCRIM,PROC DISCR

14、IM options;此语句中,“options”部分可包含下列内容:2)输出数据集的选择:OUTSTATSAS data set:定义一个输出SAS数据集名称,该数据集包括原训练样本集中各变量的均值、标准差及相关系数等。若METHODMORMAL被使用,该数据集中还包括判别函数的系数;OUTSAS data set:命名一个输出SAS数据集,其中包括训练样本集的数据及变量、后验概率以及回判结果;,45,PROC DISCRIM,PROC DISCRIM options;此语句中,“options”部分可包含下列内容:2)输出数据集的选择:OUTCROSSSAS data set:定义一个输出的SAS数据集,其中包括训练样本数据及变量、后验概率以及由交叉确认法所得的回判结果等;TESTOUT=SAS data set:定义一个输出的SAS数据集,其中包括检验数据集中的变量和数据、后验概率以及利用所建立的判别准测对检验数据集的判别结果。此项当“options”中有“TESTDATA SAS data set”时运用。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 教育/培训/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号