实验十 距离判别.doc

上传人:枫** 文档编号:561505182 上传时间:2022-12-18 格式:DOC 页数:20 大小:508.51KB
返回 下载 相关 举报
实验十 距离判别.doc_第1页
第1页 / 共20页
实验十 距离判别.doc_第2页
第2页 / 共20页
实验十 距离判别.doc_第3页
第3页 / 共20页
实验十 距离判别.doc_第4页
第4页 / 共20页
实验十 距离判别.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《实验十 距离判别.doc》由会员分享,可在线阅读,更多相关《实验十 距离判别.doc(20页珍藏版)》请在金锄头文库上搜索。

1、课时授课计划课次序号: 24 一、课题:实验十 距离判别 二、课型:上机实验三、目的要求:1. 掌握利用判别分析的SAS过程进行距离判别分析,解决有关实际问题;四、教学重点:利用判别分析的SAS过程解决实际问题.五、教学方法及手段:上机实验六、参考资料:应用多元统计分析,高惠璇编,北京大学出版社,2005;使用统计方法与SAS系统,高惠璇编,北京大学出版社,2001;多元统计分析(二版),何晓群编,中国人民大学出版社,2008;应用回归分析(二版),何晓群编,中国人民大学出版社,2007;统计建模与R软件,薛毅编著,清华大学出版社,2007.七、作业:1.写出几种距离公式,两总体距离判别准则;

2、2.书上5.3 八、授课记录:授课日期 班次九、授课效果分析:实验十 距离判别 2学时一、实验目的和要求 掌握Bayes判别分析的理论与方法、模型的建立与误差率估计,掌握利用判别分析的SAS过程解决有关实际问题二、实验内容 1. 判别分析的SAS过程PROC DISCRIM过程基本语句形式:PROC DISCRIM ; CLASS 变量名称; /* 指定描述各总体类别变量的名称 */VAR 变量名称 /*指定参与分析的描述各样品特征的变量名称,建立关于此变量子集的判别函数式*/PRIORS probabilities; /* 指出先验概率相等、按比例分配或指定概率 */RUN;PROC DIS

3、CRIM 中的选项:(1)待分析的数据集选项 l data=数据集名指定用以建立判别函数的SAS数据集(即训练样本集)l testdata=数据集名指定用以检验判别准则的SAS数据集该数据集中定量变量的名字必须与data指定训练样本数据集中变量一致(2)输出数据集选项 l outstat=数据集名生成一个输出SAS数据集,包含原训练样本集各变量均值,标准偏差和相关系数等若methodnormal被使用,该数据集还包括线性判别函数的系数l out=数据集名生成一个输出SAS数据集,包括来自data指定训练样本集的所有数据及变量、后验概率及回判结果l outcross=数据集名生成一个输出SAS数

4、据集,包括来自data指定的训练样本集的变量及数据,由交叉确认法得的样品的后验概率和判别结果l testout=数据集名生成一个输出SAS数据集包含来自testdata指定的检验数据集的变量和数据,以及所建立的判别准则对检验数据集各样品求得的后验概率及判别结果(3)判别分析方法选项l methodnormal | npar指定建立判别函数的方法,默认值为method= normal当指定method= normal时,各总体服从多元正态分布,并导出线性或二次判别函数;当指定method=npar时,采用非参数方法l pool= yes(或no,test)确定平方距离的度量,默认值为pool=

5、yes当pool= yes时,协方差矩阵相等采用联合协方差阵,判别函数为线性;当poolno时,协方差矩阵不等,采用单个组内协方差阵判别函数为二次函数;当method= normal时,pool=test要求利用修正的Bartlett似然比方法检验总体协方差矩阵是否相等l slpool= p指定检验各总体协方差矩阵是否相等的显著水平只当pool=test指定时才选择slpool=选项默认显著水平为0.10(4)回判结果输出选项l list打印出每个样品的回判结果l listerrlisterr仅仅输出回判中判错的样品信息l noclassify不需要对训练样本数据做回判分析(5)交叉确认法回判

6、结果输出选项l crosslist打印出每个样品的交叉确认法回判分析结果l crosslisterr仅仅输出交叉确认法回判中判错的样品信息l crossvalidate要求对训练样本数据做交叉确认回判分析(6)检验数据集判别结果的输出选项l testlist列出对检验数据集各样品的判别结果l testlisterr仅列出对检验数据集判错的样品信息(7)控制打印选项l wcorr (或wcov)打印各总体(组内)的训练样本相关系数(或协方差)矩阵l pcorr (或pcov)打印联合相关系数(或协方差)矩阵l all打印出所有的相关结果l short只打印一些主要结果priors语句选项:pri

7、ors probabilities指定先验概率,它有3种指定方法l priors equal表示各总体先验概率相等,缺省值;l priors proportional表示各类先验概率等于各总体训练样本频率;l 指定各总体的先验概率如priors A=p1 B=p2 C=p3;其中A、B和C是总体类别的取值,p1、p2和p3是先验概率,p1+p2+p3=12.多个总体的距离判别分析(1)马氏距离的定义总体,均值向量, 协方差矩阵,来自 的马氏平方距离与的马氏平方距离总体,均值向量, 协方差矩阵总体的马氏距离(2)距离判别准则个总体,均值向量,协方差矩阵待判样品, 判别函数为样品到各总体的马氏平方

8、距离多总体距离判别准则 则判定同样可用训练样本值估计,得到二次判别函数的估计为1) 总体协方差矩阵相等:l 总体距离判别准则 距离判别准则为:若总体满足: , 判定l 利用样本数据的距离判别准则均值向量及公共协方差矩阵,分别用训练样本估计代替 距离判别准则为:, 判定其中,线性判别函数的估计为 l 特别:重点掌握两总体情形 ,距离判别准则为其中 ,皆为的线性判别函数,简单易求 设和来自总体的训练样本,以, 分别代替,即可得线性判别函数的估计和判别准则这里 , (3)误判率的估计设来自两总体()误判率的回判估计 误判率的交叉确认估计特别两总体情形 3.举例例5.1 为研究心肌梗塞的危险因素,考查

9、两组人群,:心肌梗塞组;:正常组考察2个血液指标:总胆固醇;:高密度脂蛋白胆固醇两组各取名,测得指标和的取值如表5.1.假设总体方差相等,建立距离判别准则,并对其中的5个待判样品作判别解 (1)假设下,建立判别函数及判别准则判别准则为(2)SAS系统判别分析的 proc discrim过程,程序如下data examp5_1; /* 建立训练样本集 */input group $ x1 x2; /* 输入总体(二维)、数量指标x1 x2 */cards;G1 245 38G1 236 40G1 238 38G1 233 31G1 240 35G1 235 40G1 204 38G1 200 4

10、3G1 297 38G1 200 43G1 166 33G1 144 28G1 233 42G1 143 24G1 228 34G1 264 41G1 240 33G1 180 27G1 236 38G1 168 36G1 174 28G1 215 38G1 268 28G2 174 47G2 106 52G2 173 53G2 178 43G2 198 53G2 180 48G2 134 36G2 204 63G2 168 52G2 180 59G2 177 75G2 172 51G2 166 40G2 210 42G2 166 33G2 223 73G2 136 67G2 156 45G2

11、 201 45G2 134 60G2 195 51G2 262 62G2 183 44;run;data test5_1; /* 建立检验样本集(变量应和训练样本集一致) */input x1 x2;cards;213 22285 39193 42200 58171 52;run;/* 调用判别分析的discrim过程,data=examp5_1训练样本集,testdata=test5_1检验样本集,pool=yes假定各总体的协方差矩阵相等method=normal在各总体为正态分布的假定下通过利用训练样本估计各总体均值向量和协方差矩阵,listerr仅打印回判中判错样品信息,crossli

12、sterr对训练样本数据进行交叉确认回判分析Testlist列出对检验数据集各样品的判别结果,wcov、 pcov 打印examp5_1 和test5_1集对应的训练样本协方差矩阵估计 */proc discrim data=examp5_1 testdata=test5_1 pool=yes method=normal listerrcrosslisterr testlist wcov pcov;class group; /* 分类变量group */var x1 x2; /* 参与分析的变量x1 x2 */priors equal; /* 总体的先验概率相等 */run;(3)计算样本协方

13、差矩阵SAS 系统 10:24 Sunday, November 2, 2008 19 The DISCRIM Procedure 过程 总样本数 Observations 46 总自由度 DF Total n-1=45 变量数 Variables 2 类内自由度 DF Within Classes 44 类别数 Classes 2 类间自由度 DF Between Classes k-1=1 Class Level Information (分类水平信息) Variable Prior group Name Frequency Weight Proportion Probability 总体 变量名称 每个总体频数 每个总体权重 总体样品数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号