SAS判别分析.doc－金锄头文库

资源描述

《SAS判别分析.doc》由会员分享，可在线阅读，更多相关《SAS判别分析.doc（6页珍藏版）》请在金锄头文库上搜索。

1、课程：SAS判别分析部门：创新业务部-徐宝莲时间：2015/1/16内容概要：1、判别分析的简单介绍2、一般判别分析PROC DISCRIM3、典型判别分析PROC CANDISC4、逐步判别分析PROC STEPDISC1、判别分析的简单介绍判别分析是一种应用性很强的统计方法。它通常是根据已有的数据资料，来建立一种判别方法，然后再来判断一个新的样品归属哪一类。判别分析的SAS过程所处理的数据集要求具有一个分类变量和若干个数值型变量。SAS中进行判别分析的具体目标可以分为以下三条：建立判别函数，以便用来判别某一新的观测值的所属类别；寻找一组数值型变量的线性组合，使得其能够很好地反映各类

2、别之间的差别；筛选出某些能反映类别间差别的变量。2、一般判别分析PROC DISCRIM2.1距离判别法距离判别法是通过计算距离函数来进行判别，即样品与哪个总体之间的距离最近，则判断它属于哪个总体。如何衡量样品与总体间的这种抽象的距离？我们一般利用马氏距离来描述。对于两总体的情形，设G1和G2是两个P维总体，样品X到G1的距离为d2(X,G1),样品X到G2的距离为d2(X,G2)，则我们按照下面的准则对样本X进行判别归类：1) 若d2X,G1d2(X,G2),则判定X属于G2；3) 若d2X,G1=d2(X,G2)，则X有待于进一步判定。 2.2Bayes判别法Bayes判别法是基于Baye

3、s统计的思想，即假定事先对所研究的对象有一定的了解，并通过先验概率分布来进行描述，当抽取样本后，用样本来修正先验概率分布，并得到后验概率分布，然后根据后验概率分布进行各种统计推断。Bayes判别法首先计算给定样品属于各个总体的条件概率，然后比较这些概率值的大小，将样品判归于条件概率最大的总体。PROC DISCRIM DATA=数据集名；CLASS变量名列表；PRIORS概率值；BY 分组变量名；RUN;语句说明：1）PROC DISCRIM 语句用来调用DISCRIM 过程。DATA：此选项用于指定输入的“训练数据集”，即已知类别的若干样品所组成的数据集，一般的数据集和特殊类型的数据集均可以

4、;TESTDATA：指定用于进行判别分析的检验数据集。METHOD:指定判别分析方法，可以设置为“method=normal”（参数法）或者“method=npar”（非参数法）。POOL：说明按各个总体协方差相等与否的模型进行计算。当”POOL=YES”时，指定总体协方差矩阵相同，计算协方差矩阵估计值；当”POOL=NO”时，指定总体协方差矩阵不同，计算协方差矩阵估计值。2）CLASS语句是DISCRIM过程中所必须的一条语句，用于说明分类变量，该分类变量的值用于决定每条观测属性的类别。3）PRIORS语句是用来指定各类别的先验概率。有三种先验概率设定方式的语句格式。格式一：priors e

5、qual，表示设定的各类别先验概率相等。格式二：priors proportional，表示设定的各类别先验概率等于训练样本中各类别所占得比例。格式三：priors “1”=0.2 “2”=0.6 “3”=0.2;或者 priors a=0.2 b=0.3 c=0.4 d=0.1.空格为区分符，前面的语句说明分类变量取1,2,3的类的先验概率是0.2,0.6,0.2；后面语句说明分类变量取a,b,c,d类的先验概率为0.2,0.3,0.4,0.1.此种方法适合自定义各个类别的先验概率。当使用PRIORS语句时，DISCRIM过程计算样品属于某一类的后验概率，同时给出判别函数。当“POOL=Y

6、ES”时，判别函数是线性函数；当”POOL=NO”时，判别函数是二次函数。实例演练：某市气象站测得了半个月以内的空气质量数据，并评定了相应的空气质量等级，见下表：空气中悬浮颗粒物二氧化硫氮氧化物空气质量等级0.2080.0510.06420.1960.0920.05720.2890.2060.06830.2990.1870.08230.2770.090.0722根据上表建立判别分析准则，并判定下表三天的空气质量等级：空气中悬浮颗粒物二氧化硫氮氧化物0.2540.1840.0710.2430.0540.0320.1850.1020.0573典型判别分析PROC CANDISC3.1Fisher判

7、别法典型判别分析采用了与主成分分析和典型相关分析类似的降维技术，以找到能最概括类别区分的变量的线性组合。降维时要求同一类中的区别尽可能小，而不同类之间的区别尽可能大。Fisher判别是利用方差分析的思想，从各总体中抽取P维的训练样本来构造一个判别函数：UX=a1x+a2x+apx=aX称为Fisher判别函数或典型判别函数。其中，系数a=(a1,a2,ap)的确定原则是使得同一总体中的离差最小，而不同总体间的离差最大。 PROC CANDISC DATA=数据集名； CLASS分类变量名； VAR变量名列表； BY分组变量名； RUN;实例演练：医院根据病人的多项病理指标来确定当前是否适合进行

8、手术治疗。下表1给出了一组病理指标数据以及对是否适合手术的判断，其中0表示不符合手术条件，1表示符合手术条件，2表示有待于进一步住院观察，试进行典型判别分析，并对下表2中的数据做判别归类。表1病人手术治疗前的病理指标数据指标1指标2指标3指标4是否符合手术条件18.248.363.769.5214.5816.256.177.7218.0412.167.032.36014.4812.4310.2326.61214.6712.325.743.48012.9212.975.536.922表2待判定是否符合手术条件的数据指标1指标2指标3指标418.1612.1420.6311.0225.713.1

9、411.5737.6711.1817.088.3523.5217.8211.176.618.6618.48.572.9118.324、逐步判别分析PROC STEPDISC逐步判别分析考察了P维指标（即p个变量）对总体的区分能力是否显著，对判别分类不起作用的变量则予以删除，优化了判别的效果。逐步判别的基本思想：在建立判别函数时逐个引入变量，每一步选择都一个判别能力最显著的变量进入判别函数，同时对已有的变量也进行检验，将不显著的变量剔除。直到在可选的变量中，既没有变量被选入也没有变量被删除为止。这样在最后得到的判别函数中，所有变量都是显著的。通过使用逐步判别法，提高了判别样品的能力，也增强了判

10、别函数的稳定性。PROC STEPDISC DATA=数据集名；CLASS分类变量名；VAR变量名列表；BY分组变量；RUN;实例演练：在某矿区采了15块岩石标本，其中7块含矿，8块不含矿，经过分析，每块岩石标本中各种相关元素的含量如表1所示，表中在类型一栏中0表示该岩石不含矿，1表示该岩石含矿。试根据利用逐步判别法建立判别函数，并对表2中的新采的岩石标本进行分类。表1 已知类型的岩石标本铜铁银钙铝铋类型2.7218.550.6610.426.590.8812.6724.711.336.185.611.0213.717.711.2111.217.07112.9723.131.348.724.9

11、30.7313.4516.491.166.198.80.7512.8818.191.2911.569.951.1112.7520.861.7112.763.530.3212.248.811.8312.286.070.9802.179.931.929.134.771.1502.099.011.7710.465.471.2302.118.81.5812.746.880.8402.0714.821.56.976.641.8302.8710.551.4613.096.871.1102.318.11.98.948.421.6501.8612.381.916.617.421.290表2未知类型的岩石标本铜铁银钙铝铋3.7416.291.016.468.910.813.1614.251.2711.519.951.322.318.521.997.786.171.16

展开阅读全文