环境判别分析课件－金锄头文库

资源描述

《环境判别分析课件》由会员分享，可在线阅读，更多相关《环境判别分析课件（75页珍藏版）》请在金锄头文库上搜索。

1、第9章环境判别分析,9.1 引言 9.2 距离判别 9.3 贝叶斯判别 9.4 费希尔判别 9.5 判别分析的SPSS实现 9.6 环境应用,9.1 引言,有一些昆虫的性别很难看出，只有通过解剖才能够判别；但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并且利用这个标准来判别其他未知性别的昆虫。,这样的判别虽然不能保证百分之百准确，但至少大部分判别都是对的，而且用不着杀死昆虫来进行判别了。体表特征（度量）雌雄这就是本章要讲的是判别分析(discriminant analysis)。,判别分析

2、和前面的聚类分析有什么不同呢？,主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。而在判别分析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。,9.2 距离判别,一、两组（总体）距离判别二、多组（总体）距离判别,一、两组（总体）距离判别,设组和的均值分别为和，协差阵分别为和，是一个新样品( 维)，现欲判断它来自哪一组。 1. 时的判别 2. 时的判别协方差矩阵是一个矩阵，其每个元素是各个向量元素之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

3、 http:/zh.wikipedia.org/zh-cn/%E5%8D%8F%E6%96%B9%E5%B7%AE%E7%9F%A9%E9%98%B5,1. 时的判别,判别规则：令，其中，，则上述判别规则可简化为称为两组距离判别的判别函数，由于它是的线性函数，故又可称为线性判别函数，称为判别系数。,误判概率,误判概率正态组的误判概率设，则其中是两组之间的马氏距离。,从上述误判概率的公式中可以看出，两个正态组越是分开（即越大），两个误判概率就越小，此时的判别效果也就越佳。当两个正态组很接近时，两个误判概率都将很大，这时作判别分析就没有什么实际意义。,界定组之间是否已过于

4、接近,我们可对假设进行检验，若检验接受原假设，则说明两组均值之间无显著差异，此时作判别分析一般会是徒劳的；若检验拒绝，则两组均值之间虽然存在显著差异，但这种差异对进行有效的判别分析未必足够大（即此时作判别分析未必有实际意义），故此时还应看误判概率是否超过了一个合理的水平。,作判别分析的前提,2. 时的判别,判别函数：,它是的二次函数，相应的判别规则为,二、多组距离判别,设个组，它们的均值分别是协方差矩阵分别为，到总体的平方马氏距离为,判别规则为,9.3 贝叶斯判别,一、最大后验概率准则二、最小平均误判代价准则,一、最大后验概率准则,设有个组，且组的概率密度为

5、，样品来自组的先验概率为，满足。则属于的后验概率为最大后验概率准则是采用如下的判别规则：,二、最小平均误判代价准则,最小平均误判代价准则 Gi (i =1,2,L, k) ，Gi 具有概率密度函数 fi (x) 。并且根据以往的统计分析，知道 G 出现的概率为 qi 。 q1 + L + qk = 1 （先验概率）,设有总体 D1，D2，Dk是R(p)的一个分值。判别法则为：当样品X落入Di时，则判 X Di i = 1,2,3,L, k 。,9.4 费希尔判别,费希尔判别（或称典型判别）的基本思想是投影（或降维）：用p维向量的少数几个线性组合（称为判别式或典型变量） (一

6、般r明显小于p）来代替原始的p个变量，以达到降维的目的，并根据这r个判别式对样品的归属作出判别。成功的降维将使判别更为方便和有效，且可对前两个或前三个判别式作图，从直观的几何图形上区别各组。,9.5 判别分析的SPSS实现,判别分析是根据观察或测量到的若干变量值，判断研究对象如何分类的方法。,判别函数一般形式是： F1 = ai1x1+ai2 x 2+ai3 x3+ainxn F2 = ai1x1+ai2 x2+ai3 x3+ainxn : : Fm = am1x1+am2 x2+am3 x 3+amnxn,SPSS提供的判别分析过程是Discriminant（判别式）过程。,【例】浙江

7、北部地区19501974年小麦赤霉病发生程度与气象因子研究，总结出上年12月降雨量（x1）、上年10月下旬至11月中旬和当年12月总降雨（x2）、上年10月下旬至11月上旬日照时数（x3）、上年10月下旬至12月中旬和当年2月总雨量（x4）以及当年3月中旬平均温度（x5）等5个因子，并将赤霉病情分为轻中重三级（y，分别用1、2、3表示）。用这些数据建立气象因子与小麦赤霉病发生程度的判别模型。,1 准备分析数据,在SPSS数据管理窗口，定义变量名x1、x2、x3、x4、x5、y分别表示表中对应变量。然后输入对应的数据。或者打开已经建立的数据。,数据形式,2 启动判别过程,3 指定分析变量,1）

8、指定分类变量及其范围,1,3,3 指定分析变量,2）指定判别因子变量,3 指定分析变量,3）设置进入分析的控制变量,如果希望使用数据文件中的部分观测量进行判别函数的推导，用一个变量值来作为这些观测量的标识。将该变量选入到“Selection Variable”框中，再单击右侧的“Valve”按钮，展开“Set Value”对话框，键入标识值。在不做判别检验时，可以省略。,4 选择判别方法,建立全模型。当认为所有因子变量都能对观测量特性提供丰富的信息时使用该选择项。系统缺省选项。,进入判别模型的自变量根据对判别贡献的大小进行逐步选择。,4 设置分析方法,1）选择进入判别函数的方法,方法,标准,每

9、步都是Wilk的统计量最小的进入判别函数,每步都是使各类不可解释的方差和最小的变量进入判别函数,每步都使靠得最近的两类间的Mahalanobis距离最大的变量进入判别函数。,每步都使任何两类间的F值最大的变量进入判别函数。,每步都是使Raos V统计量产生最大增量的变量进入判别函数。,4 设置分析方法,2）选择选择逐步判别的标准,方法,标准,使用F值，是系统默认的判据，当加入一个变量(或剔除一个变量)后，对在判别函数中的变量进行方差分析。当计算的F值大于指定的Entry值时，该变量保留在函数中。默认值是Entry为3.84。当该变量计算的F值小于指定的Removal值时，该变量从函数中剔除

10、。默认值是Removal为2.71。即当被加入的变量F值3.84时才把该变量加入到模型中，否则变量不能进入模型；或者当要从模型中移出的变量F值2.7l时，该变量才被移出模型，否则模型中的变量不会被移出。设置这两个值时应该使Entry值大于Removal值。本例在“Entry”栏输入“3.0”，“Removal”栏输入“2.0”。,4 设置分析方法,3 指定分析变量,方法,标准,用F检验的概率决定变量是否加入函数或被剔除而不是用F值。加入变量的F值概率的默认值是0.05(5)；移出变量的F值概率是0.10(10)。Removal值(移出变量的F值概率)大于Entry值(加入变量的F值概率

11、)。,2）选择选择逐步判别的标准,3）设置显示内容,方法,标准,在逐步选择变量过程中的每一步之后显示每个变量的统计量。系统默认。,要求显示两类之间的F值矩阵,本例不需要显示，两项都不选择。,4 设置分析方法,3）设置显示内容,方法,标准,4 设置分析方法,4 指定分类参数和判别结果,4 指定分类参数和判别结果,若分为m类，则各类先验概率均为1/m。,各类的先验概率与其样本量成正比。本例选中此项。,1）选择先验概率,4 指定分类参数和判别结果,使用合并组内协方差矩阵进行分类。本例选中此项。,使用各组协方差矩阵进行分类。,2）选择分类使用的协方差矩阵,4 指定分类参数和判别结果,输出每个

12、观测量包括判别分数、实际类、预测类(根据判别函数求得的分类结果)和后验概率等。,3）设置输出中的分类结果,4 指定分类参数和判别结果,输出每个观测量包括判别分数、实际类、预测类(根据判别函数求得的分类结果)和后验概率等。,3）设置输出中的分类结果,输入观测量数n。选择此项则仅输出前n个观测量。观测数量大时可以选择此项。,4 指定分类参数和判别结果,3）设置输出中的分类结果,要求输出分类小结，给出正确分类观测量数和错分观测量数和错分率。本例选中此项。,输出对每个观测量进行分类的结果，,4 指定分类参数和判别结果,4）选择输出统计图,生成一幅包括各类的散点图。该散点图是根据前两个判别函数值作的

13、散点图。如果只有一个判别函数，就输出直方图。,生成散点图。共分为几类就生成几幅散点图。如果只有一个判别函数，就输出直方图。,生成用于根据函数值把观测量分到各组中去的边界图。此种统计图把一张图的平面划分出与类数相同的区域。每一类占据一个区。,4 指定分类参数和判别结果,5）缺失值处理方式,用该变量的均值代替缺失值。,4 指定分类参数和判别结果,5）缺失值处理方式,5 设置统计量输出,5 设置统计量输出,输出各类中自变量的均值、标准差和总样本的均值和标准差。本例选中此项。,1）输出描述统计量,对各个自变量进行均值假设检验，输出单变量的方差分析结果。,对各类的协方差矩阵相等的假设进行检验。,5 设

14、置统计量输出,可以直接用于对新样本进行判别分类的费雪系数。对每一类给出一组函数系数。并给出该组中判别分数最大的观测量。本例选中此项。,2）输出判别函数系数,未经标推化处理的判别函数系数。,5 设置统计量输出,输出类内相关矩阵。它是根据在计算相关矩阵之前将各类(组)协方差矩阵平均后计算类内相关矩阵。,3）输出自变量的系数矩阵,输出合并类内协方差矩阵，是将各组(类)协方差矩阵平均后计算的。,输出每类的协方差矩阵。,显示输出总样本的协方差矩阵。,5 设置统计量输出,3）输出自变量的系数矩阵,6 选择保存数据,6 选择保存数据,建立一个新变量，存储观测量被预测的分类值。是根据判别分数把观测量按后验

15、概率最大指派所属的类，每运行一次判别过程，就建立一个表明使用判别函数预测的各观测量属于哪一类的新变量。第一次运行建立新交量的变量名为“dis_1”，如果在工作数据文件中不把前一次建立的新变量删除第n次运行判别过程建立的新变量默认的变量名为“dis_n”。,建立存储判别分得数的新变量。该得分数是由未标准化的判别系数乘自变量的值，将这些乘积求和后加上常数得来。每次运行判别过程都给出一个存储判别分数的新变量。建立几个判别函数就有几个判别分数变量。参与分析的观侧量共分为m类，则建立“m-1”个典则判别函数，指定该选择项，就可以生成m-1个存储判别分数的新变量。例如原始数据观测量共分为3类，建立

16、两个典则判别函数。第一次运行判别过程建立的新变量名为disl_1、dis2_l，第二次运行判别过程建立的新变量名为disl_2、dls2_2依此类推。分别表示代入第一和第二个判别函数所得到的判别分数。,建立新变量存储观测量属于某一类的概率。有m类，对一个观测量就会给出m个概率值，因此建立m个新变量。例如原始和预测分类数是3，指定该选择项，在第一次运行判别过程后，给出的存储分类概率的新变量名为dis1_1、dis2_1、dis3_1。本例选中此项。,7 提交设置执行过程,7 提交设置执行过程,8 结果分析,“Valid N”栏中选择了“Unweighted”项为未加权的观测量数目，“Weighted”项为已加权的观测量数目（每个观测量的权数为1）。,8 结果分析,Fishers 费雪判别函数系数表 C

展开阅读全文

环境判别分析课件

最新文档