判别分析PPT课件－金锄头文库

资源描述

《判别分析PPT课件》由会员分享，可在线阅读，更多相关《判别分析PPT课件（29页珍藏版）》请在金锄头文库上搜索。

1、第一节判别分析方法第二节以直线划分的判别法第三节以曲线划分的判别法第四节费歇尔判别法第五节逐步判别法判别分析第一节判别分析方法分类：1、按判别的组数来分，有两组判别分析和多组判别分析2、按区分不同总体所用的数学模型来分，有线性判别和非线性判别3、按判别对所处理的变量方法不同有逐步判别、序贯判别。4、按判别准则来分，有费歇尔判别准则、贝叶斯判别准则判别分析是根据观察或测量到若干变量值，判断研究对象如何分类的方法。实际上是根据表明事物特点的变量值和它们所属的类求出判别函数，根据判别函数对未知所属类别的事物进行分类的一种分析方法。第二节以直线划分的判别法一、判别的基本思想把观测到的n

2、个样本看作p维空间的n个点，以某种方法将p维空间划分为互不相交的q个区域，每个区域对应着一个类，对于给定的新样本点，必然要落入其中某个类中。对于满足类内样本点接近、类间样本点疏远的性质，可以通过统计量来表现。比值越大说明类与类间差异越大，分类效果越好二、两个类别的判别步骤：1、计算两类(A,B)各自的均值2、计算类内离差平方和与类间离差平方和3、求出判别函数4、计算待判样本的三个值y, ,5、判断先建立判别临界值y0,在两总体先验概率相等的假设下，一般常取如果，则判定准则为： yy0,x属于A组； yy0,x属于B组；yy0, x属于A组例1：为研究某地区育龄妇女的生育状况，根据生育峰

3、值年龄，一胎生育率，二胎生育率、多胎生育率及总和生育率5项指标，将12个已知样本点分为两组，根据已知样本建立判别函数，并判定另外3个待判个体属于何组。数据见spssex/ex601三、三个类别情形的判别1、三条线都有通过所有点的重心2、三条线相交组成一个三角形第三节以曲线划分的判别法一、判别原理马氏距离：判别函数：判别原则：二、马氏距离导出的二次曲线判别例3.研究某年全国各地区农民家庭收支的分布规律，根据抽样调查资料进行分类，共抽取28个省、市、自治区的六个指标数据。先采用聚类分析，将28个省、市、自治区分为三组，其中北京、上海、广州3个城市属于孤立样本单位，未归属于已分的三组中，现采用曲线

4、判别法来判定北京、上海、广州归属于哪个组。原始数据见spssex/ex603第四节费歇尔判别法费歇尔判别方法是历史上最早提出的判别方法之一，也叫线性判别法费歇尔判别的思想是通过将多维数据投影到某个方向上，投影的原则是将类与类之间尽可能的分开，然后再选择合适的判别准则，将待判的样本进行分类判别。一、判别原理设有q个总体G1,G2,Gq,每类中含有样本数分别为n1,n2,nq假定所建立的判别函数为其中a表示p维空间的一个方向,如果按这个方向做一条直线，表示向量x在这条直线上投影坐标将各组样本均值投影到某条直线上，得到各组样本均值在该直线的投影坐标，投影坐标值距离越远越容易判断待判样本属于哪个组

5、。ab费歇尔方法就是要找一由p变量组成的线性函数，使得各组内点的函数值尽可能接近，而不同组间的函数值尽可能远 (a) 是Q-1 B的特征根，a是Q-1 B的特征向量二、判别的准则1、一维判别对于待判样本，计算和若，则x属于第k组2、多维判别多维判别函数建立后，把p维空间的点转换成m维空间的点则x属于第k组三、判别的步骤1、由各组样本资料，计算各组样本均值2、计算离差矩阵B 3、计算各组样本离差平方和Q4、计算矩阵Q-1 B的前m个特征向量5、组成线性变换a，并计算各样本平均向量在m维空间中的点6、判断例2：为研究某地区人口死亡状况，已按某种方法将15个已知样本单位分为三组，选择判别变量为

6、2个：55岁组死亡概率q55和80岁组死亡概率q80。建立判别函数，判定另外4个待判样本属于何组。数据见 spssex/ex602SPSSDiscriminant过程根据已知的观测量分类和表明观测量特征推导出的判别函数，并把各观测量的变量值回代到判别函数，根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所羊的分类，给出错分概率。功能给出各类观测量的单变量的描述统计量。给出费歇尔判别函数的系数或标准化及未标准化的典则判别函数的系数。给出类内相关矩阵，类内、类间协方差矩阵和总协方差矩阵。给出按判别函数判别的各观测量所属类别。带有错分率的判别分析小结。生成表明各类分布的区域图和散

7、点图。建立判别函数的方法全模型法：把用户指定的变量全部放入判别函数中，不管变量对判别函数是否起作用，作用的大小如何。逐步选择法：判别分析的基本步骤：1、选择自变量及组变量2、计算各组单变量的描述统计量3、推导判别系数，给出标准化或未标准化的典则判别系数，并对函数显著性进行检验4、建立Fisher线性判别函数5、进行判别分组6、进行样本回判分析，计算错分率7、输出结果第五节逐步判别分析一、逐步判别原理逐步判别分析从模型没有变量开始，每一步都对模型进行检验，把模型外对模型的判别力贡献最大的变量加到模型中，同时考虑已经在模型中但又不符合留在模型中条件的变量从模型中剔除。一个变量能否进入模型主要取

8、决于协方差分析的F检验的显著性水平F统计量的构造：根据筛选后得到的变量，建立贝叶斯判别函数进行判别分析：判别原则：对每个待判样本x，分别计算各类判别函数值，比较值的大小，x属于值最大组。二、选择变量方法1、Wilks 最小法2、RaoV最大法3、马氏距离最大法4、F统计量最大法5、剩余离差平方和最小法Wilks 最小法U统计量 =组内平方和/总平方和，每一步都是统计量最小的进入判别函数容许度=1-Ri2 (Ri2为偏相关系数）RaoV最大法每步都是使RaoV统计量产生最大增量的变量进入判别函数P模型中的变量数，g分类数，nk第k组样本大小，Wij*组间协方差矩阵的逆矩阵V两组均值之差组间的F检验每步都使任何两类间的最小的F值最大的变量进入判别函数例4：为研究某地区人口死亡状况，已按某种方法将15个已知样本点分为三组，选择判别变量为6个：0岁组死亡概率q0,1岁组死亡概率q1,10岁组死亡概率q10,55岁组死亡概率 q55, 80岁死亡概率q80,平均预期寿命e0。试用逐步判别法建立判别函数，判定另外4个待判样本点属于何组。数据见 spssex/ex604

展开阅读全文

判别分析PPT课件

最新文档