应用统计学-第四章判别分析课件

上传人:我*** 文档编号:145859955 上传时间:2020-09-24 格式:PPT 页数:76 大小:1.15MB
返回 下载 相关 举报
应用统计学-第四章判别分析课件_第1页
第1页 / 共76页
应用统计学-第四章判别分析课件_第2页
第2页 / 共76页
应用统计学-第四章判别分析课件_第3页
第3页 / 共76页
应用统计学-第四章判别分析课件_第4页
第4页 / 共76页
应用统计学-第四章判别分析课件_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《应用统计学-第四章判别分析课件》由会员分享,可在线阅读,更多相关《应用统计学-第四章判别分析课件(76页珍藏版)》请在金锄头文库上搜索。

1、第四章 判别分析discriminant analysis,判别分析的基本概念 两总体判别分析 多总体判别分析 SPSS的判别分析过程,一、判别分析的基本概念,判别分析问题的描述: 已知若干组分类数据 现有一新样本,要求判定新样本数据属于已知分类中的哪一类 判别分析的关键: 判别函数:由描述各类的数值指标构成的分类规则,明确已知各类应如何区别 例:肝炎病人的诊断 两总体判别:肝炎病人和正常人 判别依据:一些化验指标,形成判别公式-判别函数,Simple, Two-Group DA,x,判别规则,中国属于发展中国家还是发达国家?,Pattern Recognition Problem,判别分析与

2、方差分析、聚类分析,聚类分析与判别分析间的联系,先采用聚类分析获得各个个体的类别(classification );然后采用判别分析建立判别函数,对新个体进行类型识别(identification ),聚类分析的数据格式,k,判别分析的数据格式,判别分析的方法与数学描述,数据描述 对于m类总体G1,G2,Gm,其分布函数分别为f1(y),f2(y), fm(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。 误判问题 肝功指标高就一定是肝炎病人吗?,误判率Misclassification (1-D case),两总体单指标

3、的判别分析,假设正态分布,等方差,判别规则,转氨酶,肝炎患者,非患者,非典?,?,Best - In What Sense?,Minimizes probability of misclassification Maximizes posterior probability of correct classification Many others For example minimizes the cost of misclassification 具体问题具体分析 疾病的诊断 市场分析,Lots of perspectives suggest this basic rule as best

4、,影响误判率的因素,当分布中心过于接近,误判率很高,三总体单指标,组均值差异,Three groups - Two features,二、两总体判别分析,基本思想:样品和哪个总体距离最近,就判断它属于那个总体。 设:两个总体G1和G2,x是一个p维样本,x到总体G1和G2的马氏距离分别记为d2(x, G1)和d2(x, G2), 判别规则:若d2(x, G1) d2(x, G2),认为x属于G2 。 或判别函数: W(x)= d2(x, G2)- d2(x, G1),所谓“等距离”:到两总体距离相等的点构成类分界线,1. 马氏等距离法,两指标、正态分布且方差相等的两总体,类分界线,样本点到某一

5、类的距离越近,属于该类的概率越大,线性判别函数,设G1N(1,1)和G2N(2,2)为两正态总体,且协差阵相等,即1=2=,则样本x到G1、G2的马氏距离为,可以证明:,容易看出上述函数W(x)为x的线性函数,称为线性判别函数,判别准则:W(x)与0比较,令W(x)=0可以得到两类分界线,Linear Discrimination Rule,考察p=1的情况,设G1N(1,2)和G2N(2,2),判别函数为:,x=0.5,误判率P(2/1)=0.3085,误判率P(1/2)=?,12时,非线性判别函数,判别函数W(x)为x的二次函数,G1:N(80,0.25),G2:N(75,4),75,80

6、,x0=78,已知G1是设备A生产的产品,G2是设备B生产的产品。A设备质量高,其产品平均耐磨度1=80,方差12=0.25,B设备质量较差,其产品平均耐磨度2=75,方差22=4。现有一产品X0,其耐磨度x0=78,试判断该产品是哪台设备生产的。,考察p=1的情况,直观上看,x0距1较近,但是考虑到相对分散度,,判别准则,x1,x2,2. Fisher 判别法,基本思想:寻找原变量x的一个线性组合,使得各组在此方向上投影的差异最大化,再选择合适的判别规则对样品进行分类判别。,Fishers approach,Find a linear combination of variables x t

7、hat would produce “maximally different” discriminant scores across group,数学模型,设:线性组合的系数向量为a, 考虑线性组合:z=xaz: x在a方向的投影 通过寻找合适的a,使投影到此方向的组间变异大,组内变异比较小,即使组间变异/组内变异(离差平方和)取最大值。,两总体Fisher判别函数,设:两协差阵相等的总体G1:n1个样本,G2:n2, 1,2和分别表示两总体均值和总均值 线性组合的系数向量为a, 考虑线性组合:z=xa 投影后的组内变异:组内离差平方和为,投影后的组间变异:组间离差平方和为,以上证明,当a-1

8、(2-1)时满足我们的要求,即:判别投影方向在两类均值点的连线上。通常我们将a标准化。 判别函数为:z=x-1(2-1),判别规则:zc时,xG2; zc时, xG1,,Linear Discriminators,critical value,投影方向,判别函数,判别得分,c2c1, xG1 c3c1, xG2,练习题,两类总体相关统计资料如下:,一个新的样本为x=(0.0,0.5),问x属于(1)类还是(2)类。,解法1:马式等距离法 解法2:Fisher法,解:求Fisher判别函数z=x-1(2-1),结论:x属于(1)类,例:books by mail,某书商从事邮购书业务。有50,0

9、00个顾客的统计数据,现公司计划推销一本新的艺术类书“the art history of Florence”。希望有针对性地邮寄订购单,即只向有可能购买该书的顾客推销,以降低成本。为了了解顾客情况,公司从50,000个现有顾客中随机抽取1000人发订购单,其中83人购买了该书。要求利用此数据中分析潜在购买者的特征。 对1000个顾客样本进行判别分析,选取“最近一次购买至今的月数”和“购买艺术类书的本数”为判别变量。分类变量“buystatu”:0未购买者,1购买者,求判别函数系数a-1(2-1),判别函数为z=-0.056month+1.577artnum,z2=-0.0569.41+1.5

10、771=1.05, z1=-0.05612.73+1.5770.33=-0.19,c=(1.05-0.19)/2=0.43 判别规则:z0.43buyer,SPSS输出结果,判别规则:zc=(1.018-0.0922)/2=0.4629buyer,判别函数:,判别变量和标准化判别函数的相关系数,购买艺术书越多的顾客越可能购买,越近期的顾客越可能购买,判别得分的分布,Non-buyers,buyers,z=0,z=0,回判结果,误判率25%,发出263封订购信,约18.3%会订购,协方差阵相等的检验-Boxs test,H0: 1=2=m 协方差不等时的判别:非线性判别函数 如果仍用线性判别,误

11、判率增大,组内协方差相等时,Books by mail,协方差相等算法的误判率,协方差不等算法的误判率,发出263封订购信,约18.3%会订购,发出197封订购信,约20.3%会订购,类中心显著差异的检验Wilkss test,为什么要检验? 类中心距离太近时,误判率高。,Books by mail,如何检验 H0: 1=2,3. Bayesian approach,前面两种方法中都没有考虑各类中样本数的差异 没有考虑误判带来的不对称经济损失 当各类样本数不同/误判损失不对称时,是否会影响判别函数的选取或判别规则?,Incorporating Prior Probs考虑先验概率,R1的误判率高

12、于R2,考虑到各类样本容量不同对误判率的影响,判别规则应作适当调整,3. Bayesian approach,贝叶斯的统计思想:假定对研究的对象已有一定的认识(常用先验概率反映这种认识),然后抽取一个样本,用样本来修正已有的认识。,影响分类的因素,先验概率 误判损失cost of misclassification: x被判为属于G2,而它实际属于G1,则称发生了误判 误判可能会带来经济损失 当误判损失不对称时(比如G1样本误判为G2的成本是G2样本误判为G1的成本的10倍时),我们通常会改变判别准则(使之偏向误判成本低的一方),宁可将G2误判给G1,也不愿相反。,3. Bayesian ap

13、proach,基本思路:误判期望损失最小化 设有m个总体G1, Gm,其概率密度函数分别为fi(x),i=1,2m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j/i),那么,对于判别规则R产生的误判概率记为P(j/i,R),有:,如果已知x来自总体Gi的先验概率为qi(i=1,2, m),则在规则R下,误判期望损失为:,贝叶斯定理,若总体G1, Gm的先验概率为qi,且相应的密度函数为fi(x),损失是C(j/i)时,则划分R的贝叶斯解为:,当抽取了一个未知总体的样品值x(p维向量),要判断它属于哪个总体,只要先计算出个按先验分布加权的误判平均损失hj(x),然后比较这m个平均损失

14、的大小,取其中最小的,则判定x来自该总体,两总体判别,设有2个总体,其先验概率分别为q1,q2,满足:qi0,qi=1,误判成本分别为C(1/2), C(2/1), h1(x)=q2f2(x)C(1/2), h2(x)=q1f1(x)C(2/1), R1=x| q2f2(x)C(1/2)q1f1(x)C(2/1),两总体判别,其中:z-Fisher判别函数得分,c-两个类中心连线的中点(Fisher判别准则),当先验概率和误判损失各类都相等时,即为Fisher判别。先验概率/误判损失不对称时,相当于对原判别值做一个修正,如果f1(x)与f2(x)分别为Np(1, )和Np(2, ),则,练习题

15、,考虑下列判别分析问题:随机抽取60个样本,相关统计资料如下:,一个新的样本为x=(0.0,0.5),问x属于(1)类还是(2)类。,Books by mail,1000个样本顾客中,buyer只有83人,其他917名都是non-buyer, 先验概率相差很大。做先验概率修正后,分类结果:,修正后(Bayers法),发出197封订购信,约20.3%会订购,发出44封订购信,约43.2%会订购,修正前,误判损失修正,此例为典型非对称误判损失:非买者误判为买者,损失较小(邮资费、资料费、人工费),设为1元;买者误判为非买者损失较大,为一本书的净利润,设为6元,发出160封订购信,约21.3%会订购

16、:准确率下降!,净利润=634-1126=78,净利润=611-110=56,仅先验概率修正,3 Groups in 2 Dimensions,三、多总体判别分析,Partitioning 2-D Space,Alternate View,Likelihood View,Non-Linear Discriminators两个判别变量、三类,四、SPSS的Discriminant过程,Discriminant过程的大部分功能都可以通过对话框来指定,还有一些功能可以在Syntax页中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。,SPSS的判别分析方法,为研究舒张期血压和血浆胆固醇对冠心病的作用,某医院测定了50-59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。,判别分析数据结构,设一分组变量表示分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号