第7章判别分析教学案例

上传人:yuzo****123 文档编号:141176893 上传时间:2020-08-05 格式:PPT 页数:58 大小:985.50KB
返回 下载 相关 举报
第7章判别分析教学案例_第1页
第1页 / 共58页
第7章判别分析教学案例_第2页
第2页 / 共58页
第7章判别分析教学案例_第3页
第3页 / 共58页
第7章判别分析教学案例_第4页
第4页 / 共58页
第7章判别分析教学案例_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《第7章判别分析教学案例》由会员分享,可在线阅读,更多相关《第7章判别分析教学案例(58页珍藏版)》请在金锄头文库上搜索。

1、第七章 判别分析,本章学习目标,a. 掌握地球科学中大量地质对象识别与 归类的思想; b. 学会构造Fisher线性判别函数的基本方法与步骤; c. 了解逐步判别的思路和基本步骤;,学习重点、难点,重点 不同判别分析技术的正确选取和判别函数的求法 难点 根据实际观测数据构建判别函数和具体实现;,问题:,已知某地质对象的分类,今有不知具体来源的对象需要根据其指标特征进行归类,即判别它属于哪一类型?以便进一步对其进行相应的预测和控制分析。,第一节 判别分析的思想 判别分析的主要思想就是用统计方法将待判的未知样品与已知类型样品进行类比,以确定待判样品应归属于哪一类。,矿产预测、地球化学分析、石油及天

2、然气地质中都有大量的判别类型的问题,如判别岩石类型、地层时代、古生物种属、判别钻井穿过的层位的含油性、判别沉积相、判别地层的生油条件等,直线L上的计量y是x1与x2两个变量的一个线 性组合: yc1x1+c2x2,1. 线性判别函数 双变量: yc1x1+c2x2 多变量:R=c1x1+c2x2+ckxk 2. 非线性判别函数 双变量: yc1x1+c2x22 或 yc1x12+c2x2 多变量:R=c1x1i+c2x2i+ckxki i=1,为线性判别函数 i=2,为非线性函数,对于有k个因素线判别函数 R=c1x1+c2x2+ckxk 它必须满足以下条件: (1)样品的指标服从多元正态分布

3、; (2)多元正态分布的协方差矩阵相等; (3)两类错误的概率相等(=)。 判别方法: 1.根据Fisher准则得出的Fisher判别; 2.根据Bayes准则得出的Bayes判别.,第二节 二级判别分析(Fisher准则),一、线性判别函数的确定原则(判别模型) 设有A、B两类总体,A类总体有n1个样品, B类总体有n2个样品。每个样品都测定了k个指 标,分别记为 x1t(A),x2t(A), ,xkt(A) (t=1,2, ,n1) x1t(B),x2t(B), ,xkt(B) (t=1,2, ,n2) 引入因素x1,x2, ,xk的线性函数: R=c1x1+c2x2+ckxk,将它作为综

4、合指标,使得R能将A、B有效地 分开,其中ci(i=1,2, ,k)待定。,式中 A类判别函数的均值为 B类判别函数的均值为 A类的离散程度表示为: B类的离散程度表示为:,二、 线性判别函数的求法,由于,Q,F分别对ci的微商为:,将(7-4)式及(7-5)式代入(7-3)式得,(7-6)式是k元一次线性方程组,是 常数因子,对方程的解只起到扩大共同 倍数作用,不影响ci之间的比例关系, 因此线性判别函数(7-1)也扩大一个倍 数,这对判别分析来说有什么影响,故 不妨可以取=1.,于是得到下面的线性方程组:,解出c1,c2,ck,即得出线性判别 函数(7-1),由线性判别函数算出: A类样品

5、的综合指标的平均值,B类样品的综合指标的平均值,取R(A)与R(B)的加权平均值:,作为判别指标R0。 然后对未知类别的样品,算出综合指标值R,最后作出判断。,(1)在R(A)R0情况下,若RR0,则判断 该样品属于A类,若RR0,则该样品属于 B类; (2)在R(A)R0情况下,若RR0,则 未知样品属于B类,若RR0,则未知样品 属于A类。,判别过程,三、 显著性检验、误判率及因素挑选 1、显著性检验及判别过程 先算出每组综合指标的平均值R(A)和 R(B)及总平均值:,作出组内平方和Se及组间平方和Sr,并注意 到自由度fe和fr,最后算出统计量。,查F分布表求得临界值F(1,n1+n2

6、-2), 如果 FF(1,n1+n2-2) 则两组样品的综合指标差异显著,此时判 别结果有效。如果 F F(1,n1+n2-2) 则两组样品的综合指标无显著差异,此时 判别结果无意义。,2、误判率 将原样本代入判别函数进行判别后,用错 判的样品数比上全体样品数作为误判率的估 计,如果误判率低则说明判别效果好,反之 则效果不好。 一种改进的求法是将n1n2=n个样品中, 依次去掉一个样品,用其余的n-1个样品建 立判别函数,对去掉的样品进行判断,如此 进行n次,用误判样品的比例作为误判率的 估计,效果极佳。,(2) 另一种方法,选取使,中最大的一个因素作为第一个因素。,第三节 贝叶斯准则下的多组

7、 线性判别 在多个(两个以上)类别中决定某个样 品的归属问题,相应的数学方法称为多组 判别(或多级分辨),多组判别可按费歇 准则进行,亦可用贝叶斯准则,有线性和 非线性之分,如二次型就是最简单的非线 性判别。,一 判别模型,问题: 现有一新样品Y来自上述多个总体中的 某一个,用Y=(y1,y2,,yp)表示,要解 决的问题是将Y归于何组? 用什么方法来判断?显然,由贝叶斯条件概率公式,可以分别算出待判样品分属m组的条件概率,然后将其归于概率最大的那一组。,样品Y归于第g组的条件概率pg/Y为:,其中,qg为第g组的先验概率,实际应用时 常用样本频率作为它的估计值,即 qg=ng/N (N是全部

8、样品总数) fg(y1,y2,yp)是样品Y在第g组的概率密度。,二、总体为正态分布时的判别 设m个 总体均服从正态分布,第g个总体的均值为g(向量),协方差矩阵为Vg,于是可得概率密度为,如果各协方差阵相同,即V1= V2=Vm=V, 此时(7-8)式变为,实际工作中用样本均值xg来估计g,用样本 协方差阵S来估计V。,于是,贝叶斯条件概率公式变为:,我们关心的是其中概率最大者,由上式可知,要使pg/Y达最大,只要分子最大即可。于 是,我们对上式分子取自然对数:,将上式与g有关的项记为Fg(Y),即,显然,Fg(Y)是y1,y2,,yp的m个线性函数,当Fg(Y)在某组取得最大值时,Pg/Y

9、在该组亦达到最大,样品有Y就归于取得最大值的一组。因此,称Fg(Y)为判别函数。,利用矩阵的计算形式,将上式写为,其中,贝叶斯多组判别的计算步骤如下: 1.计算每组各个变量的平均值,2.计算各组的离差阵,3.计算综合协方差矩阵,4.求S的逆阵S-1=S-1ktpp 5.计算判别函数并对样品Y=(y1,y2,yp) 作判别归类,计算出各判别函数Fg(Y) (g=1,2,m)的值,找出其中最大者:,将样品Y归于第g组。,6.计算样品Y属于g组(g=1,2,m)的后验 概率,7.将原有的分组样品代入判别函数进行回判, 算出判对率,以检验判别的有效性。,例:江汉油田13个油层、11 个水层、7个油 水

10、层的测井资料得到岩性系数x1,孔隙度x2, 浸入系数x3,含油饱和度x4统计如下表:,(1)计算每组各变量的均值 x11=0.2876 x12=0.2278 x13=1.3294 x14=0.6538 x21=0.4618 x22=0.2195 x23=4.6954 x24=0.3268 x31=0.4199 x32=0.2200 x33=3.0600 x34=0.5757 (2)计算协方差矩阵S并求出其逆矩阵S-1,结 果为,(3)计算各组判别函数。以计算第一组判别 函数为例,计算过程用矩阵形式给出:,于是得第一组的判别函数为 F1(Y)=-0.8690+22.5y1+88.24y2+0.8

11、614y3+ 62.35y4-33.372 =22.5y1+88.24y2+0.8614y3+62.35y4-34.241 仿此可求出第二组与第三组的判别函数 F2(Y)=45.55y1+113.41y2+1.078y3+21.13y4-28.952 F3(Y)=36.261y1+93.954y2+1.103y3+51.67y4-34.379,(4)将31个原样品指标代入各判别函数,把每个样品归于判别函数最大的那一组,计算判对率有多大。以第一组为例: F1(Y)=22.50.276+88.240.18+0.86140.446 +62.350.683-34.241 =29.95 同样可得 F2(

12、Y)=17.92 F3(Y)=26.83 显然该样品归于第一组(油层)。,计算判对率,还可进一步算出样品1归于各组的后验概率 pg/Y(g=1,2,3),由此可见,归于第一组的概率最大,为0.96。,判别结果: 将31个样品按上述做法进行回判归类,其 结果是油层中有一层(第七层)判为油水层, 其余12层均判为油层。水层中有 10层判对, 有一层(第一层)判为油水层。油水层中判 对6层,有一层(第四层)错判为油层。总 体上31层判对28层,判对率为90%,判别效 果良好。,第四节 二维空间自相关判别分析,自相关判别分析模型是在二维空间序列待定线性组合自回归过程建模的基础上,将具有最强自相关方向的

13、线性组合的空间自相关信息引入判别分析的判别准则中,建立新的判别准则,导出一种新的判别分析数学模型。,自相关判别分析准则:1. 两组间差异尽可能大,组内差异尽量小;2. 二维空间系列中具有最强空间自相关方向的判别得分的n阶自回归误差平方和尽量小;,空间四个方向(EW、NE-SW、SN、NW-SE)的演化趋势因子图,某盆地铁矿化有利因素沿北东南西向空间相关因子量等值线图,费歇判别分析与自相关判别分析结果比较,上表结果表明,费歇判别分析误判率大于自相关判别分析。,第五节 聚类分析与判别分析的异同比较 及注意事项 1、聚类分析 (1)聚类分析的目的是对给定的样品( 或变量)找出一个合理的分类体系,并不

14、 要求它同样适用于原始样本以外的样品。 (2)聚类分析得出的谱系图,反映的是样 品(或变量)间的亲疏关系,并未明确指 明应分成多少类,还应根据专业知识来确 定分类的个数和分类界限。,(3)许多实际问题表明,数据变换对聚类结果有重要影响。一般地,如果各变量的数量级相近,则可以不做变换。如果各变量的数量级相差太大,则可先进行对数变换。 (4) 相似性统计量的选择,一般来说对R型聚类采用相关系数为好。对Q型聚类要根据具体情况确定选用相似系数或距离系数。使用距离系数时,要求各变量之间不相关,否则应先作主成分分析,以主成分作变量参加计算。,(5)在进行Q型聚类时,采用的变量并非 越多越好,要选择对研究的

15、分类问题具有 价值的变量,要注意到多余的变量不仅没 有作用,甚至还会歪曲聚类结果。,2、判别分析 (1)判别分析实质上是已知判别的几种类型,将 待判样品进行归类,而聚类分析则只是形式上 的分类,只表示相互间的亲疏关系。 (2)Fisher准则可以用于两组和多组判别,而 Bayes准则用于多组线性判别和多组逐步判别 分析。后者要求各组变量服从多元正态分布, 而Fisher准则下的判别分析则无比要求。,(3)建立判别函数时应有足够多的已知 样品。样品数越多代表性越强时,所得的 判别函数也就越可靠。每组的己知样品数 最好大于变量数的两倍以上。 (4)用某一地区样品建立起的判别函数原 则上只适用于该地区或地质条件相似的地 区。未知样品的地质条件在大前提下应有 可能属于已知组中的某一组,否则无意义。,(5)判别函数是否具有较好的判别能力, 关键在于是否选取了具有强分辨力地质变 量。首先要根据专业知识来选取变量,也 可以将选取的原始变量重新组合成具有更 好的分辨力的变量。不同性质的变量还可 以混合使用。,THE END,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号