第19章判别分析知识分享

资源描述

《第19章判别分析知识分享》由会员分享，可在线阅读，更多相关《第19章判别分析知识分享（32页珍藏版）》请在金锄头文库上搜索。

1、第19章判别分析,学习目标,了解判别分析的基本思想；熟悉Bayes判别分析法和Fisher判别分析法；掌握BAYES参数分析法的判别准则效能的评估；掌握判别分析的SAS过程步：DISCRIM、CANDISC和STEPDISC过程步。,概述,在医学研究和疾病防治工作中，经常会遇到需要根据观测到的资料对所研究的对象进行分类的问题。例如，需要根据就诊者的各项症状、体征及化验指标，作出就诊者是否患有某种疾病或某种疾病的哪一类型的诊断；又如，在环境监测中，根据对某地区的环境污染的综合测定结果判断该地区属于哪一种污染类型等。,概述,聚类分析和判别分析有很大的区别，判别分析是根据一批分类明确的样本在

2、若干指标上的观察值，建立一个判别函数和判别准则，然后以此准则对新的样本进行分类。由此可知，这两种分类方法有着本质的不同：聚类分析可以对样本进行分类，也可以对指标进行分类；而判别分析只能对样本进行分类；聚类分析事先不知道事物的类别，也不知道分几类；而判别分析必须事先知道事物的类别，也知道分几类；聚类分析不需要分类的历史资料，而直接对样本进行分类；而判别分析需要分类历史资料去建立判别函数，然后才能对样本进行分类。,判别分析,判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法，它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产

3、生一系列判别函数，但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的，并且生成的函数能够运用于同样进行了预测变量观测的新的样本点，以判断其类别归属。,判别分析,判别分析的基本原理可以表述为：在一个P维空间R中，有K个已知的总体G1，G2，G3，GK，同时有样本点X（X1，X2，X3，XP），它属于且仅属于这K个总体中的一个，判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。实际上判别分析的过程分为两个部分，首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则，其次是运用这一规则对样本的原有分类进行检验以确定

4、原有分类错判率。同时如果原有分类具有较低的错判率，则建立起来的分类规则可以应用于实际工作中。,判别分析,判别分析的基本思想是根据一批分类明确的样本在若干指标上的观察值，建立一个关于指标的判别函数和判别准则，然后根据这个判别函数和判别准则对新的样本进行分类，并且根据回代判别的准确率评估它的实用性。例如，以一批正常和一批已确诊的病人为样本，收集他们的各项指标，如化验指标、X线、心脑电图、超声波等诊断指标，然后利用这批分类明确的样本在这些指标上的观察值，建立一个关于指标的判别函数和判别准则（区分正常人和病人的方法），使得按此准则来判断这批样本归属的正确率达到最高。它有着广泛的应用价值，尤其在计算机疾

5、病辅助诊断等医学科学研究中起了重要作用。,判别分析,判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值，将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里，并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。进行判别分析的目的是根据样本建立判别函数和判别准则，用以对新的样本进行归类。不同判别分析方法的区别在于其建立判别函数的方法和判别准则的规定是不同的。,判别分析,判别分析的方法中较常使用的有Bayes判别分析法和Fisher判别分析法。Fisher判别分析法是以距离为判别准则来分类，即样本与哪个类的距离最短就分到哪一类；

6、而Bayes判别分析法是以概率为判别准则来分类，即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别，后者适用于多类判别。对判别分析结果的优劣评价明确尚无系统的检验理论，只能通过错判率和事后概率错误率的估计来评估判别分类的有效性。,FISHER判别分析法,假设A和B为分类明确的两类症状。在总体A中观察了p例，在总体B中观察了q例，每一例记录了k个指标，它们是。令y是这k个指标的一个线性函数，即：其中，是待估计的未知系数。称上述线性函数是FISHER判别分析法的判别函数。如果a是总体A中的一个样本，b是总体B中的一个样本，这y (a)和y (b)分别是这两个样本的判别函数值。 F

7、ISHER判别分析法的基本原理是选择一组适当的系数，使得类间差异最大且类内差异最小。,FISHER判别分析法,根据FISHER判别分析法的基本原理，就是要选择一组适当的系数，使得类间差异最大且类内差异最小，即使得下式的Q值达到最大。使得Q值达到最大就是Q的一阶偏导函数等于0的方程组的解，由,FISHER判别分析法,可以得到：其中，,FISHER判别分析法,令上述方程的解是，那么FISHER判别函数估计式是：因此，对于任意一个样本在k个指标上的观察值，都可以计算出对应的判别函数值，令判别临界点是：,FISHER判别分析法,那么，FISHER判别准则是：时，该样本属于B类；时，该样本属

8、于A类；各项指标在判别分析中所起的作用是不同的。贡献率的大小由下式决定：,BAYES判别分析法,BAYES判别分析法是以概率为判别准则使得每一类中的每一个样本都以最大概率进入该类。BAYES判别是一种概率型的判别分析，在分析过程开始时需要获得各个类别的分布密度函数，同时也需要知道样本点属于各个类别的先验概率，以建立一个合适的判别规则；而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失，以确定各个样本点的预测类别归属。,BAYES判别分析法,BAYES判别分析法在理论和处理方法上都比FISHER判别分析法更加完善和先进，它不仅能解决多类判别分析，而且分析时考虑了数据的分布状

9、态，使得判别分析的效能得到较大的提高。SAS软件的判别分析过程是以BAYES判别分析法为理论基础的。,BAYES判别分析法,BAYES判别法的判别准则是，将每一个点x判别到事后概率最大的类中。利用已知的数据以及求极小值的方法，可以估计出的系数，从而可以得到判别函数的系数估计值，这些估计出的系数使得每一个样本x属于某个类的事后概率达到最大。,判别分析,判别分析的结果对应着分析的不同步骤过程，也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数、衡量预测变量与判别函数之间关系的结构矩阵以及Fisher线性分类函数。典型判别函数是基于BAYES判别思想建立起来的，主要用途在于对参与

10、分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。,判别分析,要将典型判别函数应用于大量的实践操作中是不现实的，因为这涉及到对被分类的样本计算各种概率，十分繁琐不利用操作。而FISHER线性分类函数则是针对每个类别分别建立起来的，可以直接应用实践操作中对新的样本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类，并通过与原有分类进行比较来确定原有分类的判对率。,判别函数中判别能力检验,一个判别函数判别样本归类的功能强弱很大程度上取决与指标的选取。如果判别函数中特异性强的指标越多，则判别函数的判别功能也就越强。相反，不重要的指标越多，判

11、别函数就越不稳定，其判别效果非但得不到改善，甚至会适得其反。因此，要建立一个有效的判别函数，指标的选取很重要，过多过少都不一定合适。一方面要根据专业知识和经验来筛选指标，另一方面要借助统计分析方法检验指标的性能。,判别函数中判别能力检验,在一个判别函数中，每一个指标变量对判别函数的判别能力都有所贡献。贡献的大小可以用一元方差分析和多元方差分析来检验。一元方差分析可以检验每一个指标是否对判别函数的判别能力有显著性意义，统计检验的无效假设是：单一指标对判别函数的作用不显著。多元方差分析可以检验所有指标是否联合对判别函数的判别能力有显著性意义，统计检验的无效假设是：所有指标对判别函数的联合作用不显著

12、。,BAYES参数分析法的判别准则效能评估,对于BAYES参数分析法的判别准则效能的评估，常用的是两个错误率估计指标。一个为错判率估计，另一个为事后概率错误率估计。错误率估计是从回代过程得到的结果，类内错判率等于类内被错判的样本数所占的比例。例如，原数据中第一类有n1个样本，用判别函数判别后，有m1个被判到其它类中，那么第一类的错判率等于m1/ n1。总体错判率等于总体被错判的样本数所占的比例。例如，原数据有两类，第一类有n1个样本，第二类有n2个样本，用判别函数判别后，第一类有m1个被判到其它类中，第二类有m2个样本被判到其它类中，那么总体的错判率等于（m1m2）/（n1n2）。,BAYE

13、S参数分析法的判别准则效能评估,在回代过程和判别新的样本时，都可以估计事后概率错判率。令x属于类t的事前概率为pt，事后概率为，样本总数为n，类t的样本数为nt，类t的事后概率错判率为Et，总体事后概率错判率为E，其估计公式是：,BAYES参数分析法的判别准则效能评估,其中，第一个公式表示从所有类中被判别到类t的所有x的事后概率之和，称为无分层概率之和。第二个公式表示从类i中被判别到类t的所有x的事后概率之和，称为无分层概率之和。第一个公式定义的错误率为无分层事后概率错误率，第二个公式定义的错误率为分层事后概率错误率。当事前概率和类内样本数成比例时，这两个错误率相等。,BAYES参数分析法的判

14、别准则效能评估,对于一个估计的BAYES判别准则，错判率和事后概率错误率越小，判别准则越准确可靠。当被判别的新样本与样本独立时，这两种错误率估计是非偏的。但是，当新样本数很小时，可能会产生很大的变异，这时，事后概率错误率估计值有时会小于0。因此，为了得到一个有效的错误率估计，被判别的数据中样本数不应当太小，且类内样本数比例应当接近类内事前概率。,BAYES参数分析法的判别准则效能评估,总之，评估一个判别函数的判别效能，涉及到以下几方面：原数据的分类要可靠准确；指标变量对判别函数的作用要显著；错判率和事后概率错误率要适当小。,判别分析SAS程序,SAS系统里用来进行判别分析的过程步有DIS

15、CRIM过程步、STEPDISC过程步和CANDISC过程步。CANDISC过程步用来进行正交判别分析。正交判别分析是一种减少维数（指标个数）的判别分析，作用类似于主成分分析。较常用的过程步是DISCRIM过程步和STEPDISC过程步，它们的区别是后者仅用来筛选指标变量，且仅适用于类内为多元正态分布，具有相同方差协方差矩阵的数据。前者可以筛选指标，但适用于各种数据，且类内为多元正态分布时，不要求具有相同方差协方差矩阵。一般地，当指标变量较多时，将两者结合使用：首先使用STEPDISC过程步筛选指标变量，然后用DISCRIM过程步将筛选出来的指标变量建立判别函数。,本章小节,判别分析的基本思想

16、是根据一批分类明确的样本在若干指标上的观察值，建立一个关于指标的判别函数和判别准则，然后根据这个判别函数和判别准则对新的样本进行分类，并且根据回代判别的准确率评估它的实用性。它有着广泛的应用价值，尤其在计算机疾病辅助诊断等医学科学研究中起了重要作用。判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值，将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里，并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。,本章小节,判别分析的方法中较常使用的有Bayes判别分析法和Fisher判别分析法。Fisher判别分析法是以距离为判别准则来分类，即样本与哪个类的距离最短就分到哪一类；而Bayes判别分析法是以概率为判别准则来分类，即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别，后者适用于多类判别。对于BAYES参数分析法的判别准则效能的评估，常用的是两个错误率估计指标。一个为错判率估计，另一个为事后概率错误率估计。错误率估计是从回代过程

展开阅读全文