判别分析论文－金锄头文库

资源描述

《判别分析论文》由会员分享，可在线阅读，更多相关《判别分析论文（16页珍藏版）》请在金锄头文库上搜索。

1、判别分析论文学校：南通大学学院：杏林学院学科：多元统计分析班级：金融统计101学号：姓名：指导老师：判别分析摘要：判别分析是判别样品所属类型的一种统计方法，其应用之广可与回归分析媲美.本文通过介绍判别分析的概念和应用领域，对其进行分类，并对其中的某些方法进行具体介绍，如距离判别法和费希尔判别法，然后应用某些常见的判别分析方法解决实际问题.关键词：判别分析；概念；应用领域；距离判别法；费希尔判别;实际问题The application of discriminate analysisAbstract ： The discriminate analysis is a kind of

2、 statistical method that distinguishes the type that sample belongs to, it is applied widely which can match with regression analysis in excellence.In this paper, introduce the concept and application field of discriminate analysis ,and then do some classifications according to it. Then we introduce

3、 some kinds of discriminate analysis,such as discriminate analysis by distance and Fishers discriminate analysis. At last,we solve two pratical problemes,by method of discriminate analysis by distance or Fishers discriminate analysis.Keywords ：discriminate analysis ；concept；application field； discri

4、minate analysis by distance ； Fishers discriminate analysis；pratical problemes目录一、引言41.1 什么是判别分析41.2 判别分析的方法41.3 判别分析的统计背景4二、距离判别法2.1什么是距离判别法2.2马氏距离62.2.1概念62.2.2定义62.2.3马氏距离的优缺点2.3距离判别法的基本思想72.4距离判别法的判别函数和判别准则7三、贝叶斯判别法3.1 什么是贝叶斯判别法83.2贝叶斯判别法的基本思想83.3 贝叶斯判别法的准则83.4 贝叶斯判别法的分类函数8四、Fisher判别法4.1什么是Fishe

5、r判别法94.2Fisher判别法的基本思想94.3Fisher判别法判别函数和判别准则9五、实例分析9六、参考文献14一、引言11 什么是判别分析判别分析产生于20世纪30 年代，是利用已知类别的样本建立判别模型，为未知类别的样本判别的一种统计方法。近年来，判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所

6、属的类别。判别分析按照判别的组数来区分，可以分为两组判别分析和多组判别分析。12 判别分析的方法判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品，建立较好的判别函数，使产生错判的事例最少，进而对给定的 1 个新样品，判断它来自哪个总体。根据资料的性质，分为定性资料的判别分析和定量资料的判别分析；采用不同的判别准则，又有距离、贝叶斯、费歇等判别方法。距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式，将各样品数据逐一代入计算，得出各样品与各母体之间的距离值，判样品属于距离值最小的那个母体。贝

7、叶斯(BAYES )判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。费歇(FISHER )判别思想是投影，使多维问题简化为一维问题来处理。选择个适当的投影轴，使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。1.3判别分析的统计背景判别分析的方法有参数方法和非参数方法。参数方法假定每个类的

8、观测来自(多元)正态分布总体，各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布，它对每一类使用非参数方法估计该类的分布密度，然后据此建立判别规则。记X为用来建立判别规则的P维随机变量S为合并协方差阵估计,t=1,.,G 为组的下标，共有G个组。记nt为第t组中训练样本的个数，m_t为第t组的自变量均值向量，St为第t组的协方差阵,|St |为St的行列式，qt为第t组出现的先验概率，p(t|x)为自变量为x的观测属于第t组的后验概率，ft(x)为第t 组的分布密度在X=x处的值，f(x)为非条件密度宀按照Bayes理论自变量为x的观测属于第t组的后验概率p

9、(t | x) = qtft(x)/ f(x)。于是，可以把自变量X的取值空间RAP划分为G个区域Rt,t=1,.,G,使得当X的取值x属于R_t时后验概率在第t组最大，即p(fk)=他叫1、胡如 w e Rt建立的判别规则为：计算自变量X到每一个组中心的广义平方距离，并把X判入最近的类。广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计，并与先验概率有关，定义为仗)= 仗)I Si(t) I 如t)其中畝 X)= 0 - mt) 一 mt)Jh.屐|采用单类的协方差阵估计n 采用合并也力達阵估计S2(t)=Vt = St （使用单个类的协方差阵估计）或Vt = S（使用合并的

10、协方差阵估计）。 mt可以用第t组的均值overlineX_t代替。在使用合并协方差阵时，43) = 3-庄)公13-疋)_211】qt = $旷：I (X5_1X-21n其中XS - 1X是共同的可以不考虑，于是在比较x到各组中心的广义平方距离时，只要计算线性判别函数I=瓦 I In qt) | 佔-盂当x到第t组的线性判别函数最大时把x对应观测判入第t组。在如果使用单个类的协方差阵估计Vt = St 贝U距离函数是x的二次函数，称为二次判别函数。后验概率可以用广义距离表示为P(壯)=因此，参数方法的判别规则为：先决定是使用合并协方差阵还是单个类的协方差阵，计算x到各组的广义距离，把x判入

11、最近的组；或者计算x属于各组的后验概率，把x判入后验概率最大的组。如果x的最大的后验概率都很小(小于个给定的界限)，则把它判入其它组。非参数判别方法仍使用Bayes后验概率密度的大小来进行判别，但这时第t 组在x处的密度值ft(x)不再具有参数形式不象参数方法那样可以用mt和S(或 St)表示出来。非参数方法用核方法或最近邻方法来估计概率密度ft(x)。最近邻估计和核估计也都需要定义空间中的距离。除了可以用欧氏距离外，还可以用马氏(Mahalanobis )距离，定义为：恋(些y) =其中vt为以下形式之一：vt = S合并协方差阵vt = diag(S )合并协方差阵的对角阵Vt =

12、St第t组内的协方差阵Vt = diag(St)第t组内的协方差阵的对角阵Vt = I单位阵，这时距离即普通欧氏距离二、距离判别法2.1 什么是距离判别法距离判别是以代判样品到各总体的距离远近为判据的一种直观判别方法，也称为直观判别法。2.2 马氏距离2.2.1 概念马氏距离是由印度统计学家马哈拉诺比斯 (P. C. Mahalanobis) 提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧式距离不同的是它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的)并且是尺度无关的(scale-invar

13、iant)，即独立于测量尺度。对于一个均值为p, 协方差矩阵为的多变量向量，其马氏距离为(x-p)(-1)(x- p)人(1/2)。2.2.2定义马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为的随机变量与的差异程度。如果协方差矩阵为单位矩阵，那么马氏距离就简化为欧式距离。如果协方差矩阵为对角阵，则其也可称为正规化的欧氏距离。其中oi是xi的标准差.2.2.3 马氏距离的优缺点优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点：它的缺点是

14、夸大了变化微小的变量的作用。如果用dij表示第i个样品和第j个样品之间的距离，那么对一切i，j 和k，dij应该满足如下四个条件：当且仅当i=j时，dij=0 dij0 dij=dji （对称性） dijdik+dkj （三角不等式）缺点：1）马氏距离的计算是建立在总体样本的基础上的，这一点可以从上述协方差矩阵的解释中可以得出，也就是说，如果拿同样的两个样本，放入两个不同的总体中，最后计算得出的两个样本间的马氏距离通常是不相同的，除非这两个总体的协方差矩阵碰巧相同；2）在计算马氏距离过程中，要求总体样本数大于样本的维数，否则得到的总体样本协方差矩阵逆矩阵不存在，这种情况下，用欧式距离

15、计算即可。3）还有一种情况，满足了条件总体样本数大于样本的维数，但是协方差矩阵的逆矩阵仍然不存在，比如三个样本点（3,4）,（5,6）和（7,8）,这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下，也采用欧式距离计算。4）在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的，而所有样本点出现3）中所描述的情况是很少出现的，所以在绝大多数情况下，马氏距离是可以顺利计算的，但是马氏距离的计算是不稳定的，不稳定的来源是协方差矩阵，这也是马氏距离与欧式距离的最大差异之处。2.3距离判别的基本思想距离判别法的基本思想是，先根据已知分类的数据，分别计算各类的重心，然后计算待判样本与各类的距离，与哪一类距离最近，就判待判样本x属于哪一类。2.4距离判别的判别函数和判别准则判别函数为：W(x) = D(x,G2) - D(x,G1)判别准则为：门x 血 Wx) 0W(x)二 0三、贝叶斯判别法3.1什么是贝叶斯判别法贝叶斯判别是根据最小风险代价判决或最大似然比判决，是

展开阅读全文