判别分析的应用－金锄头文库

资源描述

《判别分析的应用》由会员分享，可在线阅读，更多相关《判别分析的应用（6页珍藏版）》请在金锄头文库上搜索。

1、联系方式：010-65186066 010-65188088 地址：北京市东城区建国门内大街 7 号光华长安大厦三座 2 层判别分析判别分析介绍及其介绍及其的应用举例的应用举例中颢润项目数据分析师李佳明判别分析(discriminant analysis)又称“分辨法” ，属于分类方法的一种，分类的对象要求实现要有明确的类别空间，它是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标，据此即可确定某一样本属于何类。其作用表

2、现在，当描述研究对象的性质特征不全或不能从直接测量数据确定研究对象所属类别时，可以通过判别分析对其进行归类。在生产、科研和日常生活中经常需要根据观测到的数据资料，对所研究的对象进行分类，例如，银行在贷款给客户时，通常都会根据顾客的基本资料，如学历、收入、借贷记录等，将顾客区分为具有信用之顾客与不具有信用之顾客两种，并且当有新的顾客进来时，也可以按照同样的准则将新顾客的资料与这些已经存在的资料做一比较，看是否应该借钱给这位新的顾客；在经济学中，根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型；在市场预测中，根据以往调查所得的种种指标，判定下

3、个季度产品是畅销、平常或滞销。判别分析对气候分类、农业区划、医学研究、信用风险管理等课题的研究有非常重要的作用。下面从对全国各省市地区的农民家庭收支的研究中对判别分析进行理解。数据来源于国家统计局，主要包括地区、食品、衣着、燃料、住房、生活用品、文化生活等表现农民收支情况的数据集。通过对 25 个省市地区的样品进行分析，将其分成了 3 类，分别是第 1、2、3 组，待判定的地区为北京、上海、广州三个地区。所要分析的基础数据集如下。序号类别地区食品衣着燃料住房生活用品文化生活 1 第一组天津 135.2 36.4 10.47 44.16 36.4 3.94 2 辽宁 14

4、5.68 32.83 17.79 27.29 39.09 3.47 3 吉林 159.37 33.38 18.37 11.81 25.29 5.22 4 江苏 144.98 29.12 11.67 42.6 27.3 5.74 5 浙江 169.92 32.75 12.72 47.12 34.35 5 联系方式：010-65186066 010-65188088 地址：北京市东城区建国门内大街 7 号光华长安大厦三座 2 层 6 山东 115.84 30.76 12.2 33.61 33.77 3.85 7 第二组黑龙江 116.22 29.57 13.24 13.76 21.75 6.04

5、 8 安徽 153.11 23.09 15.62 23.54 18.18 6.39 9 福建 144.92 21.26 16.96 19.52 21.75 6.73 10 江西 140.54 21.59 17.64 19.19 15.97 4.94 11 湖北 140.64 28.26 12.35 18.53 20.95 6.23 12 湖南 164.02 24.74 13.63 22.2 18.06 6.04 13 广西 139.08 18.47 14.68 13.41 20.66 3.85 14 四川 137.8 20.74 11.07 17.74 16.49 4.39 15 贵州 121

6、.67 21.53 12.58 14.49 12.18 4.57 16 新疆 123.24 38 13.72 4.64 17.77 5.75 17 河北 95.21 22.83 9.3 22.44 22.81 2.8 18 第三组山西 104.78 25.11 6.46 9.89 18.17 3.25 19 内蒙 128.41 27.63 8.94 12.58 23.99 3.27 20 河南 101.18 23.26 8.46 20.2 20.5 4.3 21 云南 124.27 19.81 8.89 14.22 15.53 3.03 22 陕西 106.02 20.56 10.94 10

7、.11 18 3.29 23 甘肃 95.65 16.82 5.7 6.03 12.36 4.49 24 青海 107.12 16.45 8.98 5.4 8.78 5.93 25 宁夏 113.74 24.11 6.46 9.61 22.92 2.53 26 待定北京 190.33 43.77 9.73 60.54 49.01 9.04 27 上海 221.11 38.64 12.53 115.65 50.82 5.89 28 广州 182.55 20.52 18.32 42.4 36.97 11.68 通过 SPSS 统计软件的“分析（Analyze）分类（Classify）判别分析（D

8、iscriminate） ” 对判别分析对话框进行设置。通过逐步判别法得到如下结果：（1）采用 Boxs-M 法进行方差齐性检验。检验结果如下：其对应的概率 P 值为 0.231，大于显著性水平 0.05，因此应接受原假设，认为各类别总体下的判别变量协差阵无显著差异，采用 Within-group Covariance方法进行判别。 Test Results Boxs M 19.631 F Approx. 1.269 df1 12 df2 1.319E3 Sig. .231 Tests null hypothesis of equal population covariance matr

9、ices. 联系方式：010-65186066 010-65188088 地址：北京市东城区建国门内大街 7 号光华长安大厦三座 2 层（2）判别结果的检验Wilks Lambda检验，其结果如下：结果表明，第一个判别函数解释了所有变异的84.9%，第二个判别函数解释了15.1%，其后的概率P值均小于0.05，说明两个判别函数都是显著成立的。 Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 4.582a 84.9 84.9 .906 2 .816a 15.1 100.0 .

10、670 a. First 2 canonical discriminant functions were used in the analysis. Wilks Lambda Test of Function(s) Wilks Lambda Chi-square df Sig. 1 through 2 .099 48.635 6 .000 2 .551 12.525 2 .002 （3）判别函数。 Fisher判别函数： Y1=0.761*燃料+0.710*住房+0.448*生活用品 Y2=0.757*燃料+0.257*住房-0.746*生活用品 Standardized Canonical

11、Discriminant Function Coefficients Function 1 2 燃料 .761 .757 住房 .710 .257 生活用品 .448 -.746 将上述公式分别应用到各个地区进行计算，得到的结果与下表各组的中心位置相比较，与哪组结果投影位置最接近就将其归为一组。第一组中心位置为（3.066， -0.774），第二组的中心位置为（0.040,0.956），第三组的中心位置为（-2.355，-0.733）。 Functions at Group Centroids 类别 Function 1 2 联系方式：010-65186066 010-65188

12、088 地址：北京市东城区建国门内大街 7 号光华长安大厦三座 2 层第一组 3.066 -.774 第二组 .040 .956 第三组 -2.355 -.733 Unstandardized canonical discriminant functions evaluated at group means （4）判别结果将各样本点代入Fish判别公式中，得到如下图所示的结果。在具体的判别结果中，第一组的误判概率为16.7%，正确判别率为83.3%，第二组和第三组的误判概率均为0，整体的判别结果较为理想。 Classification Resultsa 类别 Predicted Grou

13、p Membership Total 第一组第二组第三组 Original Count 第一组 5 1 0 6 第二组 0 11 0 11 第三组 0 0 8 8 Ungrouped cases 3 0 0 3 联系方式：010-65186066 010-65188088 地址：北京市东城区建国门内大街 7 号光华长安大厦三座 2 层 % 第一组 83.3 16.7 .0 100.0 第二组 .0 100.0 .0 100.0 第三组 .0 .0 100.0 100.0 Ungrouped cases 100.0 .0 .0 100.0 a. 96.0% of original group

14、ed cases correctly classified. 将上述北京、上海、广州的相应变量带入上述公式，具体结果见下图。从图中可以看出，其中未分组的变量北京、上海、广州离第一组的中心位置最近，因而根据判别规则可以将其归为第一组。以上就是判别分析简单的应用案例，其除了 Fisher 判别之外，还有很多方法，例如，距离判别法、贝叶斯判别法等，不同的判别方法都有其特定的适应条件，正确把握其适用条件是保证结果可靠性的重要条件。就判别准则而言，就有马氏距离最小准则、Fisher 准则、平均损失最小准则、最大概率准则等等。判别分析与聚类分析不同，判别分析是在已知研究对象分成若干类型（或组别）并

15、已取得各种类型的一批样品的观测数据，在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分类。对于聚类分析来说，一批给定的样品要划分的类型事先并不知道，正需要通过聚类分析来确定类型。也正因为如此，判别分析和聚类分析往往联合起来使用，例如，判别分析是要求事先知道各类总体情况才能判断新样品的归类，当总体分类不清楚时，可先用聚类分析对原来的联系方式：010-65186066 010-65188088 地址：北京市东城区建国门内大街 7 号光华长安大厦三座 2 层一批样品进行分类，然后再用判别分析建立判别式以对新样品进行判别。总体来讲，判别分析在生活和科研中有很重要的应用，其需要不断的应用和理解，以更好的掌握这种分析方法。

展开阅读全文