应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析.pptx

资源描述

《应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析.pptx》由会员分享，可在线阅读，更多相关《应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析.pptx（16页珍藏版）》请在金锄头文库上搜索。

1、学海无涯,对中国各地区农村居民人均消费支出的测评分析,1,基于 SPSS 分析 12 统计学1217020072韦* 摘要：本文对中国各地区农村居民人均消费支出进行测评分析，以 31 个地区 2013 年的 8 项指标数据为样本。以聚类分析和判别分析相结合对地区农村居民人均消费支出类型进行分析，利用因子分析对描述各地区的农村居民人均消费支出各项指标变量进行分析，再利用各指标变量间的相关性进行分析，得出结论，我国农村居民消费水平严重不平衡。关键词：农村居民人均消费支出；聚类分析；判别分析；因子分析；主成分分析,一、前言,随着经济的发展和人民生活水平的不断提高，我国农村居民人均消费支

2、出数额不断提高，从总体上来说，大部分农村居民实现消费水平上达到了小康水平，并且有向更高层次提升趋势。消费作为主要宏观经济变量，是社会总需求最重要的组成部分，国民经济的增长速度和质量受到居民的消费增长的影响，因此农村居民消费越来越受到重视。我国由地域的不同分为东部地区、中部地区和西部地区，由于地区不同，长期以来我国一直存在着严重的地区发展不平衡问题，这一问题在农村居民消费上也表现得十分明显。农村居民新的消费水平和消费性支出存在着很大的差异，因此需要对农村居民消费水平进行客观、准确、有效的评价1。,二、数据说明,各地区农村居民人均消费支出各指标变量：,2: 衣着 4: 家庭设备及用品

3、 6: 文教娱乐 8: 其他,1: 食品 3: 居住 5: 交通通信 7: 医疗保健原始数据来源：中国统计年鉴2014,本文所引用数据如下：,2,学海无涯,三、聚类分析,3,学海无涯聚类分析的基本思想聚类分析又称群分析，是分类学的一种基本方法，所谓“类”，通俗的讲，就是由相似性的元素构成的集合。聚类分析是一种探索性的分析，也是多元统计学中应用极为广泛的一种重要方法。在应用中，聚类分析是通过将一批个案或者变量的诸多特征，按照关系的远近程度进行分析。关系远近程度的定量描述方式不一样，利用聚类方法也不一样，可以产生有差别的聚类结果。聚类分析的基本思想是认为研究的样本或变量之

4、间存在着程度不同的相似性，根据一批样本的多个观测指标，具体找出一些能够度量样本或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样本(或变量)聚合为一类，把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样本(或变量) 都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统；最后再把整个分类系统画成一张图，将亲疏关系表示出来2 聚类分析的计算和分析表 3-1：案例处理摘案例处理摘要 a,a. 平方 Euclidean 距离已使用上表给出了参加系统聚类分

5、析的 9 个变量（1 个因变量，8 个自变量）的记录数统计结果。共 31 个有效数据参加了分析，无缺失值记录，总记录数为 31 个。表 3-2：聚类进度表聚类表,4,学海无涯,上表给出了反映聚类过程的聚类进度表。它的每一行表示一次聚类，并给出聚类对象的名称，第一列对应的格中给出这次聚在一起的两个群间的距离。可看出：第一步湖北和湖南聚在一起，它们的相关系数为 0.129；第二步辽宁和黑龙江聚在一起，它们的相关系数为 0.231，第三步贵州和云南聚在一起，它们的相关系数为 0.246，依次类推。使用 Sort Cases 命令，对数据窗口中 Ward 法生成的分类变量 CLU3

6、_1 进行排序，如表 3-3 所示。表 3-3：Ward 法聚类结果整理表,5,学海无涯,从表中分类我们可以清楚的看出：第一类是北京、上海、浙江这几个经济发展水平很高的地区，这些地区的农村居民的衣着、交通和通讯、文教娱乐及服务、医疗保健等这几个项目的支出比例是这 3 类中最高的，这些消费项目是已经超越于日常生活必需品消费，因此这一类的农村居民生活水平是最高的。第二类中的这些地区的农村居民的衣着、交通和通讯、文教娱乐用品及服务、医疗保健等这几个项目的支出比例在所有的消费中占的比例也非常高，仅次于第一类中的几个地区，农村居民的生活水平大部分已经达到了小康水平。第三类中的地区

7、的农村居民的生存性消费还是占主导地位，即食品、居住占主导，而精神消费、娱乐文化等消费欠缺，这一类中的农村居民生活水平已经解决了温饱，正在向小康迈进。从分类中可以看出，生活水平较高的农村居民都是东部沿海经济较发达的省市，而西南部欠发达省市的农村居民生活水平相对较低，这很大原因是各地区经济发展不平衡，造成居民收入差异较大，使得贫困地区的居民可用于消费的资金不多，不敢消费。,学海无涯,图 3-1：树状聚类图由上图中可以看出：湖北和湖南两群之间的距离最短，他们首先聚在一起；在剩余的 30 类中（湖北和湖南第一步已聚在一起，算作一类），辽宁和黑龙江间距离最短，他们聚在一起，聚了两步，减

8、少了 2 类，直到最后，由 31 个案例聚在一起聚成一个大群，直至此系统聚类过程完成。,6,学海无涯四、判别分析判别分析的基本思想判别分析是一种对观察对象进行分类的统计学方法，它与聚类分析不同，它在分析前就非常明确观察对象分为几个类别，该分析方法的目的就是从现有已知类别的观察对象中建立一个判别函数来，然后再用该判别函数去判别同质的未知类别的观察对象。判别分析过程是基于对预测变量的线性组合，这些预测变量应能够充分体现各类别之间的差异。判别分析从已确定类别样本中拟合判别函数，再把判别函数应用于相同变量所记录的新数据集，以判断新样本的类别归属常用的有 Fisher 判别和 B

9、ayes 判别3。判别分析的计算和分析,说明：判别分析操作的数据在原始数据的基础上，再根据上文的聚类分析的结果，对,31 个地区分为 3 类进行分析。,表 4-1：组均值的均等性检验组均值的均等性的检验,由表 4-1 为 8 个变量的组均值检验，由表可以看出所有的变量当中没有出现表达无差异的情况。表 4-2：特征值特征值,7,.410,学海无涯 2.203a2.9100.0 a. 分析中使用了前 2 个典型判别式函数。,表 4-2 为特征值表格，说明分析中一共提取了两个维度的 Fisher 判别函数，其中第一个解释了所有变异的 97.1%，第二个解释了所有变异的 2.9%。

10、表 4-3：标准化的典型判别函数系数标准化的典型判别式函数系数,表 4-3 为标准化的典型判别函数系数，提供了两个判别函数中各个变量的标准化系数，可以用来判断两个函数受哪些变量的影响较大，可以看出第一函数受食品的影响较大，第二个函数受衣着的影响较大，同时可以根据该系数写出标准化的判别函数式，如下所示： Z1 = 0.972x1 + 0.383x2 + 0.248x3 0.136x4 + 0.147x5 + 0.235x6 + 0.284x7 0.534x8 Z2 = 0.479x1 + 0.961x2 + 0.081x3 + 0.335x4 0.565x5 0.851x6 + 0.600

11、 x7 0.678x8 表 4-4：分类结果分类结果b,c,8,学海无涯,仅对分析中的案例进行交叉验证。在交叉验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。已对初始分组案例中的 90.3 个进行了正确分类。已对交叉验证分组案例中的 80.6 个进行了正确分类。表 4-4 所示为分类结果表格，该表的第一部分为使用普通方法对每天记录的判别结果，第二部分为刀切法的结果，两种方法的正确率分别为 100%和 66.7%。可见该判别函数较为稳定。,9,五、因子分析和主成分分析 5.1 因子分析的基本思想,因子分析是一种通过显在变量，通过具体指标评测抽象因子的分

12、析方法。因子分析的基本目的是用少数几个因子去描述多个变量之间的关系，被描述的变量一般都是能实际观测到的随机变量，而那些因子是不可观测的潜在变量。因子分析的基本思想是根据相关性的大小把变量分组，使得组内的变量相关性较高，而不同组内的变量相关性较低。每组变量代表一个基本结构，这些基本结构成为一个公共因子。对于研究的问题就可以试图用最少数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量。,5.2 因子分析的原理和方法,因子分析的出发点是用较少的相互独立的因子变量代替原来变量的大部分信息，可以用下面数学模型来表示： 1 = 111 + 122 + 133 + + 1

13、2 = 211 + 222 + 233 + + 2,学海无涯 = 11 + 22 + 33 + + 式中，1，2，，为 p 个原有变量，是均值为 0、标准差为 1 的标准化变量，而1，2，，为 m 个因子变量，m 小于 p，表示成矩阵形式为： X = AF + 式中，F 为公共因子，可以理解为高维空间中相互垂直的 m 个坐标轴；A 为因子载荷矩阵，是第i 个原有变量在第 j 个因子变量上的负荷4。 5.3 因子分析的计算和分析表 5-1：KMO 和Bartlett 的检验,由表 5-1 可以得出 KMO 统计量为 0.878，大于最低标准 0.5，适合做因子分析。Bartle

14、tt 球形检验，拒绝单位相关阵的原假设，P0.001，适合做因子分析。表 5-2：主成分列表解释的总方差,提取方法：主成份分析。由表 5-2 可以看出，选取 1 公共因子，第一个主成分的特征值大于 1，贡献率为 80.63%。表 5-3：公因子方差比公因子方差,10,学海无涯,提取方法：主成份分析。由表5-3 的结果显示，每一个指标变量的共性方差都在0.5 以上，且大多数都接近0.75，说明这个公因子能够较好地反应原始各项指标变量的大部分信息。,图 5-1：各成分的碎石图如图 5-1 所示，结合特征根曲线的拐点及特征值，从上图可以看出，前面 1 个主成分的折现坡度比较陡

15、，而后面的趋于平缓，该图从侧面说明了提取 1 个主成分为宜。表 5-4 旋转前的因子载荷结果成份矩阵a,11,学海无涯,用x1、x2，，x8表示 8 个变量，则根据表 4-4 可以得出以下的得分函数： F1 = 0.906x1 + 0.889x2 + 0.845x3 + 0.880 x4 + 0.910 x5 + 0.943x6 + 0.822x7 + 0.954x8 由于利用基于特征值抽取特征值大于 1，所提取的成份只有一个，无法生成成份图。故利用固定的因子数量提取 3 个因子，其他步骤同上，可得出以下结果：表 5-5：成份矩阵,提取方法 :主成份。 a. 已提取了 3 个成

16、份。由表 5-5 的成份矩阵可以得到因子载荷矩阵 A，对应上文因子分析的数学模型部分，可以得到如下的因子分析模型： X = AF + 即， 1 = 0.9061 0.1592 + 0.2623 2 = 0.8891 0.1282 0.3413 = 0.9541 0.0972 0.0343,12,学海无涯,图 5-2：载荷散点图图5-2是载荷散点图，这里为3个因子的三维因子载荷散点图，以3个因子为坐标，给出各原始变量在该坐标中的载荷散点图。该图是旋转后因子载荷矩阵的图形化表示方式。如果因子载荷矩阵比较复杂，则通过该图较容易解释。表5-6：成份得分协方差矩阵成份得分协方差矩阵,提取方法 :主成份。旋转法 :具有 Kaiser 标准化的正交旋转法。构成得分。从协方差矩阵看，不用因子之间的数据为0，证明3个因子变量之间是不相关的。,13,14,学海无涯 5.4 主成分分析的原理和方法主成分分析的思想是利用降维思想，将多个互相关联的数值变量转化成少数几个互不相关的综合指标的统计方法。这些综合

展开阅读全文