（2020年7月整理）应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析.doc

资源描述

《（2020年7月整理）应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析.doc》由会员分享，可在线阅读，更多相关《（2020年7月整理）应用多元分析论文——聚类分析;判别分析;因子分析;主成分分析.doc（16页珍藏版）》请在金锄头文库上搜索。

1、学海无涯对中国各地区农村居民人均消费支出的测评分析基于SPSS分析 12统计学 1217020072 韦* 摘要：本文对中国各地区农村居民人均消费支出进行测评分析，以31个地区2013年的8项指标数据为样本。以聚类分析和判别分析相结合对地区农村居民人均消费支出类型进行分析，利用因子分析对描述各地区的农村居民人均消费支出各项指标变量进行分析，再利用各指标变量间的相关性进行分析，得出结论，我国农村居民消费水平严重不平衡。关键词：农村居民人均消费支出；聚类分析；判别分析；因子分析；主成分分析一、前言随着经济的发展和人民生活水平的不断提高，我国农村居民人均消费支出数额不断提高，从总体上来说，大部

2、分农村居民实现消费水平上达到了小康水平，并且有向更高层次提升趋势。消费作为主要宏观经济变量，是社会总需求最重要的组成部分，国民经济的增长速度和质量受到居民的消费增长的影响，因此农村居民消费越来越受到重视。我国由地域的不同分为东部地区、中部地区和西部地区，由于地区不同，长期以来我国一直存在着严重的地区发展不平衡问题，这一问题在农村居民消费上也表现得十分明显。农村居民新的消费水平和消费性支出存在着很大的差异，因此需要对农村居民消费水平进行客观、准确、有效的评价王术.我国农村居民人均消费支出的主成分分析J.安徽农业科学,2013,29:11866-11867+11877。二、数据说明各地区农村居民

3、人均消费支出各指标变量：x1:食品 x2:衣着 x3:居住 x4:家庭设备及用品 x5:交通通信 x6:文教娱乐x7:医疗保健 x8:其他原始数据来源：中国统计年鉴2014本文所引用数据如下：三、聚类分析3.1聚类分析的基本思想聚类分析又称群分析，是分类学的一种基本方法，所谓“类”，通俗的讲，就是由相似性的元素构成的集合。聚类分析是一种探索性的分析，也是多元统计学中应用极为广泛的一种重要方法。在应用中，聚类分析是通过将一批个案或者变量的诸多特征，按照关系的远近程度进行分析。关系远近程度的定量描述方式不一样，利用聚类方法也不一样，可以产生有差别的聚类结果。聚类分析的基本思想是认为研究的样本或变量

4、之间存在着程度不同的相似性，根据一批样本的多个观测指标，具体找出一些能够度量样本或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样本(或变量)聚合为一类，把另外一些彼此之间相似程度较大的样本(变量)也聚合为一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样本(或变量)都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统；最后再把整个分类系统画成一张图，将亲疏关系表示出来高祥宝,董寒青.数据分析与SPSS应用M.北京:清华大学出版社,2007.6. 3.2聚类分析的计算和分析表3-1：案例处理摘案例处理摘要a案例有

5、效缺失合计N百分比N百分比N百分比31100.0%0.0%31100.0%a. 平方 Euclidean 距离已使用上表给出了参加系统聚类分析的9个变量（1个因变量，8个自变量）的记录数统计结果。共31个有效数据参加了分析，无缺失值记录，总记录数为31个。表3-2：聚类进度表聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 211718.1290013268.23100532425.24600941214.4750013567.5782076330.6710016756.723051982223.747002192124.7510315102931.78100201142

6、7.8940012124161.136110161312171.16741171413191.23200261520211.297091816341.46261217173121.7521613201820281.75815023195152.1857025203292.379171021213223.135208232210113.3190024233203.668211825242104.2590222925355.162231926263138.0582514272732612.90726030281914.7520029291219.323282430301343.91329270上表

7、给出了反映聚类过程的聚类进度表。它的每一行表示一次聚类，并给出聚类对象的名称，第一列对应的格中给出这次聚在一起的两个群间的距离。可看出：第一步湖北和湖南聚在一起，它们的相关系数为0.129；第二步辽宁和黑龙江聚在一起，它们的相关系数为0.231，第三步贵州和云南聚在一起，它们的相关系数为0.246，依次类推。使用Sort Cases命令，对数据窗口中Ward法生成的分类变量CLU3_1进行排序，如表3-3所示。表3-3：Ward法聚类结果整理表第一类第二类第三类北京上海浙江天津内蒙古辽宁吉林黑龙江江苏福建山东湖北湖南广东河北甘肃青海宁夏新疆山西安徽江西河南广西海南重庆四川贵州云

8、南西藏陕西从表中分类我们可以清楚的看出：第一类是北京、上海、浙江这几个经济发展水平很高的地区，这些地区的农村居民的衣着、交通和通讯、文教娱乐及服务、医疗保健等这几个项目的支出比例是这3类中最高的，这些消费项目是已经超越于日常生活必需品消费，因此这一类的农村居民生活水平是最高的。第二类中的这些地区的农村居民的衣着、交通和通讯、文教娱乐用品及服务、医疗保健等这几个项目的支出比例在所有的消费中占的比例也非常高，仅次于第一类中的几个地区，农村居民的生活水平大部分已经达到了小康水平。第三类中的地区的农村居民的生存性消费还是占主导地位，即食品、居住占主导，而精神消费、娱乐文化等消费欠缺，这一类中的农村居

9、民生活水平已经解决了温饱，正在向小康迈进。从分类中可以看出，生活水平较高的农村居民都是东部沿海经济较发达的省市，而西南部欠发达省市的农村居民生活水平相对较低，这很大原因是各地区经济发展不平衡，造成居民收入差异较大，使得贫困地区的居民可用于消费的资金不多，不敢消费。图3-1：树状聚类图由上图中可以看出：湖北和湖南两群之间的距离最短，他们首先聚在一起；在剩余的30类中（湖北和湖南第一步已聚在一起，算作一类），辽宁和黑龙江间距离最短，他们聚在一起，聚了两步，减少了2类，直到最后，由31个案例聚在一起聚成一个大群，直至此系统聚类过程完成。四、判别分析4.1判别分析的基本思想判别分析是一种对观察对象进行

10、分类的统计学方法，它与聚类分析不同，它在分析前就非常明确观察对象分为几个类别，该分析方法的目的就是从现有已知类别的观察对象中建立一个判别函数来，然后再用该判别函数去判别同质的未知类别的观察对象。判别分析过程是基于对预测变量的线性组合，这些预测变量应能够充分体现各类别之间的差异。判别分析从已确定类别样本中拟合判别函数，再把判别函数应用于相同变量所记录的新数据集，以判断新样本的类别归属常用的有Fisher判别和Bayes判别武松.SPSS在统计分析大全 M.北京:清华大学出版社,2014。4.2判别分析的计算和分析说明：判别分析操作的数据在原始数据的基础上，再根据上文的聚类分析的结果，对31个地

11、区分为3类进行分析。表4-1：组均值的均等性检验组均值的均等性的检验Wilks 的 LambdaFdf1df2Sig.食品.20454.480228.000衣着.43018.590228.000居住.39621.388228.000家庭设备及用品.37922.949228.000交通通信.32728.815228.000文教娱乐.26439.113228.000医疗保健.43518.199228.000其他.29633.357228.000由表4-1为8个变量的组均值检验，由表可以看出所有的变量当中没有出现表达无差异的情况。表4-2：特征值特征值函数特征值方差的 %累积 %正则相关性16.71

12、6a97.197.1.9332.203a2.9100.0.410a. 分析中使用了前 2 个典型判别式函数。表4-2为特征值表格，说明分析中一共提取了两个维度的Fisher判别函数，其中第一个解释了所有变异的97.1%，第二个解释了所有变异的2.9%。表4-3：标准化的典型判别函数系数标准化的典型判别式函数系数函数12食品.972.479衣着.383.961居住.248.081家庭设备及用品-.136.335交通通信.147-.565文教娱乐.235-.851医疗保健.284.600其他-.534-.678表4-3为标准化的典型判别函数系数，提供了两个判别函数中各个变量的标准化系数，可以用来判断两个函数受哪些变量的影响较大，可以看出第一函数受食品的影响较大，第二个函数受衣着的影响较大，同时可以根据该系数写出标准化的判别函数式，如下所示：Z1=0.972x1+0.383x2+0.248x3-0.136x4+0.147x5+0.235x6+0.284x7-0.534x8Z2=0.479x1+0.961x2+0.081x3+0.335x4-0.565x5-0.851x6+0.600x7-0.

展开阅读全文