安徽省各地区经济发展和居民经济生活水平分析报告

资源描述

《安徽省各地区经济发展和居民经济生活水平分析报告》由会员分享，可在线阅读，更多相关《安徽省各地区经济发展和居民经济生活水平分析报告（15页珍藏版）》请在金锄头文库上搜索。

1、. . . . .统计软件的应用和开发安徽省各地区经济发展和居民经济生活水平分析姓名：苏贺班级：数学 091学号： 3090801126联系方式： 15212272918目录摘要3一、研究目的：4二、理论知识：4 2.1主成分分析4 2.2聚类分析6三、数据的预处理：9四、具体模型9 4.1数据输入9 4.2 主成分分析9 4.3 聚类分析10五、计算结果及分析10 5.1 数据输入10 5.2 主成分分析11 5.3 聚类分析12 5.4 结果分析总结 13参考文献15附录16安徽省各地区经济发展和居民经济生活水平分析摘要：本文利用多元统计分析中的因子分析法，选用8个主要经济

2、指标对安徽省各地区经济发展和居民经济生活水平进行了综合评价和分析。在SAS软件上实现运用主成分分析法和聚类分析法对安徽省各城市进行了等级划分以及城市居民收入水平存在的差异进行分析。关键字：地区经济发展居民经济生活水平主成分分析法聚类分析法一研究目的随着社会主义市场经济不断完善，安徽省各市经济发展水平不断提高，人民经济生活水平也在日益改善。但在发展的另一种趋势也明显起来，即安徽省各市之间的经济发展水平两级分化程度不断加大，某些市出现经济发展水平与居民经济生活水平不相协调的现象。本文通过运用统计分析学的相关知识以及sas软件的运用，对安徽省17个城市的7项经济指标进行分析，比较城市之间经济

3、水平之间的差异，分析居民收入的总体情况。以便于了解本段开始提到的问题。二理论知识2.1主成分分析主成份分析(Principal Components Analysis)是研究如何将多个变量指标间的问题化为较少的几个新指标问题。这些新的指标是彼此既互不相关，又能综合反映原来多个指标信息，是原来多个指标的线性组合。多指标的主成份分析常被用来寻找判断某种事物或现象的综合指标，并给综合指标所蕴藏的信息以恰当解释，以便更深刻地揭示事物内在的规律。这种处理问题的方法就称为主成份分析或主分量分析，综合后的新指标则称为原来指标的主成份或主分量。主分量分析还可用于揭示变量间的共线性。2.1.1主成分分析的数学

4、模型设有n个样品（多元观测值），每个样品观测p项指标（变量）：X1，X2，Xp，得到原始数据资料阵：其中Xi = (x1i，x2i，xni)，i = 1，2，p。用数据矩阵X的p个列向量（即p个指标向量）X1，X2，Xp作线性组合，得综合指标向量：简写成：Fi = a1iX1 + ai2X2 +apiXp i = 1，2，p为了加以限制，对组合系数ai = (a1i，a2i，api)作如下要求：即：ai为单位向量：aiai = 1，且由下列原则决定： 1) Fi与Fj（ij, i, j = 1, , p）互不相关，即Cov(Fi，Fj) = aiSai = 0，其中是X的协方差阵。2) F1

5、是X1，X2，Xp的一切线性组合（系数满足上述要求）中方差最大的，即：其中c = (c1，c2，cp)满足上述要求的综合指标向量F1，F2，Fp就是主成分，这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减，每一个主成分所提取的信息量用方差来度量，主成分方差的贡献就等于原指标相关系数矩阵相应的特征值li，每一个主成分的组合系数：ai = (a1i，a2i，api)，就是相应特征值li所对应的单位特征向量ti。方差的贡献率为，ai越大，说明相应的主成分反映综合信息的能力越强。2.1.2使用PRINCOMP过程进行主成分分析1. PRINCOMP过程的功能简介1) PRINCOMP

6、过程计算结果有：简单统计量，相关阵或协方差阵，从大到小排序的特征值和相应特征向量，每个主成分解释的方差比例，累计比例等。由特征向量得出相应的主成分，用少数几个主成分代替原始变量，并计算主成分得分。2) 主成分的个数可以由用户自己确定，主成分的名字可以用户自己规定，主成分得分是否标准化可由用户规定。2. PRINCOMP过程的格式PRINCOMP过程的常用格式如下：PROC PRINCOMP ;VAR 变量列表;WEIGHT 变量列表;FREQ 变量列表;PARTIAL 变量列表;BY 变量列表;RUN;1）输入数据集可以是原始数据集、相关阵、协方差阵等。输入为原始数据时，还可以规定从协方差阵出

7、发还是从相关阵出发进行分析，由协方差阵出发时方差大的变量在分析中起到更大的作用。2) 该过程还可生成两个输出数据集：一个包含原始数据及主成分得分，它可作为主成分回归和聚类分析的输入数据集；另一个包含有关统计量，类型为TYPE = CORR或COV的输出集，它也可作为其他过程的输入SAS集。2.2聚类分析聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量，然后根据这种统计量把元素分成若干类。2.2.1聚类分析的一般模型设有n个样品(多元观测值)，每个样品测得m项指标(变量)，得到观测数据xij（i=1,n；j=1,m），如表所示。X1X2XmX(1)x11x12x1mX(2)x21x22

8、x2mX(n)xn1xn2xnm图2-1表2-1中数据又称为观测数据阵或简称为数据阵，其数学表示为：其中列向量Xj = (x1j，x2j，xnj)，表示第j项指标（j = 1，2，m），行向量X(i) = (xi1，xi2，xin)表示第i个样品。2.2.2两种聚类分析根据分类对象的不同，聚类分析分为两种：(1) 样品聚类：样品聚类是对样品（观测）进行的分类处理，又称为Q型分类，相当于对观测数据阵按行分类。(2) 变量聚类：变量聚类是对变量（指标）进行的分类处理，又称为R型分类，相当于对观测数据阵按列分类。两种聚类在形式上是对称的，处理方法也是相似的。2.2.3聚类分析的方法聚类方法大致可归纳

9、如下：(1) 系统聚类法（谱系聚类）先将l个元素（样品或变量）看成l类，然后将性质最接近（或相似程度最大）的2类合并为一个新类，得到l 1类，再从中找出最接近的2类加以合并变成了l 2类，如此下去，最后所有的元素全聚在一类之中。(2) 分解法（最优分割法）其程序与系统聚类相反。首先所有的元素均在一类，然后按照某种最优准则将它分成2类、3类，如此下去，一直分裂到所需的k类为止。(3) 动态聚类法（逐步聚类法）开始将l个元素粗糙地分成若干类，然后用某种最优准则进行调整，一次又一次地调整，直至不能调整为止。(4) 有序样品的聚类n个样品按某种因素（时间或年龄或地层深度等）排成次序，要求必须是次序相邻

10、的样品才能聚在一类。其他还有：有重叠聚类、模糊聚类、图论聚类等方法。2.2.4系统聚类法的基本思想设有n个样品，每个样品测得m项指标。系统聚类方法的基本思想是：首先定义样品间的距离（或相似系数）和类与类之间的距离。一开始将n个样品各自自成一类，这时类间的距离与样品间的距离是等价的；然后将距离最近的两类合并，并计算新类与其他类的类间距离，再按最小距离准则并类。这样每次减少一类，直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象地表达出来。2.2.5系统聚类法的基本步骤(1) 数据变换为了便于比较或消除量纲的影响，在作聚类之前常常首先要对数据进行变换。变换的方法有中心化变换、标准化变换

11、、极差标准化变换、极差正规化变换、对数变换等。最常用的标准化变换为：其中， j = 1，2，m。变换后的数据，每个变量的样本均值为0，标准差为1，而且标准化变换后的数据与变量的量纲无关。(2) 计算n个样品两两间的距离：选择度量样品间距离的定义，计算n个样品两两间的距离，得样品间的距离矩阵D(0)。(3) 聚类过程：首先n个样品各自构成一类，类的个数k = n：Gi = X(i)（i = 1，n），此时类间的距离就是样品间的距离（即D(1) = D(0)）。令j = 2，n，执行如下并类过程：1) 合并类间距离最小的两类为一新类（类间距离参见下文“系统聚类分析的方法”）。此时类的总个数k减少

12、1类，即k = n j + 1。2) 计算新类与其他类的距离，得新的距离矩阵D(j)）。3）若合并后类的总个数k仍大于1，重复1)和2)步，直到类的总个数为1时止。4) 画谱系聚类图:谱系图能明确清晰地描述各个样本点在不同层次上聚合分类的情况。5) 决定分类的个数及各类的成员。2.2.6用CLUSTER过程和TREE过程进行系统聚类1、CLUSTER过程系统聚类CLUSTER过程的一般格式为： PROC CLUSTER ；VAR ；COPY ；ID ； RUN；其中：1) PROC CLUSTER语句为调用CLUSTERS过程的开始。2) VAR语句指定用来聚类的数值型变量。如果缺省，则使用

13、没有列在其他语句中的所有数值型变量。3) COPY语句把指定的变量复制到OUTTREE = 的数据集中，以备后用。4) ID语句中指定的变量用于区分聚类过程中的输出及OUTTREE数据集中的观测。 2、TREE过程 TREE过程可以把CLUSTER过程产生的OUTTREE = 数据集作为输入，画出聚类谱系图，并按照用户指定的聚类水平(类数)产生分类结果数据集。一般格式如下：PROC TREE ；COPY ；ID ；RUN；其中： 1) PROC TREE语句为调用TREE过程的开始，其常用选项及功能见表8-3。2) COPY语句把输入数据集中的变量复制到输出数据集。3) ID语句用于指定在输出树状图中的识别对象，ID变量可以是字符或数值变量。如果省略，TREE过程将使用变量_NAME_。三数据的预处理包括：1数据转置；2数据排序；3数据拆分；4数据选择。四具体模型4.1数据输入 data ccc；input area$ x1 x2 x3 x4 x5 x6;Cards4.2 主成分分

展开阅读全文