主要成分分析在多指标综合评价权重问题中的应用

资源描述

《主要成分分析在多指标综合评价权重问题中的应用》由会员分享，可在线阅读，更多相关《主要成分分析在多指标综合评价权重问题中的应用（25页珍藏版）》请在金锄头文库上搜索。

1、目录引言 1 第一章主成分分析的基本思想 21.1 数学思路 21.2 几何解释 3 第二章主成分和权重的推导及它们的性质 42.1 两个线性代数的结论 42.2 主成分的推导 52.3 权重的计算 82.4 主成分的性质 8第三章数学模型 93.1 构造综合评价函数 93.2 样本主成分 103.3 样本主成分的性质 123.4 主成分模型中各统计量的意义 123.5 主成分个数的选取原则 133.6 主成分分析的基本步骤 133.7 主成分分析主要有以下几方面的应用 14第四章实例分析 154.1 问题的提出154.2 主成分分析的计算步骤及实例164.3 构造综合评价指数的方法1

2、9附表1 20参考文献21致谢22附录 2：英语文献译 231、英语原文232、译文引言一项十分著名的工作是美国的统计学家斯通（stone）在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后，竟以97.4的精度，用三新变量就取代了原17个变量。根据经济学知识，斯通给这三个新变量分别命名为总收入F1、总收入变化率F2 和经济发展或衰退的趋势F3。更有意思的是，这三个变量其实都是可以直接测量的。主成分分析就是把各变量之间互相关

3、联的复杂关系进行简化分析的方法。在社会经济的研究中，为了全面系统的分析和研究问题，必须考虑许多经济指标，这些指标能从不同的侧面反映我们所研究的对象的特征，但在某种程度上存在信息的重叠，具有一定的相关性。主成分分析试图在力保数据信息丢失最少的原则下，对这种多变量的截面数据表进行最佳综合简化，也就是说，对高维变量空间进行降维处理。其中关于主成分分析方法的理论先辈们已经做了很多研究，本设计的设立和研究，就是为了寻找一个合理的评价指标体系和比较评价方法，利用主成分分析的方法来获取各个综合指标的权重，构造一个综合评价函数。在力求数据信息丢失最少的原则下，对高维的变量空间降维，即研究指标体系

4、的少数几个线性组合，并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。第一章主成分分析的基本思想主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。主成分分析试图在力保数据信息丢失最少的原则下，对这种多变量的截面数据表进行最佳综合简化，也就是说，对高维变量空间进行降维处理。在力求数据信息丢失最少的原则下，对高维的变量空间降维，即研究指标体系的少数几个线性组合，并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是：（1）基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的变量

5、具有不同的量纲，变量水平差异很大，应该选择基于相关系数矩阵的主成分分析。（2）选择几个主成分。主成分分析的目的是简化变量，一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分，应该权衡主成分个数和保留的信息。（3）如何解释主成分所包含的实际意义。1.1 数学思路假设我们所讨论的实际问题中，有p个指标，我们把这p个指标看作p个随机变量，记为x ,x ,x ,主成分分析就是要把这p个指标的问题，转变为讨论p个指标的线性12 p组合的问题，而这些新的指标y ,y,y （k Var(y ) Var(y )12p1.2 几何解释y2“V；” =Xj GOS0 +兀 sill0 y2 二一西

6、 sin0 +花 gosB7icos sin-smO cos x2为了方便，我们在二维空间中讨论主成分的几何意义。设有n个样品，每个样品有两个观测变量x和x，在由变量x和x所确定的二维平面中，n个样本点所散布的情1 2 1 2况如椭圆状。由图可以看出这n个样本点无论是沿着x轴方向或x轴方向都具有较大的 12离散性，其离散的程度可以分别用观测变量X的方差和x的方差定量地表示。显然,12如果只考虑 x 和 x 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损12失。如果我们将x轴和x轴先平移，再同时按逆时针方向旋转。角度，得到新坐标轴y1 2 1和y 。 y和y是两个新变量根据旋转变换

7、的公式：y 二 x cos0 + x sin0彳11 2y =-x sin0 + x cos01 1 2r y)1I y2丿r cos0sin0 ) r x )1cos0 丿 jx2U为旋转变换矩阵，它是正交矩阵，即有U =U1,UU = I旋转变换的目的是为了使得 n 个样品点在 y 轴方向上的离散程度最大，即 y 的方 11 差最大。变量 y 代表了原始数据的绝大部分信息，在研究某经济问题时，即使不考虑变1量 y 也无损大局。经过上述旋转变换原始数据的大部分信息集中到 y 轴上，对数据中包 21含的信息起到了浓缩作用。y ，y 除了可以对包含在 x ，x 中的信息起着浓缩作用之外，还具有

8、不相关的性质， 1 2 1 2这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上各个点的方差大部分都归结在y轴上，而y轴上的方差很小。y和y称为原始变量x和x的综合1 2 1 2 1 2变量。 y 简化了系统结构，抓住了主要矛盾。第二章主成分和权重的推导及它们的性质2.1两个线性代数的结论1、若A是p阶实对称阵，则一定可以找到正交阵u，使九0000九p其中九，i = l,2p是A的特征根。2、若上述矩阵的特征根所对应的单位特征向量为 u ,u ,u1 2 puuu11121puuuU = （u，,u ）=21222p1p:令uuup1p2pp则实对称阵A属于不同特征根所对应

9、的特征向量是正交的，即有UU = UU = I2.2 主成分的推导一）第一主成分O 2O1pO2pO2112OO 2E =212设 X 的协方差阵为x:O Op1 p 2为非负定的对称阵，利用线性代数的知识可得，必存在正交阵U，使得1UE U =X0其中九,九，九为丫的特征根，不妨假设X 1 1。而U恰好是由特征根1 2 p x相对应的特征向量所组成的正交阵。12uuu11121puuuU = （u，u ）=21222p1p5uuup1p2ppUa1九=au ,u ,1 1 2X一1X2u11 u2a1.XpuppF面我们来看,是否由u的第一列元素所构成为原始变量的线性组合是否有最大的方差。

10、设有p维正交向量a ,a , ,a )111 21p1y = a X + a X = aX i ii ipi p1九V (F) = ata = aU 21111=另九 au uai i i i=1=另九(au )2 iii=1x(au )21i=1i=x 弋 au ua1 =1i i=x aUUa =九 aa =九1 1 1当且仅当 a =u 时 ,11+ u X 时，p 1p有最大的方差 x 。因为Vak )= U工U=。1 1 x 1 1如果第一主成分的信息不够,则需要寻找第二主成分。(二) 第二主成分在约束条件cov(y,y ) = 0下，寻找第二主成分12y = u X + u X2 12 1 p 2 p因为 cov(y , y ) cov(u x, u x) u Yu = h u u 01 2 1 2 2 1 1 2 1所以u u 021则，对P维向量u，有2V(y ) u Yu 刀九 u uu u2 2 2i1i2ii2刀九(uu )2 x p (Uu )22iii1i2i2入壬uuuu2 2 i i 2i1 h u UU u h u u h2 2 2 2 2 2 2所以如果取线性变换：y u X + u X + u X2121222p 2 p则y的方差次大。2y u X + u X

展开阅读全文