主成分分析方法.doc－金锄头文库

资源描述

《主成分分析方法.doc》由会员分享，可在线阅读，更多相关《主成分分析方法.doc（9页珍藏版）》请在金锄头文库上搜索。

1、根据特征根及其特征向量解释主成分物理意义。主成分分析法简介主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分。依次类推，I个变量就有I个主成分。其中Li为p维正交化向量（LiLi1），Zi之间互不相关且按照方差由大到小排列，则称Zi为X的第I个主成分。设X的协方差矩阵为，则必为半正定对称矩阵，求特征值i（按从大到小排序）及其特征向量，可以证明，i所对应的正交化特征向量，即为第I个

2、主成分Zi所对应的系数向量Li，而Zi的方差贡献率定义为ij,通常要求提取的主成分的数量k满足kj0.85。编辑本段主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中的变异的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析实际上是一种降维方法。编辑本段分析步骤数据标准化; 求相关系数矩阵; 一系列正交变换，使非对角线上的数置0，加到主对角上; 得特征根xi（即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列; 求各个特征根

3、对应的特征向量; 用下式计算每个特征根的贡献率Vi; Vi=xi/(x1+x2+.) 根据特征根及其特征向量解释主成分物理意义。编辑本段主成分分析法在社会调查中的应用在社会调查中，对于同一个变量，研究者往往用多个不同的问题来测量一个人的意见。这些不同的问题构成了所谓的测度项，它们代表一个变量的不同方面。主成分分析法被用来对这些变量进行降维处理，使它们“浓缩”为一个变量，称为因子。在用主成分分析法进行因子求解时，我们最多可以得到与测度项个数一样多的因子。如果保留所有的因子，就起不到降维的目的了。但是我们知道因子的大小排列，我们可以对它们进行舍取。那么多小的因子需要舍弃呢？在一般的行为研究中，

4、我们常常用到的判断方法有两个：特征根大于1法与碎石坡法。因为因子中的信息可以用特征根li来表示，所以我们有特征根大于1这个规则。如果一个因子的特征根大于1就保留，否则抛弃。这个规则，虽然简单易用，却只是一个经验法则(rule of thumb)，没有明确的统计检验。不幸的是，统计检验的方法在实际中并不比这个经验法则更有效(Gorsuch, 1983)。所以这个经验法则至今仍是最常用的法则。作为一个经验法则，它不总是正确的。它会高估或者低估实际的因子个数。它的适用范围是20-40个的测度项，每个理论因子对应3-5个测度项，并且样本量是大的 ( 3100)。碎石坡法是一种看图方法。如果我们以因

5、子的次序为X轴、以特征根大小为Y轴，我们可以把特征根随因子的变化画在一个坐标上，因子特征根呈下降趋势。这个趋势线的头部快速下降，而尾部则变得平坦。从尾部开始逆向对尾部画一条回归线，远高于回归线的点代表主要的因子，回归线两旁的点代表次要因子。但是碎石坡法往往高估因子的个数。这种方法相对于第一种方法更不可靠，所以在实际研究中一般不用。抛弃小因子、保留大因子之后，降维的目的就达到了。编辑本段因子旋转在对社会调查数据进行分析时，除了把相关的问题综合成因子并保留大的因子，研究者往往还需要对因子与测度项之间的关系进行检验，以确保每一个主要的因子（主成分）对应于一组意义相关的测度项。为了更清楚的展现因子

6、与测度项之间的关系，研究者需要进行因子旋转。常见的旋转方法是VARIMAX旋转。旋转之后，如果一个测度项与对应的因子的相关度很高（0.5)就被认为是可以接受的。如果一个测度项与一个不对应的因子的相关度过高（0.4），则是不可接受的，这样的测度项可能需要修改或淘汰。用主成分分析法得到因子，并用因子旋转分析测度项与因子关系的过程往往被称为探索性因子分析。在探索性因子分析被接受之后，研究者可以对这些因子之间的关系进行进一步测试，比用如结构方程分析来做假设检验。主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众

7、多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第

8、一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分。依次类推，I个变量就有I个主成分。这种方法避免了在综合评分等方法中权重确定的主观性和随意性，评价结果比较符合实际情况；同时，主成份分量表现为原变量的线性组合，如果最后综合指标包括所有分量，则可以得到精确的结果，百分之百地保留原变量提供的变差信息，即使舍弃若干分量，也可以保证将85以上的变差信息体现在综合评分中，使评价结果真实可靠。是在实际中应用得比较广的一种方法。由于其第一主成份（因子）在所有的主成分中包含信息量最大，很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。综上所述，该方法的优点主要体现在两个方面：

9、1.权重确定的客观性；2.评价结果真实可靠。1主成分分析的基本原理主成分分析：把原来多个变量划为少数几个综合指标的一种统计分析方法，是一种降维处理技术。）记原来的变量指标为x1，x2，xP，它们的综合指标新变量指标为z1，z2，zm（mp），则z1，z2，zm分别称为原变量指标x1，x2，xP的第一，第二，第m主成分，在实际问题的分析中，常挑选前几个最大的主成分。 zi与zj（ij；i，j=1，2，m）相互无关； z1是x1，x2，xP的一切线性组合中方差最大者，z2是与z1不相关的x1，x2，xP的所有线性组合中方差最大者；zm是与z1，z2，zm1都不相关的x1，x2，xP的所有线性组合中

10、方差最大者。2. 主成分分析的计算步骤计算相关系数矩阵计算特征值与特征向量计算主成分贡献率及累计贡献率计算主成分载荷主成分分析方法（举例）3. 主成分分析方法应用实例1) 实例1: 流域系统的主成分分析（张超，1984）表3.5.1（点击显示该表）给出了某流域系统57个流域盆地的9项变量指标。其中，x1代表流域盆地总高度（m），x2代表流域盆地山口的海拔高度（m），x3代表流域盆地周长（m），x4代表河道总长度（m），x5代表河道总数，x6代表平均分叉率，x7代表河谷最大坡度（度），x8代表河源数， x9代表流域盆地面积（km2）。注：表中数据详见书本87和88页。(1) 分析过程：

11、将表3.5.1中的原始数据作标准化处理，然后将它们代入相关系数公式计算，得到相关系数矩阵（表3.5.2）。由相关系数矩阵计算特征值，以及各个主成分的贡献率与累计贡献率（见表3.5.3）。由表3.5.3可知，第一，第二，第三主成分的累计贡献率已高达86.5%，故只需求出第一、第二、第三主成分z1，z2，z3即可。z3上的载荷（表3.5.4）。http:/ | | 添加到搜藏 | 分享到i贴吧 | 浏览(636) | 评论(2) 网友评论回复12527428792011-06-23 11:58详细一点更好回复2sitong_8882011-08-07 21:37主要思想还是传达了发表评论窗体顶端内容：取消回复窗体底端

展开阅读全文

主成分分析方法.doc

最新文档