方法：因子分析法－金锄头文库

资源描述

《方法：因子分析法》由会员分享，可在线阅读，更多相关《方法：因子分析法（6页珍藏版）》请在金锄头文库上搜索。

1、因子分析基础理论知识1概念因子分析（Factor analysis）:就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看，主成分分析是一种化繁为简的降维处理技术。主成分分析（Principal component analysis）:是因子分析的一个特例，是使用最多的因子提取方法。它通过坐标变换手段，将原有的多个相关变量，做线性变化，转换为另外一组不相关的变量。选取前面几个方差最大的主成分，这样达到了因子分析较少变量个数的目的，同时又能与较少的变量反映原有变量的绝大部分的信息。两者关系：主成分分析（PCA）和因子分析（F

2、A ）是两种把变量维数降低以便于描述、理解和分析的方法，而实际上主成分分析可以说是因子分析的一个特例。2特点（1）因子变量的数量远少于原有的指标变量的数量，因而对因子变量的分析能够减少分析中的工作量。（2）因子变量不是对原始变量的取舍，而是根据原始变量的信息进行重新组构，它能够反映原有变量大部分的信息。（3）因子变量之间不存在显著的线性相关关系，对变量的分析比较方便，但原始部分变量之间多存在较显著的相关关系。（4）因子变量具有命名解释性，即该变量是对某些原始变量信息的综合和反映。在保证数据信息丢失最少的原则下，对高维变量空间进行降维处理（即通过因子分析或主成分分析）。显然，在一个低维空

3、间解释系统要比在高维系统容易的多。3类型根据研究对象的不同，把因子分析分为R型和Q型两种。当研究对象是变量时，属于 R型因子分析；当研究对象是样品时，属于 Q型因子分析。但有的因子分析方法兼有 R型和Q型因子分析的一些特点，如因子分析中的对应分析方法，有的学者称之为双重型因子分析，以示与其他两类的区别。4分析原理假定：有n个地理样本，每个样本共有p个变量，构成一个 nx p阶的地理数据矩阵X11X12X1pXX21X22X2pXn1Xn2Xnp当p较大时，在p维空间中考察问题比较麻烦。这就需要进行降维处理，即用较少几个综合指标代替原来指标，而且使这些综合指标既能尽量多地反映原来指标所反

4、映的信息，同时它们之间又是彼此独立的。zl, z2,，zm ( m0.9，非常适合；0.8KM00.9，适合； 0.7KM00.8，般；0.6KMO0.7，不太适合；KMO0）和相应的标准正交的特征向量 li;根据相关系数矩阵的特征根，即公共因子 Zj的方差贡献（等于因子载荷矩阵 L中第j列各元素的平方和），计算公共因子Zj的方差贡献率与累积贡献率。ipkk 1(i 1,2, p)k k 1 p(i 1,2,p)主成分分析是在一个多维坐标轴中，将原始变量组成的坐标系进行平移变换，使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根（方差贡献）和方差贡献率

5、与累积方差贡献率等指标，来判断选取公共因子的数量和公共因子（主成分）所能代表的原始变量信息。公共因子个数的确定准则：1）根据特征值的大小来确定，一般取大于1的特征值对应的几个公共因子/主成分。2）根据因子的累积方差贡献率来确定，一般取累计贡献率达 85-95%的特征值所对应的第一、第二、第m （mW p）个主成分。也有学者认为累积方差贡献率应在80 %以上。5.3因子变量的命名解释因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子Z1,Z2,Zm是对原有变量的综合。在实际的应用分析中，主要通过对载荷矩阵进行分析，得到因子变量和原有变量之间的关系，从而对新的因子变量进行

6、命名。利用因子旋转方法能使因子变量更具有可解释性。X1a11z1a12Z2a1pzpX2a21Z1a22Z2a2p ZpXmam1Z1am2Z2ampZpZ1l11X1l12X2l1 pXpZ2l21X1l 22 X2l2pXpZml m1 X1lm2X2lmpXpaijP i hj (i , j1,2, p)a11a12 .a1 ms11伐2.hmj；ma21A=a21 .a2m咕、1I21 .2.Lm I ma p1a p1.apmf1I. p1 I 1lp12.l丨pmm计算主成分载荷，构建载荷矩阵A。载荷矩阵A中某一行表示原有变量 Xi与公共因子的相关关系。载荷矩阵 A中某一列表示某

7、一个公共因子能够解释的原有变量Xi的信息量。有时因子载荷矩阵的解释性不太好，通常需要进行因子旋转，使原有因子变量更具有可解释性。因子旋转的主要方法：正交旋转、斜交旋转。ana12.a1 mh1匚丿2.11 m ma21A=a21 .a2m21 . 1l21 2 .Lm J； ma p1a p1.apml p1 H1l p1 2. Ipm; m正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性，因此使用最多。正交旋转的方法很多，其中以方差最大化法最为常用。方差最大正交旋转(varimax orthogonal rotation)基本思想：使公共因子的相对负荷的方差之和最大，且保

8、持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小，因此可以简化对因子的解释。斜交旋转(oblique rotation)因子斜交旋转后，各因子负荷发生了变化，出现了两极分化。各因子间不再相互独立，而是彼此相关。各因子对各变量的贡献的总和也发生了改变。因子旋转的目的是使因子负荷两极分化，要么接近于0，要么接近于1。从而使原有因子变量更具有可解释性。5.4计算因子变量得分因子变量确定以后，对于每一个样本数据，我们希望得到它们在不同因子上的具体数据值，即因子得分。估计因子得分的方法主要有：回归法、Bartlette法等。计算因子得分应首先将因子变量表示为原始变量的线性组合。即：l11x1l12X2l1 pXpZ2l21X1l22X2l2pXpZml m1 X1lm2X2lmpXp回归法得分是由贝叶斯思想导出的，得到的因子得分是有偏的，但计算结果误差较小。贝叶斯判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。Bartlett法：Bartlett因子得分是极大似然估计，得到的因子得分是无偏的，但计算结果误差较大。5.5结果的分析解释此部分详细见操作演示

展开阅读全文