因子分析专题－金锄头文库

资源描述

《因子分析专题》由会员分享，可在线阅读，更多相关《因子分析专题（21页珍藏版）》请在金锄头文库上搜索。

1、因子分析专题8.1 引言因子分析是主成分分析的推广，它也是一种把多个变量化为少数几个综合变量的多元分析方法，其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。例8.1.1 Linden对二次大战以来奥林匹克十项全能比赛的得分做了分析研究，他收集了160组数据，这十个全能项目依次为：100米跑、跳远、铅球、跳高、400米跑、110米跨栏、铁饼、撑竿跳高、标枪、1500米跑。但是总的来说基本上可归结为他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面，每一个方面都称为一个因子。用分别表示十个项目的得分，它们可以表示为含有上述四个因子的线性模型：，其中表示4个因子，称为公因子，称为第

2、个变量在第个因子上的载荷。是总平均，是第项得分不能被四个公因子解释的部分，称之为特殊因子。这个模型形式上与线性回归模型几乎一样，但是它们有着本质的区别：回归模型中自变量是可以被观测得到的，而上述因子模型中的是不可观测的隐变量，这使得该模型理解起来较为困难；再者，两个模型的参数意义也很不相同。例8.1.2 为了评价高中学生将来进大学时的学习能力，抽了200名高中生进行问卷调查，共50个问题。所有这些问题可简单地归结为阅读理解、数学水平和艺术修养这三个方面。这也是一个因子分析模型，每一方面就是一个因子。例8.1.3 公司老板对48名申请工作的人进行面试，并给出申请人在15个方面所得的分数，这15个

3、方面是：（1）申请信的形式；（2）外貌；（3）专业能力；（4）讨人喜欢的能力；（5）自信心；（6）洞察力；（7）诚实；（8）推销能力；（9）经验；（10）驾驶汽车本领；（11）抱负；（12）理解能力；（13）潜力；（14）对工作要求强烈程度（15）适应性。这些问题可以归结为如下的几个方面：申请者外露的能力，讨人喜欢的程度，申请者的经验，专业能力。每一方面都是因子模型中的一个因子。8.2 因子模型一、数学模型设维可观测的随机向量的均值为，协方差矩阵为，因子分析的一般模型为（8.2.1）其中为公因子，为特殊因子，它们都是不可观测的随机变量。公因子出现在每一个原始变量的表达式中，可理解为原始变量共同

4、具有的公共因素；每个公因子至少对两个原始变量有作用，否则它将归入特殊因子。每个特殊因子仅仅出现在与之相应的第个原始变量的表示式中，它只对这个原始变量有作用。（8.2.1）式可用矩阵表示为（8.2.2）式中为公因子向量，为特殊因子向量，称为因子载荷矩阵，并假设的秩为。通常假定（8.2.3）同理易知，注意两个协方差矩阵阶数不一样。由上述假定可以看出，公因子彼此不相关且具有单位方差，特殊因子彼此不相关且和公因子也不相关。因子分析与主成分分析是多元分析中两种重要的降维方法，但两者有很大的不同。主成分分析不能作为一个模型来描述，它只能作为一般的变量变换，主成分是可观测的原始变量的线性组合；而因子分析需要

5、构造一个因子模型，公因子一般不能表示为原始变量的线性组合。二、因子模型的性质1的协方差矩阵的分解由（8.2.2）式知即（8.2.4）这就是的一个分解。如果为标准化了的随机向量，则就是相关矩阵，即有（8.2.5）2.模型不受单位的影响将的单位作变化，就是作一变换，这里，于是，令，则有（仍然为因子分析模型）这个模型能满足完全类似于（8.2.3）式的假定，即其中即，。3因子载荷是不唯一的设为任意正交矩阵，令，则模型（8.2.2）式能表示为(8.2.6)因为所以仍满足条件（8.2.3）式。从（8.2.4）式可以看出，也可分解为（8.2.7）因此，因子载荷矩阵不是唯一的，在实际应用中常常利用这一点，通过

6、因子的变换，使得新的因子有更好的实际意义。三、因子载荷矩阵的统计意义1的元素原始变量与公因子之间的协方差函数（8.2.1）式可以表示为，（8.2.8）故（8.2.9）即是与之间的协方差函数。若为标准化了的随机向量，即，则与之间的相关系数（8.2.10）此时表示与的相关系数。2的行元素平方和原始变量对公因子依赖的程度对（8.2.8）式两边取方差（8.2.11）令，于是，（8.2.12）反映了公因子对的影响，可以看成是公因子对的方差贡献，称为共性方差；而是特殊因子对的方差贡献，称为个性方差。当为标准化了的随机向量时，此时有，（8.2.13）3的列元素平方和公因子对的贡献由（8.2.11）式得（8.

7、2.14）其中，从（8.2.14）式可见，的第列元素的平方和是的系数，的值越大，反映了对的影响越大，是衡量公因子重要性的一个尺度，可视为公因子对的贡献。8.3 参数估计设是一组维样本，则和可分别估计为和为了建立因子模型，首先要估计因子载荷矩阵和个性方差矩阵。常用的参数估计方法有如下三种：主成分法，主因子法和极大似然法。一、主成分法设样本协方差矩阵的特征值依次为，相应的正交单位特征向量为。选取相对较小的主成分个数，并使得累计贡献率达到一个较高的百分比，则可作如下的近似分解其中易知，。证明如下。证明：因为，即又因为，即对比等式两边，即得，。证明完毕。这里的和就是因子模型的一个解。因子载荷矩阵的第列

8、与的第个主成分的系数向量仅相差一个倍数（），因此这个解就称为主成分解。若个原始变量的单位不同，则我们首先对原始变量作标准化变换，此时的样本协方差矩阵即为原始变量的样本相关矩阵，用代替（8.3.1）式中的，可类似地求得主成分的解。二、主因子法主因子法是因子分析中一种最简单、最有效的方法，它已经得到了最普遍的应用。我们这里假定原始变量已作了标准化变换。如果随机向量满足因子模型则有，其中为的相关矩阵，令（8.3.2）即则称为的约相关矩阵。易见，中的对角元素是，而不是1，非对角元素和中是完全一样的，并且是一个非负定矩阵。我们首先在相关矩阵及个性方差矩阵已知的条件下，求出因子载荷矩阵。由上一节因子模型的

9、性质3知，的解是不唯一的，可以有许多。主因子法就是要求得到的解能使第一个公因子对的贡献达到最大，第二个公因子对的贡献次之，第个公因子对的贡献最小。由于，所以有个正特征值，依次记为，相应的正交单位特征向量为，故的谱分解为（8.3.3）其中，（8.3.4）它就是我们所要求的主因子解。中的第列元素的平方和为，即（8.3.5）在实际应用中，相关矩阵和个性方差矩阵一般都是未知的，它们可通过一组样本来进行估计。为了符号上的方便，我们将（或）的估计值仍记为（或）。估计个性方差等价于估计共性方差，这是因为由，式知，（或）的较好估计一般很难直接得到，通常是先给出它的一个初始估计（或），待载荷矩阵估计好之后再作出

10、（或）的最终估计。个性方差（或共性方差）的常用初始估计方法有如下几种：（1）取为原始变量与其它原始变量的复相关系数的平方，则。（2）取，其中是的对角元素。（3）取，则。（4）取，则，得到的是一个主成分解。（因为此时，）因子的个数应选取为多少呢？一般可采用主成分分析中确定主成分个数的原则，即寻求一个较小的自然数，使得达到一个较高的百分比（比如至少达到85）。需要指出的是，的部分特征值可能是负的。最后，取的前的正特征值及其相应的正交单位特征向量，可以得到近似分解式其中的最终估计为，（8.3.7）我们称这样求得的和为因子模型的主因子解。如果我们希望求得近似程度更好的解，则可以采用迭代主因子法，即利用

11、（8.3.7）式中的再作为个性方差的初始估计，重复上述步骤，直至解稳定为止。三、极大似然法设公因子，特殊因子，且相互独立，则原始向量。样本的似然函数为容易知道，似然函数是的函数。由于，故似然函数可确切地表示为。记的极大似然估计为，即有可以证明，而和满足以下方程组（8.3.8）其中，由于的解是不唯一的，为了得到唯一解，可附加计算上方便的唯一性条件：是对角矩阵（8.3.9）（8.3.8）式中的和一般可用迭代方法解得。共性方差的极大似然估计为：，第个因子对总样本方差的贡献为，其中为第个变量的方差。极大似然法在正态性假定能较好地被满足或者在大样本的情况下，能给出比主因子法更好的估计，并且有令人满意的渐

12、进性质。极大似然法的计算量大约是主因子法的100倍，这是由于极大似然估计需要用迭代方法计算并且要试着提取不同个数的因子。实际应用中，在使用极大似然法之前，一般先使用主因子法进行分析，以便给出因子个数的初步估计。8.4 因子旋转因子模型的参数估计完成之后，还必须对模型中的公因子进行合理的解释。进行这种解释通常需要一定的专业知识和经验，要对每个公因子给出具有实际意义的一种名称，它可用来反映在预测每个可观测的原始变量时这个公因子的重要性，也就是相应于这个因子的载荷。因子的解释带有一定的主观性，我们常常通过旋转公因子的方法来减少这种主观性。公因子是否易于解释，很大程度上取决于因子载荷矩阵的元素结构。假

13、设是从相关矩阵出发求得的，则，故有，即的所有元素均在和1之间。如果载荷矩阵的所有元素都接近于0或，则模型的公因子就容易解释。这时可将原始变量分成个部分，第一部分对应第一个公因子，第二部分对应第二个公因子，第部分对应第个公因子。反之，如果载荷矩阵的多数元素居中，不大不小，则对模型的公因子将难以作出解释，此时必须进行因子旋转，使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量拉开大小距离，也就是尽可能地使其中的一些元素接近于0，另一些元素接近于。因子旋转方法有正交旋转和斜交旋转两类，本书中我们只讨论正交旋转。对公因子作正交旋转就是对载荷矩阵作一正交变换，右乘正交矩阵，使能有更鲜明实际意义。旋转后的公

14、因子向量为，它的各分量也是互不相关的公因子。正交矩阵的不同选取法构成了正交旋转的各种不同方法，在这些方法中使用最普遍的是最大方差旋转法（varimax），本节仅介绍这一种正交旋转法。令，则的第列元素平方的相对方差可定义为取是为了消除符号不同的影响，除以是为了消除各个原始变量对公共因子依赖程度不同的影响。备注：的第行平方和等于的第行平方和，因为两个矩阵相等，对应的对角线元素当然相等，即。备注完毕。所谓最大方差旋转法就是选择正交矩阵，使得矩阵所有个列元素平方的相对方差之和（8.4.2）达到最大。当时，设已求出的因子载荷矩阵为现选取正交变换矩阵进行因子旋转，可以表示为这里是坐标平面上因子轴按逆时针方向旋转的角度，只要求出，也就求出了。再由（8.4.1）式和（8.4.2）式即可求得各列元素平方的相对方差之和。显然，是旋转角度的函数，按照最大方差旋转法的原则，应求出，使达到最大。由微积分中求极值的方法，将对求导，并令其为零，可以推得满足（8.4.3）其中，而,当时，我们可以逐次对每两个公因子进行上述的旋转。对公因子和进行旋转，就是对的第和两列进行正交变换，使这两列元素平方的相对方差之和达到最大，而其余各列不变，其正交变

展开阅读全文