应用多元分析第三版PPT第八章课件

资源描述

《应用多元分析第三版PPT第八章课件》由会员分享，可在线阅读，更多相关《应用多元分析第三版PPT第八章课件（50页珍藏版）》请在金锄头文库上搜索。

1、第八章因子分析v8.1 引言 v8.2 正交因子模型 v8.3 参数估计 v8.4 因子旋转 v8.5 因子得分 .8.1 引言 v主成分分析的成功需满足如下两点：(1)前(少数)几个主成分具有较高的累计贡献率；(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释。(往往正是主成分分析的困难之处)v因子分析的用途与主成分分析类似，它也是一种降维方法。由于因子往往比主成分更易得到解释，故因子分析比主成分分析更容易成功，从而有更广泛的应用。.v从方法上来说，因子分析比主成分分析更为精细，自然理论上也就更为复杂。主成分分析只涉及一般的线性变换，不涉及模型，仅需假定二阶矩存在。而因子分析

2、需建立一个数学模型，并作一定的假定。v因子分析起源于20世纪初，K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力，主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。v因子分析的目的是为了降维，降维的方式是试图用少数几个潜在的、不可观测的随机变量来描述原始变量间的协方差关系。.v例8.1.1 林登(Linden)根据他收集的来自139名运动员的比赛数据，对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目为：100米跑(x1)，跳远(x2)，铅球(x3)，跳高(x4)，400米跑(x5)，11米跨栏(x6)，铁饼(x

3、7)，撑杆跳高(x8)，标枪(x9)，1500米跑(x10)。经标准化后所作的因子分析表明，十项得分基本上可归结于他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面，每一方面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型：xi=i+fi1+fi2+fi3+fi4+i, i=1,2,10 其中f1, f2, f3, f4表示四个因子，称为公共因子(common factor)，aij称为xi在因子fj上的载荷(loading)，i是xi的均值，i是xi不能被四个公共因子解释的部分，称之为特殊因子(specific factor)。.v例8.1.3 公司老板对48名应聘

4、者进行面试，并给出他们在15个方面所得的分数，这15个方面是：x1：申请书的形式x9：经验x2：外貌x10：积极性x3：专业能力x11：抱负x4：讨人喜欢x12：理解能力x5：自信心x13：潜力x6：精明x14：交际能力x7：诚实x15：适应性x8：推销能力通过因子分析，这15个方面可以归结为应聘者的外露能力、经验、讨人喜欢的程度、专业能力和外貌这五个因子。.8.2 正交因子模型v一、数学模型 v二、正交因子模型的性质v三、因子载荷矩阵的统计意义.一、数学模型v设有p维可观测的随机向量，其均值为，协差阵为=(ij)。因子分析的一般模型为其中f1, f2, , fm为公共因子，1, 2, ,

5、 p为特殊因子，它们都是不可观测的随机变量。公共因子出现在每一个原始变量的表达式中，可理解为原始变量共同具有的公共因素。上式可用矩阵表示为x=+Af+ .式中为公共因子向量，为特殊因子向量，称为因子载荷矩阵。通常假定v该假定和上述关系式构成了正交因子模型。由上述假定可以看出，公共因子彼此不相关且具有单位方差，特殊因子也彼此不相关且和公共因子也不相关。 .二、正交因子模型的性质v1. x的协差阵的分解v2.模型不受单位的影响v3.因子载荷是不惟一的.1. x的协差阵的分解故得=AA+D如果x为各分量已标准化了的随机向量，则就是相关阵R= (ij)，即有R =AA+D.v例8.2.1 设随

6、机向量x=(x1,x2,x3,x4)的协方差矩阵为则可分解为=AA+D其中.v若取，则有分解式此时m=p，没有达到降维目的，故所作的因子分析没有意义。v出于降维的需要，我们常常希望m要比p小得多，这样前述的分解式通常只能近似成立，即有=AA+D近似程度越好，表明因子模型拟合得越佳。一般来说，m选取得越小，上述近似效果就越差，即因子模型拟合得越不理想。拟合得太差的因子模型是没有什么实际意义的，故实践中m也不应选得过小。.2.模型不受单位的影响v将x的单位作变化，通常是作一变换x*=Cx，这里C=diag(c1,c2,cp),ci0,i=1,2,p，于是x*=C +CAf+C 令*=C ，A*=

7、CA，*=C ，则有x*=*+A*f+*这个模型能满足类似于前述因子模型的假定，即.其中因此，单位变换后新的模型仍为正交因子模型。.3.因子载荷是不惟一的v设T为任一mm正交矩阵，令A*=AT，f*=Tf，则模型能表示为x=+A*f*+因为E(f*)=TE(f)=0V(f*)=TV(f)T=TT=ICov(f*,)=E(f*)=TE(f)=0所以仍满足模型条件。也可分解为=A*A*+Dv因此，因子载荷矩阵A不是惟一的，在实际应用中常常利用这一点，通过因子的旋转（见稍后的8.4），使得新的因子有更好的实际意义。.三、因子载荷矩阵的统计意义v1.A的元素aijv2.A的行元素平方和v3.A的列元

8、素平方和.1.A的元素aijv xi=i+ai1f1+ai2f2+aimfm+i即aij是xi与fj之间的协方差。v若x为各分量已标准化了的随机向量，则xi与fj的相关系数此时aij表示xi与fj之间的相关系数。. 2.A的行元素平方和v xi=i+ai1f1+ai2f2+aimfm+i令于是.v 反映了公共因子对xi的影响，可以看成是公共因子f1,f2,fm对xi的方差贡献，称为共性方差(communality)；而是特殊因子i对xi的方差贡献，称为特殊方差(specific variance)。v当x为各分量已标准化了的随机向量时，ii=1，此时有. 3.A的列元素平方和其中反映了公

9、共因子fj对x1,x2,xp的影响，是衡量公共因子fj重要性的一个尺度，可视为公共因子fj对x1,x2,xp的总方差贡献。.8.3 参数估计v一、主成分法v二、主因子法v三、极大似然法.一、主成分法v设样本协方差矩阵S的特征值依次为，相应的正交单位特征向量为。选取相对较小的因子数m，并使得累计贡献率达到一个较高的百分比，则S可近似分解如下：其中为pm矩阵，，i=1,2,p。这里的和就是因子模型的一个主成分解。v对主成分解，当因子数增加时，原来因子的估计载荷并不变，第j个因子fj对x的总方差贡献仍为。.v例8.3.1 在例7.3.2中，分别取m=1和m=2，用主成分法估计的因子载荷

10、和共性方差列于表8.3.1。表8.3.1当m=1和m=2时的主成分解变量m=1m=2因子载荷共性方差因子载荷共性方差f1 f2f1 f2 ：100米0.8170.6680.8170.5310.950 ：200米0.8670.7520.8670.4320.939 ：400米0.9150.8380.9150.2330.892 ：800米0.9490.9000.9490.0120.900 ：1500米0.9590.9200.959-0.1310.938 ：5000米0.9380.8790.938-0.2920.965 ：10000米0.9440.8910.944-0.2870.973 ：马拉松0.

11、8800.7740.880-0.4110.943所解释的总方差的累计比例0.8280.8280.938.主成分解的近似关系式主成分解的因子解释与主成分的解释完全相同。因子f1代表在径赛项目上的总体实力，可称为强弱因子；因子f2反映了速度与耐力的对比。.二、主因子法v假定原始向量x的各分量已作了标准化变换。如果随机向量x满足正交因子模型，则有R=AA+D其中R为x的相关矩阵，令R*=RD=AA 则称R*为x的约相关矩阵(reduced correlation matrix)。vR*中的对角线元素是，而不是1，非对角线元素和R中是完全一样的，并且R*也是一个非负定矩阵。.v设是特殊方差的一个

12、合适的初始估计，则约相关矩阵可估计为其中是的初始估计。又设的前m个特征值依次为，相应的正交单位特征向量为 ,则A的主因子解为.由此我们可以重新估计特殊方差，的最终估计为v如果我们希望求得拟合程度更好的解，则可以采用迭代的方法，即利用上式中的再作为特殊方差的初始估计，重复上述步骤，直至解稳定为止。.特殊(或共性)方差的常用初始估计方法v(1)取，其中rii是的第i个对角线元素，此时共性方差的估计为，它是xi和其他p1个变量间样本复相关系数的平方，该初始估计方法最为常用。v(2)取，此时。v(3)取，此时，得到的是一个主成分解。.v例8.3.2 在例7.3.2中，取m=

13、2，为求得主因子解，选用xi与其他七个变量的复相关系数平方作为的初始估计值。计算得于是约相关矩阵为. 的特征值为从起特征值已接近于0，故取m=2，相应的计算结果列于表8.3.2。.表8.3.2 当m=2时的主因子解变量因子载荷共性方差f1f2 ：100米0.8070.4960.897 ：200米0.8580.4120.906 ：400米0.8900.2160.856 ：800米0.9390.0240.881 ：1500米0.9560.1140.926 ：5000米0.9380.2820.960 ：10000米0.9460.2810.974 ：马拉松0.8740.3780.907所解释的

14、总方差的累计比例0.8160.914.三、极大似然法v设公共因子fNm(0,I)，特殊因子Np(0,D)，且相互独立，则必然有原始向量xNp(,)。由样本x1,x2,xn计算得到的似然函数是和的函数L(,)。由于=AA+D，故似然函数可更清楚地表示为L(,A,D)。记(,A,D)的极大似然估计为( )，即有v可以证明，，而满足以下方程组：.其中。由于A的解是不惟一的，故为了得到惟一解，可附加计算上方便的惟一性条件：AD1A是对角矩阵上述方程组中的一般可用迭代方法解得。v对极大似然解，当因子数增加时，原来因子的估计载荷及对x的贡献将发生变化，这与主成分解及主因子解不同。v例8.3.3 在

15、例7.3.2中，取m=2，极大似然法的计算结果列于表8.3.3。的初始估计值与例8.3.2相同。.表8.3.3 当m=2时的极大似然解变量因子载荷共性方差f1f2 ：100米0.7310.6200.919 ：200米0.7920.5450.924 ：400米0.8550.3430.849 ：800米0.9160.1610.865 ：1500米0.9580.0260.918 ：5000米0.9720.1440.966 ：10000米0.9810.1430.982 ：马拉松0.9230.2490.914所解释的总方差的累计比例0.8010.917.8.4 因子旋转v因子的解释带有一定的主观性，

16、我们常常通过旋转公共因子的方法来减少这种主观性。v公共因子是否易于解释，很大程度上取决于因子载荷矩阵A的元素结构。v如果载荷矩阵A的所有元素都接近0或1，则模型的公共因子就易于解释。反之，如果载荷矩阵A的元素多数居中，不大不小，则对模型的公共因子往往就不易作出解释，此时应考虑进行因子旋转，使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量地拉开大小距离。.v因子旋转方法有正交旋转和斜交旋转两类，本章只讨论正交旋转。v对公共因子作正交旋转相当于对载荷矩阵A作一正交变换，右乘正交矩阵T，使A*=AT能有更鲜明的实际意义。旋转后的公共因子向量为f*=Tf，它的几何意义是在m维空间上对原因子轴作一刚性旋转。v因子旋转不改变共性方差，这是因为A*A*=ATTA=AAv正交矩阵T的不同选取法构成了正交旋转的各种不同方法，在这些方法中使用最普遍的是最大方差旋转法(varimax)，本节仅介绍这一种正交旋转法。v例8.4.1 在例8.3.1至例8.3.3中分别使用最大方差旋转法，旋转后的因子载荷矩阵列于表8.4.1。.表8.4.1旋转后的因子载荷估计变量主成分主因子极大似然：100米0.2740.9

展开阅读全文

应用多元分析第三版PPT第八章课件

最新文档