因子分析 2一、 基本概念 2二、 数学模型 21, 数学模型 22,数学模型的性质, 3三、 因子分析的步骤 41,因子分析的操作步骤 42,在因子分析过程中计算的过程分为以下几步 4四、 操作步骤的详细解释 51, 确认待分析的变量是否适合做因子分析 52, 构造因子变量 53,因子旋转 64, 因子的命名解释 85,因子得分 8五、 运用SPSS做因子分析 81,实验数据 82,操作设置过程 83,结果及分析 8因子分析一、 基本概念因子分析的基本目的是用少数的几个因子去描述多个变量之间的关系,以达到降维的目的被描述的变量一般都是可观测的随机变量,而因子是不可观测的潜在变量例如:“态度”,“能力”都是不可观测的潜在变量,多用“受教育水平”“工作业绩”等可观测变量来反映潜在变量水平因子分析就是利用这些不可观测的潜在变量作为公共因子来解释可观测变量的一种工具因子分析的基本思想就是把联系比较紧密的变量归为同一个类别,实现不同类型的变量之间有较低相关性在同一个类别内的变量,认为是收到了某个共同的影响而高度相关,这个共同因素称之为公共因子,即为潜在的不可观测变量因子分析的基本原理是以相关性为基础,从协方差或相关矩阵入手把大部分的变异归结为少数几个公共因子所为,把剩余的变异称为特殊因子。
每一类变量代表了一个公共因子,因子分析就是寻找和确定这些公共因子的分析方法因子分析反映了一种降维的思想,通过降维将相关性高的变量聚在一起,不仅便于提取容易解释的特征,而且降低了需要分析的变量数目和分析问题的复杂性在问题内在体系还不了解时,可利用它吧观测变量鬼碧昂为少数几个公共因子,令每个因子代表一个空间的维度,经过正交或斜交旋转,使各个维度互不相连,用这些维度刻画系统的结构因子分析包括探索性因子分析(EFA)和验证性因子分析(CFA)两大类方法探索性因子分析致力于找出食物内在的本质结构,而验证性因子分析是用来检验已知的特定结构是否按照预期的方式产生作用两者之间既有区别又有联系,下面我主要对探索性因子分析进行讨论二、 数学模型1, 数学模型x1=u1+a11f1+a12f2+a13f3…..a1mfm+e1x2=u2+a21f1+a22f2+a23f3…..a2mfm+e2x3=u3+a31f1+a32f2+a33f3…..a3mfm+e3xp=up+ap1f1+ap2f2+ap3f3…..apmfm+ep 矩阵表示:x=u+Af+e假设:E(f)=0; E(e)=0; V(f)=I; V(e)=D=diag(σ12,σ22…..σp2); Cov(f,e)=E(feT)=0.其中:(x1,x2,x3…..xm)T为P维可观测随机变量; u=(u1,u2,u3….um)T为可观测变量的均值; σij为协方差矩阵; f=(f1,f2,f3….fm)T为公因子向量; e=(e1,e2,e3…..em)T为特殊因子向量; A=(aij)p*m为因子载荷矩阵。
2,数学模型的性质,(1) σij协方差矩阵的分解 =AAT+D当X的各分量已经是标准化了的随机变量,则协方差矩阵的值与相关矩阵的值相同,=AAT+D(2)统计性质aij是xi与fj的协方差函数,若X是已经标准化的随机向量,则aij是xi与fj的相关系数hi2+σi2即为公共因子对原始变量的x的方差贡献hi2反映了公共因子对xi的影响,可以看成是公共因子对xi的方差贡献,成为共性方差(communality);而σi2是特殊因子ei对xi的方差贡献,称为特殊方差(specificvariance)当x为标准化了的随机向量时,hi2+σi2=1 gj2=i=1paij2——公共因子fj对x的总方差贡献,反映了公共因子fj对x的影响,是衡量公共因子fj重要性的一个尺度三、 因子分析的步骤1,因子分析的操作步骤(1) 确认待分析的变量是否适合做因子分析(2) 构造因子变量(3) 因子旋转是因子变量更具有可解释性(4) 计算因子得分2,在因子分析过程中计算的过程分为以下几步(1) 对样本数据进行标准化处理;(2) 计算相关系数矩阵(3) 计算相关系数矩阵的特征值和特征向量,确定因子个数;(4) 求出因子载荷矩阵;(5) 根据情况进行因子旋转;(6) 计算因子得分(7) 以因子的贡献率为权重,计算因子得分的综合得分,根据综合得分排序。
四、 操作步骤的详细解释1, 确认待分析的变量是否适合做因子分析因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程隐含的前提是原有变量之间要具有比较强的相关性所以,在因子分析之前,首要的就是要先对原有变量做相关分析,看它是否满足做因子分子的条件确定是否适合做因子分析的方法:(1) 计算变量之间的相关系数矩阵如果相关系数矩阵在进行统计检验中大部分相关系数都小于0.3,那么表明这些变量不适合于进行因子分析2) 巴特利特球形检验(Bartlett Test of Sphericity)此方法采用假设检验法假设各变量不相关,即相关系数矩阵对角线上值都为1,其他值都为0.统计量由行列式得到,如果显著性概率值小于0.05,则认为假设不成立,各变量相关性较大,适合做因子分析3) KMO(Kaiser-Meyer-Olkin)检验KMO值在0-1之间,其值越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,就越适合因子分析一般认为,大于0.7则适合做因子分析2, 构造因子变量因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。
下面对其中主成分分析法最为常用主成分分析通过坐标变换手段,将原有的相关向量x做线性变化,转换为另外一组不相关的变量y,并将y用x表示y1,y2….yp为原有变量的主成分,按在总方差中所占比列排次序,所占比例越大,表明综合原有变量的能力也越强,这些从前往后取前面几个主成分,一般认为累积变量共享率达到85%以上时,所选择的所有主成分能够较为完整的表示所有原变量的信息,从而确定了因子个数和公共因子3,因子旋转因子旋转的目的:因子分析不仅是要找出主因子,更重要的是知道每个主因子所代表的意义通过估计因子载荷矩阵得到的因子模型还只是一个初始模型,不一定能反映问题的实质特征,它们所代表的实际意义也不一定容易解释因子旋转就是为了解决因子不能反映实际意义的问题的一种改进方法另外,如果求得的载荷举着A的所有元素都接近0或者|1|,则模型的公共因子就抑郁解释,反之,如果多数居中,不大不小,则对模型的公共因素不易做出解释这时,通过因子旋转,可以使得载荷矩阵的每一列上的元素的绝对值尽可能来开距离,是其中一些元素接近0,另一些接近|1|因子旋转的依据是因子模型的不唯一性附:设T 为任意一个m*m的正交矩阵,则TTT=I X=u+Af+e=u+A(TTT)f+e=u+(AT)(TTf)+e则载荷矩阵由A变为(AT),公共因子由f变为(TTf),此时,仍然满足因子模型的假设E(TTf)=TTE(f)=0;V(TTf)= TTV(f)T=I;Cov(TTf,e)=E(TTfeT)=0.所以,因子载荷是不唯一的,因子模型也是不唯一的,在满足条件的情况下,可以根据这个性质因子旋转,实现公共因子的实际可理解性。
因子旋转的方法很多,如正交旋转,斜交旋转,正交旋转又包括最大方差旋转,四次方最大化旋转等1)最大方差旋转法原理:选择正交矩阵T,使得矩阵AT所有m个列元素平方的相对方差之和达到最大V=V1+V2+…….Vm步骤:设已求出的因子载荷矩阵为a11 a12 …..a1ma21 a22…….a2map1 ap2 ……apm A=任意选取两列A*(例如第一,二列)与正交变换矩阵T因子旋转,T可以表示为 A*T 由上式求得各列元素的相对方差之和V,易知V是θ的函数,利用微积分求极值的方法,将V对θ求导,令导数等于0,求出θ,使V达到最大 此时,其余列不变 之后,在其余列中再人选两列重复上述旋转,m个公因子总共需要进行12m(m-1)次,此时算是完成了第一轮旋转,然后再重新开始,进行第二轮配对旋转,如此继续下去,得到一系列因子载荷矩阵A1,A2…..,必然有V1
经过因子旋转,每个不同的公共因子能够反映不同的原变量组合的信息,因子的命名解释就是为了进一步定义这些公共因子在实际应用中的含义5,因子得分在所建立的因子模型中,将总体中的原有变量分解为公共因子与特殊因子的线性组合,同样的,也可以把每个公共因子表示成原有变量的线性组合,称之为因子得分函数常用方法有Thompson,加权最小二乘法,回归法等因子得分可以解决公共因子不可测量的问题同时,因子得分可以看做是各变量值得权数综合,表示各个变量对于公共因子的重要程度 五、 运用SPSS做因子分析1,实验数据 为2012年2月到9月份商品零售价格分类统计表,下载自国家统计局网 附件:因子分析2.xlsx数据表2,操作设置过程略3,结果及分析(1)描述性统计输出关于17个初始统计量的描述性输出,包括均值和标准差以及有效值得个数2)初始变量的相关性检验由图可知,多个变量的相关系数较大,比如,五与二、六与二、九与六等等,说明多个变量之间存在较为显著的相关性,进而说明了因子分析的必要性和有效性3)变量的共同度公因子方差表格解释的实际是初始变量的共同度共同度取值0~1,在初始情况下其值都为1,表明所有变量的组合能够完全解释各个初始变量的方差,提取列表明在以提取的三个公共因子表示初始变量的情况下,能够解释的初始变量的方差百分比。
由列表值可知,提取的三个变量足以解释初始变量4)方差解释表此表格显示的是每个公共因子所解释的方差及其累加和在初始特征值那栏下,前三个公共因子可以解释的累加和已经达到94.696%,一般来说,累积贡献率达到85%以上就可以很好地认为公共因子具有解释原有问题的能力,所以,此图说明提取这三个公共因子就足以比较好的解释初始变量所包含的信息了,与上述公因子方差表所表现的一致提取平方和载入栏表示在未经过因子旋转时被提取的三个公共因子所能解释的初始变量的方差贡献率,此信息应与初始特征值栏一致旋转平方和载入栏所显示的是同样的三个公共因子在经过因子旋转后对初始变量的累积方差贡献率由表可知,各个因子的方差贡献率有所改变,但总贡献率不变这符合因子旋转的基本原理5)碎石图即为根据上述解释的总方差图标初始特征值栏的合计列所做的图从趋势上看,在第三个成分后趋势改变缓慢,所以,选择三个公共因子为宜,与上述分析一致6)此矩阵即为初始的因子模型矩阵,即为载荷矩阵在此矩阵中对于九、五等初始变量,能有较为明显的载荷分配,但对于如十一、八等初始变量就不那么明显。