单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,第一讲 探索性因素分析,,北京师范大学心理系,,刘红,云,,,主要内容,,因素分析简介,,因素分析模型,,因素分析中的基本概念,,求共因素的主要方法,,因素旋转方法,,因素得分,,应用因素分析应该注意的问题,,因素分析应用举例,,,因素分析简介,,行为科学和社会科学研究中多变量之间的统计分析方法主要有:,,1.将多个变量与某种称为准则变量的外部变量联系起来进行分析回归分析、方差分析等2.不使用外部准则而同等地对待所有变量,分析它们之间的相互关系相关分析、因素分析等探索性因素分析,,探索性因素分析(,Exploratory Factor Analysis),是一种常用的多元数据分析方法,它是从众多可观测“变量”中,概括和推论出少数不可观测的“潜变量”(又称因素),目的在于用最少的因素去概括和解释大量的观测事实,并建立起最简洁的,基本的概念系统,以揭示事物之间的本质联系的一种统计分析方法这种方法的原则是在尽可能保存原有资料信息的前提下,用较少的维度去表示原来的数据结构因素分析模型,,因素分析假定个体在某一变量上的反应由两部分组成:一是各个变量共有的部分,称为共同因素,(,Common Factor);,另一部分是各变量所特有的部分,称为独特因素,(,Unique Factor),,可用下式表示:,,,,,是第,i,个体在,第,j,观测变量上的得分,(,,j k,),是因素对观测变量的加权系数,,(,F,ik,),是个体,i,在因素,F,k,上的得分,,U,ij,为特殊因素,,d,j,为特殊因素对观测变量的加权系数,;,N,为样本容量,,n,为观测变量的个数,,m,为共因素的个数。
因素分析的模型主要有,全分量模型,和公因子模型两个全分量模型 (主成分分析模型),是指用,n,个新的因素来线性表示,n,个观测变量的因素分析模型(,m=n)此模型希望从一组相关观测变量中每次取得的一个公共因素的方差在观测变量的全部方差(或剩余方差)中所占的比例最大,这一思想也是全分量模型确定公共因素的一种数学准则但在实际应用中,人们总是只取少数几个对观测变量的方差贡献较大的即为首的几个因素于是得到,截分量模型,,,,,截分量模型(主成分分析模型),在实际应用中,人们总是只取少数几个对观测变量的方差贡献较大的即为首的几个因素有些人把几个方差贡献较小的因素看作误差项于是全分量模型就成为:,,,(,j=1,2,3, ……n m
公共因素模型,这一模型希望从观测变量中抽取到的因素能尽可能好地再生观测变量之间 的相关在这一模型中将观测变量、公共因素和唯一性因素都假定为标准变量,平均数为0,标准差为1,而且,n,个唯一因素,u,j,之间相互独立,每个唯一性因素与各个公共因素,F,p,(p=1,2, ……,m),之间相互独立各公共因素,F,p,是随机变量若假定各公共因素为互相独立的正态分布,则观测变量,Z,j,就服从多元正态分布在实际应用公共因素分析方法时,通常把唯一性因素看作不包括模型误差,也就是说因素分析没有考虑抽样误差因此,抽样就必须足够大,以使抽样误差被忽视,样本究竟多大合适,一般至少要大于100,或者是变量数目的,,5——10,倍,因素分析中的基本概念,,因素载荷(,Factor loading),,公共因素方差,(,Communality),,唯一性方差(,uniqueness),,特征值(,Eigenvalue,),,贡献率(,Explain of Variance),,,,因素载荷,(,Factor loading),,因素载荷指因素分析模型中各公共因素对观测变量的加权系数,,jk,一般情况下,称共因素的系数为因素载荷。
即因素分析模型中的系数将所有的因素载荷以矩阵的形式表示即为因素载荷以矩阵公共因素方差,,公共因素方差一般用,h,2,表示,又称作“共同度”或“公共性”,公共因素方差是指被公共因素所决定的方差在观测变量总方差中所占的比例在对观测数据进行标准化的情况下,一个观测变量的总方差,S,j,2,为:,,,其中由公共因素决定的方差为:,,,公共因素方差在测验或特质行为的研究方面主要有以下用途:,1. 公共因素方差能反映该测验对所要测量行为属性的测量程度,公共因素方差越大,该因素所能反映的行为属性程度就越强,某一因素的方差贡献率越大,说明该因素在他所测量的特质中,它所起的作用就越大2.如果在构成一个测验的诸多项目中,某些项目构成的因素的公共方差大,说明这些项目测定被试的个别差异的功能强,也说明该组项目的区分度好,鉴别力高,同理公共因素方差越小,该项目的鉴别力越低因此项目的公共因素方差,可用作评价项目区分度的一种指标唯一性方差,(,uniqueness),,归因于唯一性因素的那部分方差称为唯一性方差,,,唯一性方差表示,m,个公共因素对观测变量的方差不能作出解释的部分,一部分归因于所选变量的特殊性,称为特殊性方差,;,剩余部分归因于测量的不完备性,。
特征值,,特征值: 对于一个,n,阶矩阵,A,,如果存在一个,n,维向量,v,和一个常数,满足条件,,,则称为矩阵,A,的一个特征值,称,v,为对应于特征值的一个特征向量特征值,,在因素分析中,特征值表示每个因素在所有变量上的因素负荷的平方之和,它反映某一公共因素对各观测变量的影响程度,也说明该公共因素的重要性特征值越大,说明该公共因素相对重要贡献,率,,各因素的特征值(,,j,),在总的公共因素方差之和中所占的比例反映该因素对所有观测变量变异影响的大小第,j,个共因素的方差贡献率为:,,,,变量共同度的估计,,在全分量模型中可以直接用相关矩阵求解因素载荷矩阵,在公共因素模型中,由于考虑特殊因素对变量的影响,求解因素载荷矩阵则以约相关矩阵为出发点估计变量的共同度是得到约相关矩阵估计的关键,,,,最大相关系数估计法,最大相关系数估计法是把原相关矩阵每一行(或每一列)绝对值最大的一个元素作为该行(或该列)变量共同度的估计复相关系数平方估计法,Z,J,变量的复相关系数的平方为:,,,,其中,R,JJ,为对角线元素为1的相关矩阵,R,的逆矩阵中,第,j,个变量对角线的元素,,SMC,是共同度估计的下限。
公共因素个数的确定,根据累计贡献率确定因子个数,,以特征值是否大于等于1为标准,,碎石检验,,根据累积贡献率确定因子个数,将约相关矩阵(在主成分分析中,用相关矩阵)的特征值从大到小排列,根据前面若干个共同因素所对应的特征值之和的百分比来确定一般来说,这一比例要达到80%以上,但根据问题的复杂程度可做适当调整以特征值是否大于等于1为标准,特征值大于等于1的选为共因素,小于1的不选碎石检验(,screen test),,以特征值为纵坐标,以因素个数为横坐标,按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,根据图的形状来判断抽取因子的个数从第一个因子开始,曲线逐渐下降,然后变得平缓,最后近似于一条直线,曲线变平的前一点被认为是提取的最大因子数初始因素载荷矩阵求解,,对于全分量模型来说,直接从变量相关矩阵入手求解因素载荷矩阵;而对于公共因素模型,则从约相关矩阵出发来求解因素载荷矩阵,A目前,求解因素载荷矩阵使用较为普遍的一种方法是主因素解法(在全分量模型中称为主成分分析法)它的基本思想是,考虑第一共同因素的方差对所有变量的方差贡献最大,第二共同因素对所有变量的方差贡献次之,……依次将全部变量的方差分解为各共同因素方差,最终求得因素载荷矩阵。
求初始因素载荷矩阵的一般方法,Principal Components,,Unweighted,Least Squares,,Generalized Least Squares,,Maximum Likelihood,,Principal Axis Factoring,,Alpha Factoring,,Image Factoring,,,旋转变换,,初始因子解达到了数据化简的目的在求初始因子这一步中,我们既确定了共因素个数,又确定了每个变量的公因子方差可是根据初始因子解,往往很难解释因子的意义,大多数因子都和很多变量相关,但是在实际研究中,我们往往关心每个因子的实际意义是什么因子旋转是寻求这一实际意义的有效工具,因子旋转的目的是通过改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构简单并易于解释因子旋转不改变模型对数据的拟合程度,不改变每个变量的公因子方差因子旋转的方式,,因子旋转的方式有两种,一种是正交旋转,另一种是斜交旋转正交旋转是使因子轴之间仍然保持90度角,即因子之间是不相关的,而在斜交旋转中,因子之间的夹角可以是任意的,即因子之间可以相关正交旋转,,,,①,四次方最大法(,QUARTIMAX),通过使因子载荷矩阵中每一行因子负荷平方的方差达到最大求得因子解。
最终的简化准则为:,,,,,②,方差最大法,(,VARIMAX),四次方最大法的不同是它从简化因子负荷矩阵的每一列出发,使和每个因子有关的负荷平方的方差最大,方差最大法通过使下式达到最大求得因子解:,,,,,③,等量最大法,(,EQUIMAX),等量最大法把四次方最大法和方差最大法结合起来,取,V,和,Q,的加权平均作为简化准则,通过使下式达到最大:,,,,权数,γ,等于,m/2,,和因子数有关,当因子数为2时,等量旋转法结果与方差最大法旋转结果相同斜交旋转,,常见的,为,OBLIMIN,,该方法应用斜交参考轴求解所谓的斜交参考轴是指斜主因子轴的垂直线斜交因子解应使变量尽可能落在主轴附近,变量落在主轴附近和变量在参考轴上的投影近似为零这两个条件是相同的,OBLIMIN,方法首先求出斜交参考矩阵,斜交因子负荷矩阵等于斜交参考阵的逆矩阵再按行进行规范化处理,使矩阵中每一行的元素的平方和等于1参数,δ,控制因子斜交的程度,其取值一般小于等于零,等于零时,因子之间的斜交程度最大,小于零时因子之间的斜交程度减小另外还有,Promax,法6.因子得分及应用,,在公式,,,中可以将变量表示成公共因素的线性组合,。
但在有些场合,需要考虑通过变量,Z,的值来获得共因素指标,F,的值这种由变量的观测值来估计各公共因素值的方法称为因素得分因素得分及其应用,,求因素得分涉及到用观测变量来描述因素,第,p,个因子在第,i,个个案上的值可以表示为:,,,,其中,,z,ji,,是第,j,个变量在第,i,个个体上的值,,w,pj,,是第,p,个因子和第,j,个变量之间的因子值系数因素得分及其应用,,因子分析模型中是用因子的线性组合来表示一个观测变量,因子负荷实际是该线性组合的权数求因子得分的过程正好相反,它是通过观测变量的线性组合来表示因子,因子得分是观测变量的加权平均因为各个变量在因子上的负荷不同,所以不能把变量简单相加,权数的大小表示了变量对因子的重要程度因素得分及其应用,,对于主成分分析法得到的因子解,可以直接得到因子值系数,对于其他方法得到的因子解,只能得到因子值系数的估计值,通过用回归法得到因子得分系数的估计值有了因子得分,就可以把因子作为变量来用,进行其他的统计分析应用因素分析应该注意的问题,,1.对数据的要求,,(1),数据类型,,(2)数据分布,,(3)对变量之间相关的检验,,,SPSS,提供了三个统计量帮助判断观测数据是否适合作因素分析,,对,变量之间相关的检验,,反映象相关矩阵(,Anti-image correlation matrix),其元素等于负的偏相关系数。
巴特利特球体检验(,Bartlett test of,sphericity,),对应的零假设为相关矩阵为单位矩阵KMO(Kaiser-Meyer-,Olkin,Measure of Sampling Adequacy),测度该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,其值的变化从0到1当所有变量之间的偏相关系数的平方和,远远小于简单相关系数平方和时,,KMO,值接近于1,一般,大于0.9说明适合作因素分析应用因素分析应该注意的问题,,2.样本容量,,The number of variables,,The potential number of factors,,The variable to factors ratio,,The degree of factor loadings,,The degree of,interfactor,correlation,,,探索性因素分析应用举例,Holzinger,和,Harman(1941),年所测量的24种心理测验的数据,这里选出16种测验16种测验描述性信息如下表:,,,。