大课第七讲 因子分析课件

上传人:我*** 文档编号:141565494 上传时间:2020-08-10 格式:PPT 页数:47 大小:741KB
返回 下载 相关 举报
大课第七讲 因子分析课件_第1页
第1页 / 共47页
大课第七讲 因子分析课件_第2页
第2页 / 共47页
大课第七讲 因子分析课件_第3页
第3页 / 共47页
大课第七讲 因子分析课件_第4页
第4页 / 共47页
大课第七讲 因子分析课件_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《大课第七讲 因子分析课件》由会员分享,可在线阅读,更多相关《大课第七讲 因子分析课件(47页珍藏版)》请在金锄头文库上搜索。

1、罗树生,因子分析,x1,x2,f1,x1,x2,x3,因子分析 (Factor Analysis),因子分析起源于心理学,最初心理学家借助提取出来的公因子来代表不同的性格特征和行为取向。如今已广泛应用于各种学科。,因子分析的目的:分析变量间复杂的(相关)关系,探索多个具有相关性的实测指标如何受少数几个不能直接测量的、潜在的独立因子支配。 因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个共性因子,获得更简单的数据结构。,因子分析的用途: 1. 探索数据结构 ,发现无法观测的支配多个实测变量的潜在因素。 2. 减少变量个数(降维):对多个实测变量进行归纳和综合。 3. 内在结构证

2、实:对来源于其它理论的可能的内在结构进行验证。 4. 解决回归共线性问题。 5. 评价问卷的结构效度,一、如何判断资料是否适合应用因子分析,1. 必须是数值型变量,最好符合正态分布; 2. 样本量与变量数的比例在5:1以上,样本量越大越好; 3. 各变量间必须有相关性。判断方法: (1)根据专业知识; (2)KMO统计量:0KMO1,KMO0.5时不适合做因子分析; (3)Bartletts球形检验:无效假设为各变量独立,拒绝该假设则认为变量间存在相关性,可做因子分析。,例:测得某地19-22岁年龄的部分城市男生身体形态指标:身高(x1,cm)、坐高(x2,cm)、体重(x3,kg)、胸围(x

3、4、cm)、肩宽(x5,cm)、骨盆宽(x6,cm)。试进行因子分析。,适合性分析:KMO统计量为0.577,可以做因子分析,但效果不是很好;Bartletts 球形检验结果为2122.138,df15,P0.001,可认为各变量之间不独立,可以做因子分析。,相关系数矩阵与协方差矩阵,基于原始变量的模型使用协方差矩阵,如将原始变量标准化,则使用相关系数矩阵建模。 根据经验,超过90的因子分析应用相关阵,本课只针对相关阵建模进行介绍,原因在于: 可以减少混淆 相关阵建模更常用、更好用。,二、因子模型,支配m个变量的共性因子可能不止一个,设有k个,记为f1,f2 fk,则有:,因子模型的一般表达形

4、式为: i=1,2,m 这里的xi均为标准化变量,均数为0,方差为1,在该模型中: (1)f1,f2, fk称公因子。它们是各个观测变量所共有的因子,解释了变量之间的相关。 (2)aij称 因子负荷系数。它是第i个变量在第j个公因子上的负荷。(i=1,2, m; j=1,2 k) (3) ui称为特殊因子,或唯一性因子。它是每个观测变量所特有的因子,相当于回归分析中的残差项,表示该变量不能被公因子解释的部分。vi为第i个变量在特殊因子上的负荷。,因子模型基于以下假设: fi的均数为0,方差为1; ui的均数为0,方差为v2; 公因子与特殊因子之间相互独立,即Cov(fi,uj)0; 公因子之间

5、相互独立,即Cov(fi,fj)0 满足以上假设的因子模型为正交因子模型;如果第4条不满足,即公因子之间存在相关性,则为斜交模型(本课不讨论)。,1. 因子负荷(系数) 假设公因子之间彼此正交,即不相关,则可以证明因子负荷aij等于第i个变量和第j个因子之间的相关系数,即aij反映了因子和变量之间的相关程度, aij的绝对值越大,表示公因子fj与变量xi关系越密切。 -1aij1,三、因子分析中的几个概念,2. 共性方差(Communality),原变量由于已经标准化,其方差为1。根据因子模型,原变量方差可分解为:,记 则有,Hi2是由全部公因子对第i个原变量所提取的方差(比例),或者说原变量

6、xi的方差中由公因子所决定的比例。 Hi2称作变量xi的共性方差。,变量的方差由两部分组成,一部分由公因子决定,另一部分由特殊因子决定。共性方差表示了变量方差中能被公因子所解释的部分,共性方差越大 ,变量能被因子解释的程度越高。 共性方差这个指标以原观测变量为中心,它的意义在于说明如果用公因子来替代原观测变量后,原来每个变量的信息被保留的程度。,3. 因子的贡献,每个公因子对数据的解释能力,可以用该因子所解释的总方差来衡量,称该因子的贡献。它等于和该因子有关的因子负荷的平方和。 j=a1j2+a2j2+amj2 因子的贡献为原变量相关系数矩阵的特征根。 实际中更常用相对指标,即每个因子所解释的

7、方差占所有变量总方差的比例。相对指标衡量了公因子的相对重要性。 所有公因子累积解释的方差比例,可以用来作为因子分析结束的判断指标。,因子负荷系数、共性方差、特征根之间的关系,*总计=1 + 2 + k =H12 +H22 + + Hm2 如果因子个数与原变量个数相同,即km,则: *总计=1 + 2 + k =H12 +H22 + + Hm2 =m 1 为第一因子的贡献 1 / m 为第一因子的贡献率 余类推。 (1+ 2+ .k )/m 即为所提取的k个公因子总的贡献率(即可解释的方差百分比),四、因子模型的估计,提取因子的方法有多种,SPSS提供了多种选择。常用的有: 1. 主成分法(pr

8、incipal component) 2. 最大似然法 (maximum likelihood) 3. 主因子法 (principal factor) 其中主成分法最为常用,本课只介绍这一方法。,因子个数的确定,1. 特征根准则:取特征根1的主成分作为提取的因子。是SPSS软件默认的方法,也是实际中最常用的方法。 2. 累积方差比例原则:一般推荐公因子累积解释的方差比例达到80以上时,即可停止选择公因子。 3. 利用碎石图:将因子按特征根从大到小排列,画出因子的特征根随因子个数变化的散点图,根据图的形状来判断因子的个数。曲线开始变平的前一个点(拐点)认为是提取的最大因子数。也就是根据特征根的变

9、化速率来确定。 有些情况下,分析人员可根据需要,直接确定因子个数。,本次因子分析因子提取方法选用主成分法,从相关阵出发计算,因子数目提取标准为特征根1。 最终提取的因子数为2,特征根分别为: 1=3.172 2=1.317 这两个因子的累积贡献率(3.172+1.317)/6 0.748,特征根、累积贡献率和因子个数,各变量xi的共性方差: H12=0.916 H22=0.885 H32=0.872 H42=0.384 H52=0.681 H62=0.753,共性方差:,负荷系数 aij,H12=0.9302+(-0.224)2=0.916 H22=0.9362+(-0.093)2=0.885

10、 H32=0.9102+(-0.208)2=0.872 H42=0.6172+(-0.053)2=0.384 H52=0.3362+0.7542=0.681 H62=0.3302+0.8032=0.753,1 =a112+a212+a312+a412+a512+a612 =0.9302+0.9362+0.9102+0.6172+0.3362+0.3302 =3.172,2 =a122+a222+a322+a422+a522+a622 =(-0.2242+(-0.093)2+(-0.208)2+(-0.053)2+0.7542+0.8032 =1.317,五、解释因子,解释因子主要是借助于因子负

11、荷系数。首先找出在每个因子上的负荷系数绝对值较大的变量,根据这些变量的意义给因子一个合适的名称,具有较高负荷的变量对因子名称的影响更大。 就本例来说,因子1对于原变量x1-x4的负荷系数较大,大致解释为身体长度的指标;因子2对于原变量x5、x6的符合系数较大,大致解释为身体宽度的指标。,结合专业知识,可以对因子命名。 错误的解读: 不同因子代表不同小组的人群 正确的解读: 不同因子代表每一个体的不同特征。 但可以根据因子得分(见后)对人群进行分类,如因子1得分高因子2得分低的人群可分属瘦长型,因子1得分地因子2得分高的人群可分属短粗型。,然而,以上述方法获得的因子中,第一因子的特征根常常很大,

12、在较多个数的变量上的负荷系数较大,使得对因子意义的解释比较困难。这时的因子称为初始因子。 为解决此问题,可附加条件,如“简单结构原理”:要求每个公因子对应的负荷系数的绝对值要么接近于0,要么接近于1。这样就可以使得每个原变量只在一个公因子上有较大的负荷,而在其余公因子上的负荷比较小。最终一个公因子由一部分原变量所贡献,而另一个公因子由另一部分原变量贡献。 实现这一目的的方法:因子旋转,因子旋转的目的是通过旋转坐标轴,重新分配各个因子所解释的方差的比例,使因子结构更简单,更易于解释。,正交旋转法:方差最大法、四次方最大法、 斜交旋转法:,六、因子旋转,方差最大正交旋转,方差最大正交旋转是对负荷系

13、数进行正交变换,旋转以后: 不改变模型对数据的拟合程度(累积贡献率不变); 不改变原公因子的正交性(相关系数仍为0); 不改变每个原变量的共性方差。 发生改变的是: 特征根改变; 负荷系数改变; 因子得分系数改变(见后)。,方差最大正交旋转,F1,F1,F2,F2,2,1,3,4,2,1,3,4,进行方差最大正交旋转以后,两个公因子的特征根都有所改变,但两个特征根之和、累积贡献率不变。,旋转以后,因子1在x5和x6上的负荷系数变得很小;相反,因子2在x5和x6上的负荷系数变得更大。,七、因子得分(因子值),因子分析模型: xi=ai1f1+ai2f2+ +aikfk+viui 得出因子分析的负

14、荷系数后,可以对因子进行解释,赋予意义。如果要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析、对样本进行分类等,就需要对因子进行测度,给出因子对应每个样本上的值,这些值称为因子得分(Factor scores)或因子值。,因子得分计算公式: fj=w1jx1+w2jx2+wmjxm wij:是第i个变量和第j个因子之间的因子得分系数。 因子得分系数乘以对应变量的标准化值就得到了因子值。,上式中xi为标准化值,换成原始变量则变为:,左图为没有进行旋转的因子得分系数,右图为进行方差最大正交旋转以后的因子得分系数。,因子分析的步骤: (1)计算所有变量的相关矩阵,并评价是否适合做因子分析; (2)根据默认标准(1)提取因子。根据得出的结果考虑是否修改因子数目; (3)旋转; (4)计算因子得分。,因子分析具有很大的灵活性,盲目使用可能会带来一些问题,需要注意: 因子的命名和意义有主观性,可能缺乏科学依据。 因子未必是潜在因素,而是一个派生变量 多个分析步骤会影响结果 模型比较复杂,谢谢!,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号