Click to edit Master title style,,Click to edit Master text styles,,Second level,,Third level,,Fourth level,,Fifth level,,,,,Click to edit Master title style,,Click to edit Master text styles,,Second level,,Third level,,Fourth level,,Fifth level,,,,,,,探索性因子分析,,,,因子分析介绍,1,,,,探索性因子分析的基本理论,2,,,,探索性因子分析的结构及步骤,3,,,,,4,目 录,实例演示,,因子分析,★ 概念,,,用于分析影响变量、支配变量的共同因子有几个且各因子本质为何的一种统计方法它是一类降维的相关分析技术,用来考察一组变量之间的协方差或相关系数结构,并用以解释这些变量与为数较少的因子之间的关联★ 基本思想,,,通过分析变量间的相关系数矩阵内部结构,将原变量进行重新组合,利用数学工具将众多的原变量组成少数的独立的新变量探索性因子分析法(,Exploratory Factor Analysis,,,EFA,)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。
特点:,,(,1,)利用因子分析来确定因子个数,——,降维,,(,2,)完全依赖资料数据,探索性因子分析的理论假设,主要包括,:,,①,所有的公共因子都相关,(,或都不相关,);,,②,所有的公共因子都直接影响所有的观测变量,;,,③,特殊,(,唯一性,),因子之间相互独立,;,,④,所有观测变量只受一个特殊,(,唯一性,),因子的影响,;,,⑤,公共因子与特殊因子,(,唯一性,),相互独立探索性因子分析基本原理,探索性因子分析模型的一般表达式为,,,,其中,,X,n,表示观测变量,,F,M,代表公因子,它是各个观测变量所共有的因子,解释变量之间的相关;,U,n,代表特殊因子,它是每个观测变量所特有的因子,只对一个原始变量起作用;,W,M,代表因子载荷,是每个变量在公因子上的相关系数;而,e,n,代表了每一观测变量的随机误差忽略特殊因子,可以使用主成分分析法进行因子分析,探索性因子分析模型,,,,,应用范围,探索性因子分析主要应用于三个方面,,寻求基本结构,,,解决多元统计分析中的变量间强相关问题,,数据化简,将具有错综复杂关系的变量综合为少数几个因子(不可观测的、相互独立的随机变量),,发展测量量表,,探索性因子分析,——,步骤,收集观测变量,,,判断是否适合作因子分析,,构造相关矩阵,确定因子个数,因子旋转,提取因子,解释因子结构,计算因子得分,,,,,,便于对因子结构进行合理解释,做进一步的研究,如聚类分析、评价,特征值大小、因子累计贡献率、碎石图,判断变量是否适合做因子分析,1. KMO,(,Kaiser-,meyer-olkin,)检验,,KMO,统计量是用来比较各变量间简单相关系数和偏相关系数的大小。
在,0~1,之间取值,越接近,1,,越适合作因子分析2.,巴特利特球形检验,,巴特利特球形检验原假设,H,0,为:相关阵是单位阵,既各变量各自独立3.,反映象相关矩阵检验,,反映象相关矩阵检验是将偏相关系数矩阵的每个元素取反得到的如果变量中确实能够提取出公共因子,那么偏相关系数必然很小,则反映象相关矩阵中的有些元素的绝对值比较大,则说明这些变量可能不适合作因子分析确定因子个数,主成分分析的主要统计量,,确定因子个数的方法(一),特征根,,特征根可以看成是表示公因子影响力度大小的指标,一般取特征值大于,1,的成分作为主成分,特征根小于,1,,不引入,,公因子的累积方差贡献率,,根据累计贡献率达到的百分比确定,,实际上累积贡献率是一个次要指标主要指标是特征值,,,在前一指标达到的情况下,只要累计贡献率不是太差都可以接受即使,70%,也不是太大的问题实际处理中,很少碰到累计贡献率太低的情况,如果问卷设计和数据收集没有太大问题的前提下确定因子个数的方法(二),碎石图,,碎石图是按特征值大小排列因子,横轴表示因子序号,纵轴表示特征值大小确定因子个数的方法(三),公因子提取方法,主成分分析法,,,假设变量是因子的纯线性组合,第一成分有较大的方差,后续成分其可解释的方差逐个递减。
最大似然法,,,该方法不要求多元正态分布,给出参数估计因子命名,因子载荷阵显示了原始变量与各主成分之间的相关程度根据他们的相关程度的大小,综合出各因子的含义如果每个因子与原始变量相关系数没有很明显的差异,对因子命名就比较困难Example,,,,,因子分析的一个重要目的在于对原始变量进行分门别类的综合评价如果因子分析结果保证了因子之间的正交性,但对因子不易命名,可以通过对因子模型的旋转,得到容易解释的结果因子旋转(一),所谓旋转就是一种坐标变换因子旋转的目的是为了便于理解和解释因子的实际意义,,,在旋转后的新坐标系中,因子载荷将得到重新分配,使得对公因子的命名和解释更加容易因子旋转通常分为两类,:,,正交旋转,,,Varimax,方差最大旋转,它使每个因子上的具有最高载荷的变量数最小,可简化对因子的解释斜交旋转,,正交旋转的基本假定是,,,因子分析中被提取出来的因子之间是相互独立的,,,因子间并不相关它的目的是要获得因子的简单结构,,,即使每个变量在尽可能少的因子上有较高的负载,;,而斜交旋转中,,,因子间的夹角是任意的,,,也就是说斜交旋转对因子间是否相关并无限定,,,这种因子旋转的结果就会使各因子所解释的变量的方差出现一定程度的重叠。
比起斜交旋转,正交旋转更具有一般性因子旋转(二),因子得分,因子得分就是每个观测量的公共因子的值根据因子得分系数和原始变量的标准化值,可以计算每个观测量的各因子的得分数,并可以据此对观测量进行进一步的分析计算因子得分的基本思想是将因子变量表现为原有变量的线性组合,即通过以下的因子得分函数计算:,,,(,j=1,,,2···p,),,,,,,回归法,,,因子得分的均值为,0,,方差等于估计因子得分与实际得分之间的多元相关的平方,,Bartlett,法,,因子得分均值为,0,,超出变量范围的特殊因子平方和被最小化,,Anderson-Rubin,法,,,因子得分的均值为,0,,标准差为,1,,且彼此不相关是为了保证因子的正交性而对,Bartlett,因子的调整估计因子得分的方法,,Example,,旋转后的因子表达式可以写成:,,,探索性因子分析只能用来寻找和发现模型,不能用它来确定一下特定的模型是否合理EFA,后,要通过,CFA,进行交叉证实实际应用中,做因子分析要求观测量数至少应该是变量数的,5,倍以上实例演示,中国西部,10,省经济生活水平研究,。