第五部分因子分析说课材料

资源描述

《第五部分因子分析说课材料》由会员分享，可在线阅读，更多相关《第五部分因子分析说课材料（59页珍藏版）》请在金锄头文库上搜索。

1、第五章因子分析,第一节因子分析简介第二节基本原理第三节求解初始因子第四节解释因子第五节因子值及其应用第六节研究实例,参见郭志刚主编，社会统计分析方法SPSS软件应用第三章，中国人民大学出版社1999,第一节因子分析简介,因子分析( Factor Analysis ,也称因素分析)是一种数据化简技术 1、考察一组变量之间的协方差或相关系数结构 2、解释这些变量与为数较少的因子(即不可观测的潜变量) 之间的关联,分类,探索性因子分析( Exploratory Factor Analysis ,EFA) 验证性因子分析(Confirmatory Factory Anal

2、ysis ,CFA ）也称为实证性因子分析、证实性因子分析、确定性因子分析) 。,共同点,1、理论基础：普通因子分析模型 2、主要目的：浓缩数据通过对诸多变量的相关性研究,用假想的少数几个变量(因子、潜变量) 来表示原来变量(观测变量) 的主要信息。,不同,1、基本思想不同因子分析的基本思想是要寻找公共因子,以达到数据化简的目的。探索性因子分析：找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度,以试图揭示一套相对比较大的变量的内在结构。研究者的假定是每个指标变量都与某个因子匹配,而且只能通过因子载荷凭知觉推断数据的因子结构。,验证性因子：决定事前定义因子的模型拟合

3、实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。指标变量是基于先验理论选出的,而因子分析是用来看它们是否如预期的一样。先验假设：每个因子都与一个具体的指示变量子集对应,并且至少要求预先假设模型中因子的数目,但有时也预期哪些变量依赖哪个因子。,2、应用前提不同探索性因子分析没有先验信息,而验证性因子分析有先验信息。探索性因子分析是在事先不知道影响因子的基础上,完全依据样本数据,利用统计软件以一定的原则进行因子分析,通过因子载荷凭知觉推断数据的因子结构，最后得出因子的过程。适合于在没有理论支持的情况下对数据的试探性分析。这就需要用验证性因子分析

4、来做进一步检验,验证性因子分析基于预先建立的理论,要求事先假设因子结构,其先验假设是每个因子都与一个具体的指示变量子集对应,以检验这种结构是否与观测数据一致。也就是在上述数学模型中,首先要根据先验信息判定公共因子数m ,同时还要根据实际情况将模型中某些参数设定为某一定值。这样,验证性因子分析也就充分利用了先验信息,在已知因子的情况下检验所搜集的数据资料是否按事先预定的结构方式产生作用。,3、理论假设不同探索性因子分析的假设主要包括: 所有的公共因子都相关(或都不相关) ; 所有的公共因子都直接影响所有的观测变量; 特殊(唯一性) 因子之间相互独立; 所有观测变量只受一个特殊(唯一性) 因

5、子的影响; 公共因子与特殊因子(唯一性) 相互独立。,验证性因子分析克服了探索性因子分析假设条件约束太强的缺陷,其假设主要包括: 公共因子之间可以相关,也可以无关; 观测变量可以只受一个或几个公共因子的影响,而不必受所有公共因子的影响; 特殊因子之间可以相关,还可以出现不存在误差因素的观测变量; 公共因子与特殊因子之间相互独立,4、分析步骤不同探索性因子分析主要有以下七个步骤: 收集观测变量:通常采用抽样的方法,按照实际情况收集观测变量数据。构造相关矩阵:根据相关矩阵可以确定是否适合进行因子分析。确定因子个数:可根据实际情况事先假定因子个数,也可以按照特征根大于1 的准则或碎石准则来确定

6、因子个数。提取因子:可以根据需要选择合适的因子提取方法,如主成分方法、加权最小平方法、极大似然法等。,因子旋转:由于初始因子综合性太强,难以找出实际意义,因此一般都需要对因子进行旋转(常用的旋转方法有正交旋转、斜交旋转等) ,以便于对因子结构进行合理解释。解释因子结构:可以根据实际情况及负载大小对因子进行具体解释。计算因子得分:可以利用公共因子来做进一步的研究,如聚类分析、评价等。,验证性因子分析主要有以下六个步骤: 定义因子模型:包括选择因子个数和定义因子载荷。因子载荷可以事先定为0 、或者其它自由变化的常数,或者在一定的约束条件下变化的数(比如与另一载荷相等) 。收集观测值:根据研

7、究目的收集观测值。获得相关系数矩阵:根据原始资料数据获得变量协方差阵。拟合模型:这里需要选择一种方法(如极大似然估计、渐进分布自由估计等) 来估计自由变化的因子载荷。,评价模型:当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关矩阵与实际观测矩阵之间的差异最小。常用的统计参数有:卡方拟合指数(2 ) 、比较拟合指数(CFI) 、拟合优度指数( GFI) 和估计误差均方根( RMSEA) 。根据Bentler(1990) 的建议标准,2 3. 0 、CFI 0. 90 、GFI 0. 85 、RMSE 0. 05 ,则表明该模型的拟合程度是可接受的。修正模型:如果模型拟合效果不佳

8、,应根据理论分析修正或重新限定约束关系,对模型进行修正,以得到最优模型。,5、主要应用范围不同探索性因子分析: 寻求基本结构,解决多元统计分析中的变量间强相关问题; 数据化简。,验证性因子分析允许研究者将观察变量依据理论或先前假设构成测量模式,然后评价此因子结构和该理论界定的样本资料间符合的程度。因此,主要应用于以下三个方面: 验证量表的维度或面向性( dimensionality) ,或者称因子结构,决定最有效因子结构; 验证因子的阶层关系; 评估量表的信度和效度。,假设观测变量之间相关是因为他们共享公因子。,探索性因子分析思路,目的：化简数据方式：研究众多变量之间的内部依赖关系，探求

9、观测数据中的基本结构，并用少数几个假想变量（因子）表示基础数据结构实质：研究如何以最少的信息丢失把众多观测变量浓缩为少数几个因子,将每个观测变量用一组因子的线性组合表示： xi = ai1 f1 + ai2 f2 + + aim fm + ui ( i = 1,2,k) (1) f1 ，f2 ，fm 叫做公因子(Common factors)，它们是各个观测变量所共有的因子，解释了变量之间的相关。 (2) ui称为特殊因子(Unique factor)，它是每个观测变量所特有的因子，相当于多元回归中的残差项，表示该变量不能被公因子所解释的部分。 (3) aij 称为因子负载(Factor l

10、oadings)，它是第i个变量在第j个公因子上的负载，相当于多元回归分析中的标准回归系数（i=1,k; j=1,m）。,第二节（探索性）因子分析原理,一、模型,因子分析模型,公因子个数小于等于观测变量数,1、因子负载（factor loading）反映了因子和变量之间的相关程度，当公因子之间完全不相关时，等于变量和因子之间的相关系数。,二、概念,大多数情况下，人们往往假设公因子之间的关系是彼此正交的（orthogonal），即不相关因子负载不仅表示了观测变量如何由因子线性表示，而且反映了因子和变量间的相关程度,2、公因子方差(Communality) 又称共同度、公共方差，指观测变量方

11、差中由公因子决定的比例。当公因子之间彼此正交时，公因子方差等于和该变量有关的因子负载的平方和，用公式表示为： hi2 = ai12 + ai22 + + aim2 （行平均和）,变量方差公因子方差特殊因子方差,值越大，变量能被因子说明的程度越高意义：说明如果用公因子替代观测变量后，原来每个变量的信息被保留的程度,3、因子贡献(Contributions) 反映每个公因子对数据的解释能力，用该因子所解释的总方差来衡量。,因子贡献：因子负载列平方和即：数据输出中的特征值,更常用指标：每个因子所解释的方差（因子贡献）占所有变量总方差的比例（即：因子贡献或特征值除以变量个数即总方差，因为标准化

12、变量的标准差和方差均为1）衡量公因子的相对重要性,公因子累积解释方差比例，判断因子分析效果,1、检查相关矩阵是否适合做因子分析（变量间应高度相关 0.3） 2、提取因子 3、因子旋转 4、计算因子值,三、因子分析的步骤,变量：间距测度及以上。样本规模：至少是变量数的5倍,判断数据是否适合做因子分析,1、反映象相关矩阵 (Anti-image correlation matrix)。其元素等于负的偏相关系数。 2、巴特利特球体检验(Bartlett test of sphericity) 零假设为相关矩阵是单位阵（说明变量间不相关） 3、KMO (Kaiser-Meyer-Olkin M

13、easure of Sampling Adequacy) 测度。该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发，【0，1】。当所有变量之间的偏相关系数的平方和，远远小于简单相关系数的平方和时，KMO值接近1. 0.9以上，非常好; 0.6，差; 0.8以上，好; 0.5，很差; 0.7，一般; 0.5 以下，不能接受,该矩阵中各项值应该比较小。因为这说明变量间存在大量的重叠影响（公因子）,应该通过检验,数(纯)量矩阵（标量矩阵）,称为单位矩阵（或单位阵）.有时也记作E.,为数量矩阵或标量阵。,当时，记作,第三节求解初始因子,目的：确定能够解释观测变量之间相关关系的最小因

14、子个数主成分分析：独立的数据化简技术。因子分析将其结果作为初始因子解（特征值）公因子分析：主轴因子法、极大似然法、最小二乘法、alpha法,一、主成分分析法,把给定的一组（k个）相关变量通过线性变换转换成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。转换中保持变量的总方差不变，使第一个变量具有最大的方差，称为第一主成分，第二个变量方差次大，且和第一个变量不相关，称为第二主成分，依次类推，k个变量有k个主成分,1、主成分的几何意义,最长的轴：第一主成分次长的轴：第二主成分 ,2、主成分的求解,数学工具：特征方程做法：通过求解观测变量相关矩阵的特征方程，得到k个特征值和对应

15、的k个单位特征向量，把k个特征值从大到小排列，它们分别代表k个主成分所解释的观测变量的方差主成分是观测变量的线性组合，线性组合的权数即为相应的单位特征向量中的元素,1）特征值准则：保留特征值大于等于1的因子 2）碎石检验准则（SCREE TEST CRITERION）因子特征值随因子个数变化的散点图曲线变平开始的前一点被认为是提取的最大因子数因子累计解释方差的比例超过70-80%。 3）直接指定因子个数。,3、确定因子个数,二、公因子分析法,从解释变量的方差出发，假设变量的方差能完全被主成分所解释,从解释变量之间的相关关系出发，假设观测变量之间的相关能完全被公因子解释但变量的方差不一

16、定完全被公因子解释，这样每个变量被公因子所解释的方差不再是1，而是公因子方差求解因子解时，只考虑公因子方差,主成分法,公因子法,公因子方差的估计主轴因子法最小二乘法最大似然法 a因子提取法映象分析法,方法选择,依据：目的对变量方差的了解程度以最少的因子最大程度地解释原始数据中的方差 / 知道特殊因子和误差带来的方差很小主成分分析法为了确定数据结构，而且并不了解变量方差公因子分析法,解很接近,第四节解释因子,求得因子解后，大多数因子都和很多变量有关，无法很好地说明其实际含义,一、思路,因子旋转的目的: 通过改变坐标轴的位置，重新分配各个因子所解释的方差的比例，使因子结构更简单，更易于解释。因子旋转不改变模型对数据的拟合程度，不改变每个变量的公因子方差,因子旋转方法 Rotation,正交旋转(Orthogonal Rotation): 因子轴之间仍然保持90度角，即因子之间是不相关的。斜交旋转（Oblique Rotation): 因子轴之间不必是90度角，即因子之间

展开阅读全文