《第五部分因子分析》由会员分享,可在线阅读,更多相关《第五部分因子分析(59页珍藏版)》请在金锄头文库上搜索。
1、第五章第五章 因子分析因子分析第一节第一节 因子分析简介因子分析简介第二节第二节 基本原理基本原理第三节第三节 求解初始因子求解初始因子第四节第四节 解释因子解释因子第五节第五节第五节第五节 因子值及其应用因子值及其应用因子值及其应用因子值及其应用第六节第六节第六节第六节 研究实例研究实例研究实例研究实例参见郭志刚主编,参见郭志刚主编,社会统计分析方法社会统计分析方法SPSS软件应用软件应用第三章,第三章, 中国人民大学出版社中国人民大学出版社1999第一节 因子分析简介因子分析( Factor Analysis ,也称因素分析)是一种数据化简数据化简技术1、考察一组变量之间的协方差或相关系数
2、结构2、解释这些变量与为数较少的因子(即不可观测的潜变量) 之间的关联分类探索性因子分析( Exploratory Factor Analysis ,EFA) 验证性因子分析(Confirmatory Factory Analysis ,CFA ) 也称为实证性因子分析、证实性因子分析、确定性因子分析) 。共同点1、理论基础:普通因子分析模型2、主要目的:浓缩数据 通过对诸多变量的相关性研究,用假想用假想的少数几个变量的少数几个变量(因子、潜变量因子、潜变量) 来表示原来来表示原来变量变量(观测变量观测变量) 的主要信息。的主要信息。不同不同1、基本思想不同、基本思想不同因子分析的基本思想是要
3、寻找公共因子寻找公共因子,以达到数据化简数据化简的目的。探索性因子分析探索性因子分析:找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度,以试图揭示一套相对比较大的揭示一套相对比较大的变量的内在结构变量的内在结构。研究者的假定是每个指标变量都与某个因子匹配,而且只能通过因子载荷凭知觉推断通过因子载荷凭知觉推断数据的因子结构数据的因子结构。验证性因子:决定事前定义因子的模型拟合实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。指标变量是基于先验理论选出的,而因子分析是用来看它们是否如预期的一样。先验假设:每个因子都与一个具体的指示变量子集
4、对应,并且至少要求预先假设模型中因子的数目,但有时也预期哪些变量依赖哪个因子。2、应用前提不同、应用前提不同探索性因子分析没有先验信息,而验证性因子分析有先验信息。探索性因子分析是在事先不知道影响因子的基础上,完全依据样本数据,利用统计软件以一定的原则进行因子分析,通过因子载荷凭知觉推断数据的因子结构,最后得出因子的过程。适合于在没有理论支持的情况下对数据的试探性分析。这就需要用验证性因子分析来做进一步检验验证性因子分析基于预先建立的理论,要求事先假设因子结构,其先验假设是每个因子都与一个具体的指示变量子集对应,以检验这种结构是否与观测数据一致。也就是在上述数学模型中,首先要根据先验信息判定公
5、共因子数m ,同时还要根据实际情况将模型中某些参数设定为某一定值。这样,验证性因子分析也就充分利用了先验信息,在已知因子的情况下检验所搜集的数据资料是否按事先预定的结构方式产生作用。3、理论假设不同、理论假设不同探索性因子分析的假设主要包括: 所有的公共因子都相关(或都不相关) ; 所有的公共因子都直接影响所有的观测变量; 特殊(唯一性) 因子之间相互独立; 所有观测变量只受一个特殊(唯一性) 因子的影响; 公共因子与特殊因子(唯一性) 相互独立。验证性因子分析验证性因子分析克服了探索性因子分析假设条件约束太强的缺陷,其假设主要包括: 公共因子之间可以相关,也可以无关; 观测变量可以只受一个或
6、几个公共因子的影响,而不必受所有公共因子的影响; 特殊因子之间可以相关,还可以出现不存在误差因素的观测变量; 公共因子与特殊因子之间相互独立4、分析步骤不同、分析步骤不同探索性因子分析主要有以下七个步骤: 收集观测变量:通常采用抽样的方法,按照实际情况收集观测变量数据。构造相关矩阵:根据相关矩阵可以确定是否适合进行因子分析。确定因子个数:可根据实际情况事先假定因子个数,也可以按照特征根大于1 的准则或碎石准则来确定因子个数。提取因子:可以根据需要选择合适的因子提取方法,如主成分方法、加权最小平方法、极大似然法等。因子旋转:由于初始因子综合性太强,难以找出实际意义,因此一般都需要对因子进行旋转(
7、常用的旋转方法有正交旋转、斜交旋转等) ,以便于对因子结构进行合理解释。解释因子结构:可以根据实际情况及负载大小对因子进行具体解释。计算因子得分:可以利用公共因子来做进一步的研究,如聚类分析、评价等。验证性因子分析主要有以下六个步骤: 定义因子模型:包括选择因子个数和定义因子载荷。因子载荷可以事先定为0 、或者其它自由变化的常数,或者在一定的约束条件下变化的数(比如与另一载荷相等) 。收集观测值:根据研究目的收集观测值。获得相关系数矩阵:根据原始资料数据获得变量协方差阵。拟合模型:这里需要选择一种方法(如极大似然估计、渐进分布自由估计等) 来估计自由变化的因子载荷。评价模型:当因子模型能够拟合
8、数据时,因子载荷的选择要使模型暗含的相关矩阵与实际观测矩阵之间的差异最小。常用的统计参数有:卡方拟合指数(2 ) 、比较拟合指数(CFI) 、拟合优度指数( GFI) 和估计误差均方根( RMSEA) 。根据Bentler(1990) 的建议标准,2 3. 0 、CFI 0. 90 、GFI 0. 85 、RMSE 0. 05 ,则表明该模型的拟合程度是可接受的。修正模型:如果模型拟合效果不佳,应根据理论分析修正或重新限定约束关系,对模型进行修正,以得到最优模型。5、主要应用范围不同、主要应用范围不同探索性因子分析: 寻求基本结构,解决多元统计分析中的变量间强相关问题;数据化简。验证性因子分析
9、允许研究者将观察变量依据理论或先前假设构成测量模式,然后评价此因子结构和该理论界定的样本资料间符合的程度。因此,主要应用于以下三个方面: 验证量表的维度或面向性( dimensionality) ,或者称因子结构,决定最有效因子结构; 验证因子的阶层关系; 评估量表的信度和效度。假设观测变量之间相关是因为他们共享公因子。很多观测变量少数因子代替浓缩探索性因子分析思路探索性因子分析思路目的:化简数据方式:研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量(因子)表示基础数据结构实质:研究如何以最少的信息丢失把众多观测变量浓缩为少数几个因子将每个观测变量用一组因子的线性
10、组合表示:xi = ai1 f1 + ai2 f2 + + aim fm + ui ( i = 1,2,k)(1) f1 ,f2 ,fm 叫做公公因因子子(Common factors),它们是各个观测变量所共有的因子,解释了变量之间的相关。(2) ui称为特特殊殊因因子子(Unique factor),它是每个观测变量所特有的因子,相当于多元回归中的残差项,表示该变量不能被公因子所解释的部分。(3) aij 称为因因子子负负载载(Factor loadings),它是第i个变量在第j个公因子上的负载,相当于多元回归分析中的标准回归系数(i=1,k; j=1,m)。第二节第二节 (探索性)因子
11、分析原理(探索性)因子分析原理一、模型一、模型 因子分析模型公因子个数小于等于观测变量数1、因子负载 (factor loading) 反映了因子和变量之间的相关程度,当公因子之间完全不相关时,等于变量和因子之间的相关系数。二、概念二、概念大多数情况下,人们往往假设公因子之间的关系是彼此正交的(orthogonal),即不相关因子负载不仅表示了观测变量如何由因子线性表示,而且反映了因子和变量间的相关程度2、公因子方差(Communality) 又称共同度、公共方差,指观测变量方差中由公因子决定的比例。 当公因子之间彼此正交时,公因子方差等于和该变量有关的因子负载的平方和,用公式表示为:hi2
12、= ai12 + ai22 + + aim2 (行平均和)变量方差公因子方差特殊因子方差变量方差公因子方差特殊因子方差值越大,变量能被因子说明的值越大,变量能被因子说明的程度越高程度越高意义意义:说明如果用公因子替代:说明如果用公因子替代观测变量后,原来每个变量的观测变量后,原来每个变量的信息被保留的程度信息被保留的程度3、因子贡献(Contributions) 反映每个公因子对数据的解释能力,用该因子所解释的总方差来衡量。因子贡献:因因子贡献:因子负载列平方子负载列平方和和即:数据输出即:数据输出中的特征值中的特征值更常用指标:每个因子所解释的方差(因子贡献)占所有变量总更常用指标:每个因子
13、所解释的方差(因子贡献)占所有变量总方差的比例方差的比例 (即:因子贡献或特征值除以(即:因子贡献或特征值除以变量个数变量个数即总方即总方差,因为标准化变量的标准差和方差均为差,因为标准化变量的标准差和方差均为1)衡量公因子的相对重要性衡量公因子的相对重要性公因子公因子累积解累积解释方差释方差比例,比例,判断因判断因子分析子分析效果效果1、检查相关矩阵是否适合做因子分析(变量间应高度相关 0.3)2、提取因子3、因子旋转4、计算因子值三、因子分析的步骤三、因子分析的步骤变量:间距测度及以上。变量:间距测度及以上。样本规模:至少是变量数的样本规模:至少是变量数的5倍倍判断数据是否适合做 因子分析
14、1、反映象相关矩阵 (Anti-image correlation matrix)。 其元素等于负的偏相关系数。2、巴特利特球体检验(Bartlett test of sphericity) 零假设为相关矩阵是单位阵单位阵(说明变量间不相关)3、KMO (Kaiser-Meyer-Olkin Measure of Sampling Adequacy) 测度。 该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,【0,1】。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数的平方和时,KMO值接近1. 0.9以上,非常好; 0.6,差; 0.8以上,好; 0.5,很差; 0.
15、7,一般; 0.5 以下,不能接受该矩阵中各项值应该比较小。该矩阵中各项值应该比较小。因为这说明变量间存在大量的因为这说明变量间存在大量的重叠影响(公因子)重叠影响(公因子)应该通过检验应该通过检验数数(纯纯)量矩阵(标量矩阵)量矩阵(标量矩阵)称为称为单位矩阵单位矩阵(或(或单位阵单位阵). .有时也记作有时也记作E E. .全为全为1为为数量矩阵数量矩阵或或标量阵标量阵。当当 时,记作时,记作第三节第三节 求解初始因子求解初始因子目的:目的:确定能够解释观测变量之间相关关系的最小因子个数主成分分析主成分分析:独立的数据化简技术。因子分析将其结果作为初始因子解(特征值)公因子分析公因子分析:
16、主轴因子法、极大似然法、最小二乘法、alpha法一、主成分分析法一、主成分分析法把给定的一组(把给定的一组(k k个)相关变量通过线性变个)相关变量通过线性变换转换成另一组不相关的变量,这些新的换转换成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。变量按照方差依次递减的顺序排列。转换中保持变量的总方差不变,使第一个转换中保持变量的总方差不变,使第一个变量具有最大的方差,称为变量具有最大的方差,称为第一主成分第一主成分,第二个变量方差次大,且和第一个变量不第二个变量方差次大,且和第一个变量不相关,称为相关,称为第二主成分第二主成分,依次类推,依次类推,k k个变个变量有量有k k个
17、主成分个主成分1、主成分的几何意义最长的轴:第一主成分次长的轴:第二主成分2、主成分的求解数学工具:特征方程做法:通过求解观测变量相关矩阵的特征方程,得到k个特征值和对应的k个单位特征向量,把k个特征值从大到小排列,它们分别代表k个主成分所解释的观测变量的方差主成分是观测变量的线性组合,线性组合的权数即为相应的单位特征向量中的元素1)特征值准则:保留特征值大于等于1的因子2)碎石检验准则(SCREE TEST CRITERION)因子特征值随因子个数变化的散点图曲线变平开始的前一点曲线变平开始的前一点被认为是提取的最大因子数因子累计解释方差的比例超过70-80%。3)直接指定因子个数。3、确定
18、因子个数二、公因子分析法二、公因子分析法从解释变量的从解释变量的方差方差出出发,假设变量的方差发,假设变量的方差能完全被主成分所解能完全被主成分所解释释从解释变量之间的从解释变量之间的相关关系相关关系出发,假出发,假设观测变量之间的相关能完全被公因设观测变量之间的相关能完全被公因子解释子解释但变量的方差不一定完全被公因子解但变量的方差不一定完全被公因子解释,这样每个变量被公因子所解释的释,这样每个变量被公因子所解释的方差不再是方差不再是1 1,而是公因子方差,而是公因子方差求解因子解时,只考虑公因子方差求解因子解时,只考虑公因子方差主成分法主成分法公因子法公因子法公因子方差的估计公因子方差的估
19、计主轴因子法主轴因子法最小二乘法最小二乘法最大似然法最大似然法a因子提取法因子提取法映象分析法映象分析法方法选择方法选择依据:目的对变量方差的了解程度以最少的因子最大程度地解释原始数据中的方差 / 知道特殊因子和误差带来的方差很小 主成分分析法为了确定数据结构,而且并不了解变量方差 公因子分析法解很接近第四节第四节 解释因子解释因子求得因子解后,大多数因子都和很多变量有关,无法很好地说明其实际含义一、思路一、思路因子旋转的目的: 通过改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构更简单,更易于解释。 因子旋转不改变模型对数据的拟合程度,不改变每个变量的公因子方差因子旋转方法
20、Rotation正交旋转(Orthogonal Rotation): 因子轴之间仍然保持90度角,即因子之间是不相关的。斜交旋转(Oblique Rotation): 因子轴之间不必是90度角,即因子之间可以是相关的。四次方最大法QUARTIMAX 方差最大法VARIMAX 等量最大法EQUIMAX二、正交旋转方法二、正交旋转方法 目标:简化因子负载矩阵的行和列,使因子负载向0,1两极分化 因子模式和因子结构因子模式和因子结构因子模式(Factor pattern)矩阵:因子负载矩阵因子结构(Factor structure)矩阵:因子和变量之间的相关矩阵。 在斜交旋转中,因子负载不再等于因子
21、和变量之间的相关系数,因子结构和因子模式之间是有区别的。二者关系: S = BWS 因子结构矩阵B 因子模式矩阵W 斜交因子之间的相关系数矩阵斜交因子解斜交因子解三、斜交旋转方法三、斜交旋转方法 数据化简,把很多变量浓缩成少数几个因子,对因子的确切含义不在意正交旋转得到理论上有意义的因子斜交四、选择旋转方法四、选择旋转方法 理论上斜交优于正交理论上斜交优于正交但实际上正交应用更为广泛但实际上正交应用更为广泛默认:方差最大法默认:方差最大法做法:从简化因子负载矩阵的每列做法:从简化因子负载矩阵的每列出发,使和每个因子有关的负载平出发,使和每个因子有关的负载平方的方差最大方的方差最大意义:希望通过
22、因子旋转后,使每意义:希望通过因子旋转后,使每个因子上的负载尽可能地拉开距离,个因子上的负载尽可能地拉开距离,趋于趋于0 0或或1 1得到最后因子解后,我们希望给每个因子一个有意义的解释。解释因子主要是借助于因子负载矩阵,首先找出在每个因子上有显著负载的变量,根据这些变量的意义给因子一个合适的名称,具有较高负载的变量对因子名称的影响更大。实际中,一般认为绝对值大于0.3 的因子负载就是显著的。四、解释因子四、解释因子因子值(Factor scores): 因子在每个样本案例上的值。xji是第j个变量在第i个案例上的值,wpj是第p个因子和第j个变量之间的因子值系数第五节第五节 因子值及其应用因子值及其应用有了因子值,就可以把因子作为变量来用,进行其他的统计分析有了因子值,就可以把因子作为变量来用,进行其他的统计分析理解因子分析模型是用因子的线性组合来表示一个观测变量,因子负载是该线性组合的权数(标准化回归系数)求因子值的过程正好相反,它通过观测变量的线性组合来表示因子,因子值是观测变量的加权平均。因为各个变量在因子上的负载不同,所以不能把变量简单的相加,权数的大小表示了变量对因子的重要程度获得一个最终变量Y=factor score 1 方差解释比例1+ factor score 2 方差解释比例2 +第六节第六节 研究实例研究实例第六节第六节 研究实例研究实例