探索性因素分析 中国人民大学 心理学系 董妍 副教授 一、因素分析的概念 Ø因素分析是多元统计分析技术的一个分支 Ø主要目的:浓缩数据 Ø通过研究众多变量之间的内部依赖关系,探求观测 数据中的基本结构,并用少数几个假想变量来表示 基本的数据结构这些假想变量能够反映原来众多 的观测变量所代表的主要信息,并解释这些观测变 量之间的相互依存关系 Ø这些假想变量称为基础变量,即因子(Factors) Ø因素分析就是研究如何以最少的信息丢失把众多的 观测变量浓缩为少数几个因子 一、因素分析的概念 Ø因素分析主要有两种基本形式:探索性因 素分析(Exploratory Factor Analysis) 和验证性因素分析(Confirmatory Factor Analysis) ü探索性因素分析(EFA)致力于找出事物内在 的本质结构; ü验证性因素分析(CFA)是用来检验已知的特 定结构是否按照预期的方式产生作用 一、因素分析的概念 Ø因素分析的历史 ü1904年斯皮尔曼(Charles Spearman) Ø应用领域 ü心理学、社会学、经济学、医学、地质学、气 象学和市场营销等 一、因素分析的概念 Ø作用 ü寻求基本结构(Summarization) • 高度相关的变量 ü化简数据(Data reduction) • 用因子代替原来的观测变量进行其他统计分析 • 利用因子值对样本进行分类和综合评价 二、探索性因素分析的原理 Ø将彼此高度相关而又与别的变量相对独立 的一组变量聚合成群,称之为“因素”(又 称潜变量)。
Ø基本思想是,根据相关性大小把变量分组 ,使得同组内的变量间相关较高,不同组 变量间的相关较低;每组变量代表一个基 本结构,即因素 Ø其目的是识别少数几个因子,以之表示并 解释多个相关变量之间的关系,从而减少 变量数目,简化复杂的数据结构 二、探索性因素分析的原理 Ø 1、因素分析模型 Ø K个观测变量,分别为x1,x2,…,xk, xi为具有零均值, 单位方差的标准化变量 Ø 因子模型的一般表达式为: Ø 公因子(common factors) 特殊因子( Ufacotor) 因子负载(Factor loadings) 二、探索性因素分析的原理 Ø1.因素分析模型 Ø公因子:各个观测变量所共有的因子,解释了 变量之间的相关 Ø特殊因子:每个观测变量所特有的因子,相当 于多元回归中的残差项,表示该变量不能被公 因子所解释的部分 Ø因子负载:第i个变量在第j个公因子上的负载, 相当于多元回归分析中的标准化回归系数 因子之间彼此独立 特殊因子和公因子之间彼此独立 二、探索性因素分析的原理 a11 . 二、探索性因素分析的原理 2、因素分析中的有关概念 Ø(1)因子负载(loading):当公因子之 间完全不相关时,aij等于第i个变量和第j个 因子之间的相关系数。
Ø反映了因子和变量之间的相关程度 Ø大多数情况下,人们往往假设公因子之间 时彼此正交的(Orthogonal),即不相关 二、探索性因素分析的原理 两个观测变量之间的相关 ri j= a11a21+a21a22+….aimajm 二、探索性因素分析的原理 Ø由因子模型导出的变量之间的相关系数可 以用来判断因子解是否合适,如果从观测 数据计算出的相关系数和从模型导出的变 量的相关系数差别很小,那么我们可以说 模型很好地拟合了观测数据,因子解是合 适的 二、探索性因素分析的原理 Ø(2)公因子方差( Communality) Ø也叫共同度,又称公共方 差,指观测变量方差中由 公因子决定的比例,Hi2 Ø当公因子之间正交时,公 因子方差等于和该变量有 关的因子负载的平方和 Ø公因子方差表示了变量方 差中能被公因子所解释的 部分 二、探索性因素分析的原理 Ø(3)因子的贡献 Ø每个公因子对数据的解 释能力,可以用该因子 所解释的总方差来衡量 ,通常称为该因子的贡 献(Contributions), 记为Vp它等于和该因 子有关的因子负载的平 方和公因子的总贡献 等于各个因子贡献的和 Ø相对指标:每个因子所 解释的方差占所有变量 总方差的比例。
三、探索性因素分析的步骤 Ø1、收集观测变量由于总体的复杂性和统计基 本原理的保证,为了达到研究目的,我们通常采 用抽样的方法收集数据所以我们必须按照实际 情况收集观测变量,并对其进行观测,获得观测 值 Ø2、获得协方差阵(或相关系数矩阵)我们所 有的分析都是从原始数据的协方差阵(或相关系 数矩阵)出发的,这样使我们分析得到的数据具 有可比性,所以首先要根据资料数据获得变量协 方差阵(或相关系数矩阵) 三、探索性因素分析的步骤 Ø3、确定因子个数 Ø有具体的假设,它决定了因子的个数; Ø没有假设,仅仅希望最后的到的模型能用尽可能 少的因子解释尽可能多的方差 Ø如果有k个变量,最多只能提取k个因子通过检 验数据来确定最优因子个数的方法有很多 Kaiser准则要求因子个数与相关系数矩阵的特征 根个数相等;而Screen检验要求把相关系数矩阵 的的特征根按从小到大的顺序排列,绘制成图, 然后来确定因子的个数 Ø究竟采用哪种方法来确定因子个数,具体操作时 可以视情况而定 三、探索性因素分析的步骤 Ø4、提取因子 Ø因子的提取方法也有多种,主要有主成分 方法、不加权最小平方法、极大似然法等 ,我们可以根据需要选择合适的因子提取 方法。
其中主成分方法一种比较常用的提 取因子的方法 三、探索性因素分析的步骤 Ø5、因子旋转由于因子载荷阵的不唯一 性,可以对因子进行旋转,而正是由于这 一特征,使得因子结构可以朝我们可以合 理解释的方向趋近我们用一个正交阵右 乘已经得到的因子载荷阵(由线性代数可 知,一次正交变化对应坐标系的一次旋转 ),使旋转后的因子载荷阵结构简化旋 转的方法也有多种,如正交旋转、斜交旋 转等,最常用的是方差最大化正交旋转 三、探索性因素分析的步骤 Ø6、解释因子结构 Ø我们最后得到的简化的因子结构是使每个 变量仅在一个公共因子上有较大载荷,而 在其余公共因子上的载荷比较小,至多是 中等大小这样我们就能知道所研究的这 些变量到底是由哪些潜在因素(也就是公 共因子)影响的,哪些因素是起主要作用 的,而哪些因素的作用较小,甚至可以不 用考虑 三、探索性因素分析的步骤 Ø7、因子得分因素分析的数学模型是将 变量表示为公共因子的线性组合,由于公 共因子能反映原始变量的相关关系,用公 共因子代表原始变量时,有时更利于描述 研究对象的特征,因而往往需要反过来将 公共因子表示为变量的线性组合,即因子 得分 三、探索性因素分析的步骤 Ø如果变量之间的相关程度很小,即大部分 相关系数都小于0.3,则不适合做因素分析 。
Ø判断是否适合做因素分析的方法: Ø(1)反映象相关矩阵(Anti-image correlation matrix)其元素等于负的偏 相关系数 Ø很多元素的值比较大,考虑不适合做因素 分析 三、探索性因素分析的步骤 Ø判断是否适合做因素分析的方法: Ø(2)巴特利特球体检验(Bartlett test of sphericity) Ø差异显著——适合做因素分析 三、探索性因素分析的步骤 (3)KMO(Kaiser-Meyer-Olkin Measure of Sampling Adequacy)测度 Ø比较观测变量之间的简单相关系数和偏相 关系数的相对大小出发,其值的变化范围 从0到1 ØKMO0.5,Bartlett’s test of sphericity差异显著 Ø Extraction: Ø Method: Principal components Ø Extract: Eigenvalues over 1(特征根大于1) Number of factors(可以自己限定因子个数 ) Ø Display: Scree plot(碎石图) Ø Method Ø 直交旋转:Varimax (一般选用此种方法 ) Quartimax Ø Equamax Ø 斜交旋转:Direct Oblimin Ø Promax Ø Options:Coefficient Display Format Ø 选择:Sorted by size Ø Suppress absolute values less than 0.4(表示不显示小于04的负荷值) Ø特点: Ø首先看是否可以做探索性因素分析 Ø当出现负荷值小于0.3的情况以及出现跨因 子负荷的时候要一个一个的删除项目 Ø每删除一次项目之后,要重新再做一次探 索性因素分析 Ø直到所有的负荷值都达到统计标准 Ø报告结果要全面 。