《因子分析(研究生课程)课件》由会员分享,可在线阅读,更多相关《因子分析(研究生课程)课件(60页珍藏版)》请在金锄头文库上搜索。
1、因子分析因子分析暨南大学管理学院企业管理系陈晓曦历史历史l1947年,美国统计学家Stone关于国民经济的研究。l1927-1938年的数据,得到了17个反映国民收入与支出的变量,l后来通过因子分析发现,只需要用3个新的综合变量,就可以解释95%的原始信息。l总收入l总收入率l积极发展或衰退趋势案例案例l在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。 但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三
2、个公共因子可以表示为: 称 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子。 (一)什么是因子分析(一)什么是因子分析 因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。 因子分析与回归分析不同,因子分析中的因因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明子是一个比
3、较抽象的概念,而回归因子有非常明确的实际意义。确的实际意义。 因子分析的数学模型为: X为原有变量(标准化变量,均值为0,标准差为1)F为因子变量, 互不相关,方差为1。 原变量被表示为公共因子的线性组合。概念概念l因子变量(公共因子):Fl因子负荷l特殊因子:相当于残差l变量共同度l公共因子的方差贡献率 (二)(二) 因子分析中的几个统计特征因子分析中的几个统计特征 1 1、因子载荷的统计意义(假定、因子载荷的统计意义(假定x x已经标准化)已经标准化)当各个因子变量不相关时, 因子载荷 是第i个变量与第j个公共因子的相关系数。 反映了第i个变量与第j个公共因子的相关重要性。绝对值越大,相关
4、的密切程度越高。 2 2、变量共同度的统计意义、变量共同度的统计意义定定义义:变量 的共同度是因子载荷矩阵的第i行的元素的平方和。记为统计意义统计意义:两边求方差 所有的公共因子和特殊因子对变量 的贡献为1。如果 非常靠近1, 非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。 3 3、公共因子、公共因子 方差贡献的统计意义方差贡献的统计意义定义为:因子载荷矩阵中第j列上各个元素的平方和 称为 对 的方差贡献和。衡量 的相对重要性。反映了:该因子对所有的原始变量总方差的解释能力。 (三)因子旋转(正交变换)(三)因子旋转(正交变换) 建立了因子分析数学目的不仅仅要找出公共因子
5、以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法、四次方最大法、方差最大法和等量最大法。为什么要旋转因子为什么要旋转因子 百米跑成绩 跳远成绩 铅球成绩 跳高成绩 400米跑成绩 百米跨栏 铁饼成绩 撑杆跳远成绩 标枪成绩 1500米跑成绩 奥运会十项全能运动项目奥运会十项全能运动项目得分数据的因子分析得分数据的因子分析 因子载荷矩阵可以看出,除F1在所有的
6、变量上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。于是考虑旋转因子,得下表 旋转因子之后短跑速度因子爆发性臂力因子爆发腿力因子长跑耐力因子 通过旋转,因子有了较为明确的含义。 百米跑, 跳远和 400米跑,需要爆发力的项目在 有较大的载荷, 可以称为短跑速度因子; 铅球, 铁饼和 标枪在 上有较大的载荷,可以称为爆发性臂力因子; 百米跨栏, 撑杆跳远, 跳远和为 跳高在 上有较大的载荷, 爆发腿力因子; 长跑耐力因子。(四)因子分析的步骤(四)因子分析的步骤l确定待分析的原有若干变量是否适合于因子分析l构造因子变量l主成分分析法l利用旋转使得因子变量更具可解释性l计算因子
7、变量得分因子得分的概念因子得分的概念 前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。 因子分析的数学模型为: 原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原标量的线性组合。 因子得分函数: 可见,要求得每个因子的得分,必须求得分函数的系数,而由于pm,所以不能得到精确的得分,只能通过估计。l确定待分析的原有若干变量是否适合于因子分析l原有变量之间要有
8、较强的相关l计算变量之间的相关系数矩阵,如果大部分的相关系数都小于0.3,且未达到显著,那么这些变量不适合进行因子分析。lSPSS提供的检验方法lBartlett球形检验依据相关矩阵l零假设:原有变量的相关系数矩阵是单位阵(对角线为1,其余为0),如果相关系数矩阵的行列式较大,适合作因子分析。lKMO(Kaiser-Meyer-Olkin)检验比较相关与偏相关l取值:01l越接近于1,则所有变量之间的简单相关系数平方和远大于偏相关系数平方和,因此适合作因子分析。0.9KMO:非常适合0.7KMO0.8:一般KMO0.5:不适合l反映像相关矩阵检验l以变量的偏相关系数矩阵为出发点,将偏相关系数矩
9、阵的每个元素取反,得到反映像相关矩阵。如果变量之间存在较多的重叠影响,那么偏相关系数就会较小。l因此如果反映像相关矩阵中有些元素的绝对值较大,那么说明这些变量不适合于因子分析。SPSS实现l选择菜单Analyze Dimension Reduction Factor命令因子分析主对话框l将要分析的原有变量选入右侧variablesFactorFactor过程的选择项过程的选择项lFACTOR过程的选择项共分为五类,分别使用主对话框中的五个子对话框按钮展开相应的子对话框进行选择。lDescriptives Descriptives 展开相应的子对话框可以选择单变量的描述统计量和初始分析结果。lE
10、xtractionExtraction 展开相应的子对话框可以选择不同的提取公因子的方法和控制提取结果的判据。lRotationRotation 展开相应的子对话框可以选择因子旋转方法。lScoresScores 展开相应的子对话框可以要求计算因子得分,选择显示或作为新变量保存。lOptionsOptions 展开相应的子对话框可以进一步选择各种输出项。1、Descriptives子对话框中的选择项子对话框中的选择项lDescriptives子对话框。描述统计量分的选择项为两组:(1)Statistics统计量组,共有两项供选择: Univariate Descriptives 单变量描述统计
11、量,选择此项可以输出参与分析的各原始变量的均值、标准差等。 Initial solution初始分析结果,选择此项可以给出原始变量的公因子方差、与变量数相等的因子、各因子的特征值、各因子特征值占总方差的百分比以及累积百分比。(2)Correlation Matix 相关矩阵组 Coeffients 相关系数选择此项给出原始变量间的相关系数矩阵。这是分析的基础。 Significance levels 显著性水平选择此项给出每个相关系数相对于相关系数为0的设检验的概率水平。 Determinant 相关系数矩阵的行列式。 Inverse 相关系数矩阵的逆矩阵。 Reproduced 再生相关阵,
12、选择此项给出因子分析后的相关阵,还给出残差,即原软关与再生相关之间的差值。 Anti-image 反映像相关阵。包括偏相关系数的负数;反映像协方差阵,包括偏协方差的负数;在一个好的因子模型中除对角线上的系数较大外,远离对角线的元素应该比较小。 KMO and Bartletts test of sphericity KMO和球形 Bartlett检验。选择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。检验变量间的偏相关是否很小。Bartlett球形检验,检验的书相关阵是否是单位阵。它表明因子模型是否是不合适宜的。lContinue按钮确认选择,返回主对话框;Cancle按钮使
13、选择作废,返回主对话框。2、Extraction 因子提取子对话框因子提取子对话框lExtraction 因子提取子对话框。有关因子提取的选择项共分四部分(如果是主成分分析,则选Principal Components)。(1)因子提取方法选择项l子对话框第一项Method:是一组指定提取方法的选择项。单击矩形框右面的箭头可以展开提取方法选择项表,提供七种提取方法可以选择: Principal components 主成份法。该方法假设变量是因子的纯线性组合。 Unweighted least square 不加权最小平方法。该方法使观测的和再生的相关阵之差平方最小。 Generalized
14、least square 用变量的单位加权一体观测的和再生的相关阵之差的平方最小。 Maximum Likelihoud 最大似然法。此方法不要求多元正态分布。给出参数估计,如果样本来自多元正态总体它们与原始变量的相关阵极为相似。 Principal Axis factoring 使用多元相关的平方作为对公因子方差的初始估计。 Alpha 因子提取法 Image 映象因子提取法。是根据变量映象的概念提取公因子的方法。把一个变量看作其它各变量的多元回归。(2)Extract 控制提取进程和提取结果的选择项控制提取进程和提取结果的选择项l理论上因子数目与原始变量数目相等,但因子分析的目的是用少量因
15、子代替多个原始变量,选择提取多少个因子由本组选择项决定。 Eigenvaluse over 该选择项指定提取的因子的特征值。在此项后面的矩形框中给出系统默认值为1即要求提取那些特征值大于1的因子。指定特征值决定提取因子数目的方法是系统默认的方法。 Number of factor 该选择项指定提取公因子的数目。用鼠标单击选择此项后,将指定的数目键人到该选择项后面的矩形框中。 (3 3)Display Display 指定与因子提取有关的输出项指定与因子提取有关的输出项 Unrotated factor solution 要求显示未经旋转的因子提取结果。此项为系统默认的输出项。 Scree pl
16、ot 要求显示按特征值大小排列的因子序号与特征值为两个坐标轴的碎石图。(4)Maximum iterations for Convergencel因子分析收敛的最大迭代次数。系统默认的最大迭代次数为25。lContinue 按钮确认所有选择,返回主对话框;Cancel按钮作废本次所有选择,返回主对话框。l3、Rotation 旋转方法选择子对话框旋转方法选择子对话框lRotation 旋转方法选择子对话框,选择项分三组。(1)Method 旋转方法选择项 None 不进行旋转。此为系统默认的选择项。 Varimax 方差极大法旋转,也叫正交旋转,对因子作旋转。 Quartimax 四次方最大正
17、交旋转,对变量作旋转 Equamax 平均正交旋转( 和 结合) Direct Oblimin 斜交旋转,指定此项可以在下面的矩形框中键入值(该值应该在0 1之间,是因子映象自相关的范围。0值产生最高相关因子。 Promax 斜交旋转,允许因子间相关,速度快,适用于大数据。(2)Display 有关输出显示的选择项 Rotated solution 旋转结果。指定此项将对正交旋转显示旋转后的因子矩阵模式、因子转换矩阵;对斜交旋转显示旋转后的因子矩阵模式、因子结构矩阵和因子间的相关阵。 Loading plot(s) 因子载荷散点图。指定此项将给出以两两因子为坐标轴的各变量的载荷散点图。如果有两
18、个因子,给出各原始变量在factorlfactor2坐标系中的散点图,如果多于两个因子则给出三维因子载荷散点图。(3)Maximum iterations for Convergence:旋转收敛的最大迭代次数。系统默认值为 25。l可以在此项后面的矩形框中键入指定值。l有关因子得分的选择项在Factor Scorce子对话框中。l选择项共分三组:4 4、Factor Scorce Factor Scorce 有关因子得分的选择项有关因子得分的选择项(1)Save as variables 选择此项,将因子得分作为新变量保存在数据文件中。程序运结束后,在数据窗中显示出新变量。对每一次分析产生一
19、组新变量,用最后一个数字字符表示分析的顺序号。每次分析中产生多少个因子,就生成多少个新变量,因子序号占倒数第三个字符的位置。倒数第二个字符为。在输出窗中给出对因子得分的命名解释。(2)Method 指定计算因子得分的方法。可供选择的方法有: Regression 回归法。其因子得分的均值为0,方差等于估计因子得分与实际因子得分之间的多元相关的平方。 Bartlett 巴特利特法。因子得分均值为0,超出变量范围的各因子平方和被最小化。 Anderson-Rubin 安德森一鲁宾法。其因子得分的均值为0,标准差为1。是为了保证因子的正交性而对巴特利特因子得分的调整。 (3)Display fact
20、or score coefficient matrix 选择此项将在输出窗中显示因子得分系数矩阵。是标准化的得分系数,原始变量值进行标准化后,可以根据该矩阵给出的系数计算各观测量的因子得分。5、Options 有关输出的选择项有关输出的选择项l有关输出方式以及对带有缺失值的观测量处理方法的选择项均在Options子对话框中。SPSS结果结果(一)描述统计部分(一)描述统计部分lUnivariate descriptives项的输出结果(二)相关矩阵(二)相关矩阵相关矩阵显著性水平(三)相关系数矩阵的逆矩阵(三)相关系数矩阵的逆矩阵(Inverse of Correlation Matrix)(
21、四)(四)KMO和和BartlettlKMO=.783,可以作因子分析。l拒绝Bartlett球形检验(单位阵),适合作因子分析。l(五)反映像相关矩阵的检验结果l如果某些变量的绝对值较大,不适合因子分析。l(六)因子分析的初始结果l原始解:主成分分析法得到9个特征值l最终解:提取m个特征值(七)因子提取和因子旋转结果(七)因子提取和因子旋转结果初始解 提取(特征值大于1) 旋转 特征值 方差贡献率 累计方差贡献率(八)公共因子碎石图(八)公共因子碎石图 前3个因子,特征值变化明显,4个以后趋于平缓,因子提取3到4个因子可以对原有变量的信息描述有显著作用。特征值 (九)(九)因子负荷矩阵对应因
22、子分析数学模型(十)旋转后因子负荷矩阵(十)旋转后因子负荷矩阵l未旋转:因子变量在许多变量上有较高负荷l因子含义模糊l旋转后:极化l因子含义清楚l(十一)因子转换矩阵,标明了因子提取方法是主成分分析,旋转方法是方差极大法。l(十二)负荷散点图l三个因子的三维因子负荷散点图,以三个因子为坐标,给出个原始变量在该坐标中的负荷散点图。l(十三)因子得分矩阵l根据回归算法计算出来的因子得分函数的系数l(十四)l因子变量的协方差矩阵l说明因子变量是正交,不相关的。后续后续l探索性因子分析l验证性因子分析注:注: 因子分析与因子分析与回归分析回归分析不同,因子分析中的因不同,因子分析中的因子是一个比较抽象
23、的概念,而回归因子有非常明子是一个比较抽象的概念,而回归因子有非常明确的实际意义;确的实际意义; 主成分分析主成分分析与因子分析也有不同,主成分分与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模析仅仅是变量变换,而因子分析需要构造因子模型。型。 主成分分析主成分分析: :原始变量的线性组合表示新的原始变量的线性组合表示新的综合变量,即主成分;综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。量的线性组合表示原始变量。l初用SPSS进行统计分析,可以完全使用系统默认值进行最简单的因子分析。虽然可能得不到非常满意的结果,但通过初步分析可以对所研究的问题有初步的认识,对进一步的研究会有帮助。对比较简单的问题,有时只使用系统默认值进行因子分析就可以得到比较满意结果。练习练习l试用主成分分析提取特征跟大于1的因子,例如本例=3l再用指定提取3个因子,完成因子分析,并比较结果。l用自己已有的数据,完成因子分析,并列出数学模型。