第14章因子分析1统计学原理

资源描述

《第14章因子分析1统计学原理》由会员分享，可在线阅读，更多相关《第14章因子分析1统计学原理（99页珍藏版）》请在金锄头文库上搜索。

1、第14章,因子分析,因子分析,1 因子分析的概念2 数学模型及统计意义3 因子载荷阵的估计方法4 因子得分5 因子旋转*6 计算步骤及实例,因子分析的概念,因子分析的概念起源于Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。1904年Charles Spearman发表了一篇著名论文对智力测验得分进行统计分析被视为因子分析的起点。因子分析最早用来研究心理学和教育方面的问题，但因子分析由于计算量大，在缺少计算机条件下其应用受到了很大限制。随着计算机的大量使用，使得因子分析的计算问题得到了解决大大促进了该方法的发展。因子分析方法应用范围十分广泛，在经济管理科学

2、、社会科学、生物学、医学、地质科学、考古学、教育学乃至体育科学等取得了显著成就。,1 引言,因子分析是主成分分析的推广和发展，它是将具有错综复杂关系的变量（或样品）综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子还可以对变量进行分类，它也是属于多元分析中处理降维的一种统计方法。,1 引言,因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，

3、称为因子。,问题一：某公司对100名招聘人员的知识和能力进行测试，出了50道题的试卷，其内容包括的面较广，但总的来讲可归纳为六个方面：语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等，我们将每一个方面称为因子 .,100人测试的分数可以用上述六个因子表示成线性函数：,问题二：在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。,消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子，对商店进行综合评价。

4、而这三个公共因子可以表示为：,问题三，服装剪裁问题,对于裁缝来说，服装裁剪需要根据许多指标来进行决定，虽然有许多指标如领长、袖长、等一些列指标，但最后关键指标是衣服的长度和衣服的宽度两个核心指标或者因子。其他指标都是相关指标。,因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究，找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系，但在这里，这少数几个随机变量是不可观测的，通常称为因子。然后根据相关性的大小把变量分组，使得同组内的变量之间相关性较高，但不同组的变量相关性较低 .,注：因子分析与回归分析不同，因子分析中的因子是一个比较抽象的概念，而回归因子有非常明确的实际意义

5、；主成分分析分析与因子分析也有不同，主成分分析仅仅是变量变换，而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量，即主成分；因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量。,2 数学模型及统计意义,1）因子分析模型(正交因子模型),（1）R型因子分析模型 (变量因子模型),用矩阵表示：,简记为,且满足:,其中X是可实测的p个指标所构成p维随机向量，F是不可观测的向量，F称为X的公共因子或潜因子；aij称为因子载荷是第i个变量在第j个公共因子上的负荷，如果把变量Xi看成m维因子空间中的一个向量，则表示Xi在坐标轴Fj上的投影，矩阵A称为因子载荷矩阵；称

6、为X的特殊因子，通常理论上要求的协方差阵是对角阵，其中包括了随机误差.,此时X1, X2, , Xn表示n个样品.,（2）Q型因子分析模型(样品因子模型),因子分析的目的就是通过模型代替X，由于，从而达到简化变量维数的愿望。,2 ）因子载荷和变量共同度及其统计意义,(1) 因子载荷的统计意义,于是:,已知模型：,两端后乘Fj得：,所以上式可写成：,由于在标准化下有：,因此,因子载荷 ai j的统计意义：第i个变量与第j个公共因子的相关系数，即表示Xi依赖Fj的份量（比重）.,(2) 变量共同度的统计意义,所谓变量Xi的共同度定义为因子载荷阵A中第i行元素的平方和，即,共同度 hi2:它刻划

7、全部公共因子对变量Xi的总方差所作的贡献，越接近1，说明由原始变量空间转为因子空间转化的性质越好，保留原来信息量多；其值越小，说明公共因子对Xi影响很小，主要由特殊因子来描述，因此是Xi方差的重要组成部分。,所以,i2 :是特定变量所产生的方差，称为特殊因子方差, 仅与变量Xi本身的变化有关，它是使Xi的方差为1的补充值。,3) 公共因子Fj的方差贡献的统计意义,将因子载荷矩阵中各列元素的平方和记为,称qj为公共因子Fj对变量组X的贡献，即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之总和，它是衡量公共因子相对重要性指标。,3 因子载荷阵的估计方法,设随机向量X的协差阵为 ,i为的特征

8、根，ei为对应的标准正交化特征向量(只要特征根不等，对应的单位特征向量一定是正交的)，则根据线性代数知识可分解为,1）忽略特殊因子,上边给出的表达式是精确的，但实际应用时总是希望公共因子个数小于变量的个数即mp，当最后p-m个特征根较小时，通常是略去最后p-m项对的贡献，于是得到,上式是假定了因子模型中的特殊因子是不重要的，因而从的分解中忽略掉特殊因子的方差.,2）考虑特殊因子,当未知，可用样本协差阵S去代替，要经过标准化处理，则S与相关阵R相同，仍然可作上面类似的表示。,一般设为样本相关阵R的特征根，相应的标准正交化特征向量为，设 mp，则因子载荷阵的估计即,4 因子得分,因子分析的

9、数学模型是将变量(或样品)表示为公共因子的线性组合：,往往需要反过来将公共因子表示为变量（或样品）的线性组合，即,称上式为因子得分的函数。用它来计算每个样品的公共因子得分。,由于因子得分函数中方程的个数m小于变量的个数p，因此不能精确计算出因子得分，只能对因子得分进行估计。这里用回归法进行估计。,Thomson假设公共因子可以对p个变量作回归，Fj(j=1,m)对变量X1,Xp的回归方程为,由于假设变量及公共因子都已经标准化了，所以,由因子载荷的意义知：,即,其中,因此,记,则,于是,其中,这就是估计因子得分的计算公式。,建立了因子分析模型的目的不仅仅要找出公共因子以及对变量进行分组，更重要的

10、要知道每个公共因子的意义，以便进行进一步的分析，如果每个公共因子的含义不清，则不便于进行实际背景的解释. 由于因子载荷阵是不惟一的，所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法。四次方最大法、方差最大法和等量最大法。,5 因子旋转,5 因子旋转,原因子模型,令,新因子模型,变成,因子载荷阵不是唯一的。证明如下,设C为一个pp的正交矩阵,仍满足,正是由于因子载荷阵不是唯一的，可寻找合适的正交矩阵，使得因子载荷阵具有特殊的结构。,因子载荷旋转：用一个正交阵右乘A，使旋转后的因子载荷阵结构简化，便于对公共因子进行解

11、释。有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。本节只介绍常用的方差最大正交旋转法。,对A按行计算共同度,5 因子旋转,首先考虑m=2的情形。,设因子载荷阵,然后对规格化后的矩阵，为书写方便仍记为A，施行方差最大正交旋转。,设正交阵,记,这样做的目的是使因子载荷阵A的结构简化，为此，正交旋转的角度必须满足：旋转后所得到因子载荷阵的总方差V达到最大值，即,达到最大值。,根据求极值原理，先求V对的导数,令,经过计算，其旋转角度可按下面公式求得：,记,则,根据tg(4)的分式的分子和分母取值的正负号来确定角的取值范围如下表：,如果公共因子有m个，则需逐次对每两个公共因子进行上述旋

12、转，必须满足使旋转后所得到的因子载荷阵的总方差达到最大值，即,其中Tkj 为如下的正交阵：,A经过Tkj旋转(变换)后，矩阵 B = ATk j ，其元素为,其中旋转角度仍按下面公式求得,m个因子，每次取两个全部配对进行旋转，共需旋转Cm2次，算做一个循环完毕，如果循环完毕得出的因子载荷阵还没有达到目的，则可以继续进行第二轮次配对旋转，具体地说如果第一轮旋转完毕的因子载荷阵记为B(1),从B(1)算出V(1) 。,从B(1)出发进行第二轮旋转循环，旋转完毕得B(2),如此不断重复旋转循环可得V值的一个非降序列：,从B(2)算出V(2) 。,因为因子载荷的绝对值不大于1，故这个序列是有上界的，

13、于是有极限记为，即为V的最大值。因此只要循环次数k充分大，就有,为所要求的精度。在实际应用中，经过若干次旋转之后，若相对方差改变不大，则停止旋转，最后得,即为旋转后的因子载荷矩阵。,6 计算步骤及实例,计算步骤,设原始数据资料如下表：,第一步将原始数据标准化，为书写方便仍记为xij。,第二步建立变量的相关系数阵,若作Q型因子分析，则建立样品的相似系数阵Q=(Qij)nn。其中,其中,第三步求R的特征根及相应的单位特征向量，分别记为和，记,根据累计贡献率的要求比如，取前m个特征根及相应的特征向量写出因子载荷阵：,第四步对A进行方差最大正交旋转。,第五步计算因子得分。,例题,对全

14、国30个省市自治区的经济发展八项指标作因子分析。,第二步建立指标间的相关系数阵R。,首先对原始数据标准化，以消除量纲的影响；,第三步求R的特征值和特征向量。,由于前三个特征值的累计贡献率已达89.564%。所以取前三个特征值所对应的特征向量如下：,第四步建立因子载荷阵。,第五步对因子载荷阵实行方差最大旋转，旋转后的矩阵如下：,正交因子表,从上表可见，每个因子只有少数几个指标的因子载荷较大，因此可根据上表进行分类，将8个指标按高载荷分成三类，列于下表：,第一个因子在指标X1、X2、X有较大的载荷，这些是从GDP、固定资产投资、工业总产值三个方面反映经济发展状况的，因此命名为总量因子。,第

15、二个因子在指标X2、X4、X5有较大的载荷，这些是从居民消费水平，职工平均工资、货物周转量这三方面反映经济发展状况的，因此命名为消费因子。,第三个因子在指标X6、X7有较大的载荷，因此命名为价格因子。,例2 利用1995年的数据对我国社会发展状况进行综合考察。原始数据如下：,资料来源：中国统计年鉴。,第一步将数据标准化。,第二步建立指标间相关系数阵R如下：,第三步求R的特征值和累计贡献率。,第四步建立因子载荷阵。,由于前三个特征值的累计贡献率已达93.46%，故取前三个特征值建立因子载荷阵如下：,第五步将因子载荷阵实行方差最大正交旋转，得正交因子表如下：,第六步将六个指标按高载荷分成三类，并结合专业知识对各因子给此命名如下,SPSS操作,（一）操作步骤1. 在SPSS窗口中选择AnalyzeData ReductionFactor，调出因子分析主界面图(7.1)，并将变量X1X13移入Variables框中。,图7.1 因子分析主界面,SPSS操作,2. 点击Descriptives按钮，展开相应对话框，见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮，返回主界面。,图7.2 Descriptives子对话框,

展开阅读全文

第14章因子分析1统计学原理

最新文档