数建模因子分析

上传人:人*** 文档编号:569374430 上传时间:2024-07-29 格式:PPT 页数:68 大小:898.52KB
返回 下载 相关 举报
数建模因子分析_第1页
第1页 / 共68页
数建模因子分析_第2页
第2页 / 共68页
数建模因子分析_第3页
第3页 / 共68页
数建模因子分析_第4页
第4页 / 共68页
数建模因子分析_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《数建模因子分析》由会员分享,可在线阅读,更多相关《数建模因子分析(68页珍藏版)》请在金锄头文库上搜索。

1、第十四讲第十四讲 因子分析因子分析n第一部分第一部分 主成分分析主成分分析n第二部分第二部分 因子分析因子分析第一部分第一部分 主成分分析主成分分析1、 主成分分析的基本原理主成分分析的基本原理2、 主成分分析的数学模型主成分分析的数学模型3、 主成分分析的步骤主成分分析的步骤主成分分析的基本原理主成分分析的基本原理 主成分的概念由主成分的概念由Karl Pearson在在1901年提出的。年提出的。他是考察多个变量间相关性一种多元统计方法他是考察多个变量间相关性一种多元统计方法 研研究究如如何何通通过过少少数数几几个个主主成成分分(principal component)来来解解释释多多个个

2、变变量量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能多多地地保留原始变量的信息,且彼此间互不相关。保留原始变量的信息,且彼此间互不相关。 主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l常常被被用用来来寻寻找找判判断断事事物物或或现现象象的的综综合合指指标标,并并对对综综合合指指标所包含的信息进行适当的解释标所包含的信息进行适当的解释什么是主成分分析?什么是主成分分析?(principal component analysis)n对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在

3、在统统计计上上信信息息往往往往是是指数据的变异指数据的变异)进行浓缩处理进行浓缩处理n假假定定只只有有两两个个变变量量x1和和x2,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想主成分分析的基本思想 ( (以两个变量为例以两个变量为例) )n如如果果把把两两个个变变量量用用一一个个变变量量来来表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程主成分分析的数学模型主成分分析的数学模型n数数学学上上的

4、的处处理理是是将将原原始始的的p个个变变量量作作线线性性组组合合,作作为为新新的的变量变量n设设p个原始变量为个原始变量为 ,新的变量,新的变量(即主成分即主成分)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型aij为为第第i个个主主成成分分yi和和原原来来的的第第j个个变变量量xj之之间间的的线线性性相相关关系系数数,称称为为载载荷荷 (loading)。 比比 如如 ,a11表表示示第第1主主成成分分和和原原来来的的第第1个个变变量量之之间间的的相相关关系系数数,a21表表示示第第2主主成成分分和和原原

5、来来的的第第1个个变变量量之间的相关系数之间的相关系数pxxx,21pyyy,.21n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,主主成成分分所所代代表表的的原原始始变变量量的的信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yi)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原来来的的个个变变量量,在在考虑选

6、择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择主成分的选择n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部部方方差差的的80%以以上上就就可可以以了了。当当然然,这这只只是是一一个个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本

7、身身就就不不怎怎么么相相关关,降降维维的的效效果果自自然就不好然就不好n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选择主成分的选择主成分分析的步骤主成分分析的步骤n对对原原来来的的p个个指指标标进进行行标标准准化化,以以消消除除变变量量在水平和量纲上的影响在水平和量纲上的影响n根根据据标标准准化化后后的的数数据据矩矩阵阵求求出出相相关关系系数数矩矩阵阵n求出协方差矩阵的特征根和特征向量求出协方差矩阵的特征根和特征向量n确确定定主主成成分分,并并对对各各主主成成分分所所包包含含的的信信息息给予适当的解释给予适当的解释主成分分析的步骤主成分分析的步骤【例例】根根据据我

8、我国国31个个省省市市自自治治区区2006年年的的6项项主主要要经经济济指指标标数数据据,进进行行主主成成分分分分析析,找找出出主主成成分分并进行适当的解释并进行适当的解释主成分分析主成分分析 ( (实例分析实例分析) )用用SPSSSPSS进行主成分分析进行主成分分析第第1步步 选择【选择【Analyze】下拉菜单,并选择【】下拉菜单,并选择【Data Reduction-Factor】,进入主对话框】,进入主对话框第第2步步 在主对话框中将所有原始变量选入【在主对话框中将所有原始变量选入【Variables】第第3步步 点击【点击【Descriptives】,在【】,在【correlati

9、on Matrix】下选择【】下选择【Coefficirnts】,点击【】,点击【Continue】回到主对话框回到主对话框第第4步步 点击【点击【Extraction】,在【】,在【Display】下选择【】下选择【Scree Plot】,点击【】,点击【Continue】回到主对话框】回到主对话框第第5步步 点击【点击【Rotation】,在【】,在【Display】下选择【】下选择【Loading Plot】,点击【】,点击【Continue】回到主对话框】回到主对话框 点击【点击【OK】单变量描述统计分析。单变量描述统计分析。输出单变量的基本统输出单变量的基本统计量,包括每个变量计量,

10、包括每个变量的均值、标准差及其的均值、标准差及其有效例数有效例数初始解。默认选项。初始解。默认选项。输出因子分析的初始输出因子分析的初始解,显示初始公共因解,显示初始公共因子方差、特征值及其子方差、特征值及其解释变量的百分比。解释变量的百分比。1、相关系数矩阵;、相关系数矩阵;2、显著性水平;、显著性水平;3、相关系数矩阵的行、相关系数矩阵的行列值;列值;4、相关系数矩阵的逆、相关系数矩阵的逆矩阵;矩阵;5、再生相关系数矩阵。、再生相关系数矩阵。输出因子分析的估计量输出因子分析的估计量相关系数矩阵,并显示相关系数矩阵,并显示参差值,即原始相关系参差值,即原始相关系数矩阵与再生相关系数数矩阵与再

11、生相关系数矩阵之间的差值;矩阵之间的差值;6、反映射相关系数矩、反映射相关系数矩阵。包括负片相关系数阵。包括负片相关系数矩阵。反映射相关系数矩阵。反映射相关系数矩阵的对角线可以显示矩阵的对角线可以显示变量的抽样适度测试值变量的抽样适度测试值KMO和球形和球形Bartlett检验。检验。分析矩阵选项:分析矩阵选项:1、相关系数、相关系数矩阵。用于指矩阵。用于指定利用分析变定利用分析变量相关矩阵为量相关矩阵为提取因子的依提取因子的依据,当参与分据,当参与分析的变量测度析的变量测度单位不同时,单位不同时,选择该选项选择该选项分析矩阵选项:分析矩阵选项:2、协方差矩、协方差矩阵。指定利用阵。指定利用分

12、析变量的协分析变量的协方差矩阵为提方差矩阵为提取因子的依据。取因子的依据。选择和因子提选择和因子提取方法有关的取方法有关的输出选项:输出选项:1、非旋转因、非旋转因子解。要求显子解。要求显示未经旋转的示未经旋转的因子载荷、公因子载荷、公共因子方差和共因子方差和特征值;特征值;选择和因子提选择和因子提取方法有关的取方法有关的输出选项:输出选项:2、碎石图。每、碎石图。每个因子的方差个因子的方差图,该图利用图,该图利用特征值为两个特征值为两个坐标轴。碎石坐标轴。碎石图可以决定保图可以决定保留因子的数量留因子的数量提取因子的准提取因子的准则:则:1、特征值:该、特征值:该选项指定因子选项指定因子的特

13、征值;的特征值;2、指定提取公、指定提取公因子的数目。因子的数目。收敛的最大迭代次数收敛的最大迭代次数因子旋转方式:因子旋转方式:1、不进行旋转;、不进行旋转;2、方差最大正交旋转、方差最大正交旋转法;法;3、直接斜交旋转方法;、直接斜交旋转方法;4、四分位最大正交旋、四分位最大正交旋转法;转法;5、等量正交旋转法;、等量正交旋转法;6、斜交旋转法、斜交旋转法输出与因子旋转相关输出与因子旋转相关的信息:的信息:1、旋转解;、旋转解;2、因子载荷散点图。、因子载荷散点图。SPSSSPSS的输出结果的输出结果各变量之间的相关系数矩阵各变量之间的相关系数矩阵变量之间的存在较强的相关关系,适合作主成分

14、分析变量之间的存在较强的相关关系,适合作主成分分析 SPSSSPSS的输出结果的输出结果( (选择主成分选择主成分) )表表3 各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差该表是选则主成分的主要依据该表是选则主成分的主要依据n“Initial Eigenvalues”(初始特征根初始特征根) l实际上就是本例中的实际上就是本例中的6个主轴的长度个主轴的长度l特特征征根根反反映映了了主主成成分分对对原原始始变变量量的的影影响响程程度度,表表示示引引入入该主成分后可以解释原始变量的信息该主成分后可以解释原始变量的信息l特特征征根根又又叫叫方方差差,某某个个特特征征根根占占总总特特征

15、征根根的的比比例例称称为为主主成分方差贡献率成分方差贡献率l设特征根为设特征根为 ,则第,则第i个主成分的方差贡献率为个主成分的方差贡献率为l比比如如,第第一一个个主主成成分分的的特特征征根根为为3.963,占占总总特特征征根根的的的的比比例例(方方差差贡贡献献率率)为为66.052%,这这表表示示第第一一个个主主成成分分解解释释了了原原始始6个个变变量量66.052%的的信信息息,可可见见第第一一个个主主成成分分对对原原来的来的6个变量解释的已经很充分了个变量解释的已经很充分了根据什么选择主成分?根据什么选择主成分?=piii1lln根据主成分贡献率根据主成分贡献率l一一般般来来说说,主主成

16、成分分的的累累计计方方差差贡贡献献率率达达到到80%以以上上的的前前几个主成分,都可以选作最后的主成分几个主成分,都可以选作最后的主成分l比如表比如表3中前两个主成分的累计方差贡献率为中前两个主成分的累计方差贡献率为95.57%n根据特特征根的大小根据特特征根的大小l一一般般情情况况下下,当当特特征征根根小小于于1时时,就就不不再再选选作作主主成成分分了了,因因为为该该主主成成分分的的解解释释力力度度还还不不如如直直接接用用原原始始变变量量解解的的释释力度大力度大l比比如如表表3中中除除前前两两个个外外,其其他他主主成成分分的的特特征征根根都都小小于于1。所以所以SPSS只选择了两个主成分只选

17、择了两个主成分l就就本本例例而而言言,两两个个主主成成分分就就足足以以说说明明各各地地区区的的经经济济发发展展状况了状况了根据什么选择主成分?根据什么选择主成分?nSPSS还还提提供供了了一一个个更更为为直直观观的的图图形形工工具具来来帮帮助助选选择择主主成成分分,即即碎碎石石图图(Scree Plot)n从从碎碎石石图图可可以以看看到到6个个主轴长度变化的趋势主轴长度变化的趋势n实实践践中中,通通常常结结合合具具体体情情况况,选选择择碎碎石石图图中中变变化化趋趋势势出出现现拐拐点点的的前前几几个个主主成成分分作作为为原原先先变变量量的的代代表表,该该例例中中选选择择前前两个主成分即可两个主成

18、分即可根据什么选择主成分?根据什么选择主成分? ( (Scree PlotScree Plot) )拐点怎样解释主成分?怎样解释主成分?主成分的因子载荷矩阵主成分的因子载荷矩阵 l表表1中中的的每每一一列列表表示示一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数,也也就就是是主成分分析模型中的系数主成分分析模型中的系数aijl比比如如,第第一一主主成成分分所所在在列列的的系系数数0.670表表示示第第1个个主主成成分分和和原原来来的的第第一一个个变变量量(人人均均GDP)之之间间的的线线性性相相关关系系数数。这这个个系系数数越越大大,说说明明主主成成分分对对该该变量的代

19、表性就越大变量的代表性就越大n根根据据主主成成分分分分析析模模型型和和因因子子载载荷荷,可可以以得得到到两两个个主主成成分分与与原原来来6个个变变量量之之间间的的线线性性组组合合表达式如下表达式如下 怎样解释主成分?怎样解释主成分?( (主成分与原始变量的关系主成分与原始变量的关系) )注意:表达式中的不是原始变量,而是标准化变量n载载荷荷图图(Loading Plot)直直观观显显示示主成分对原始主成分对原始6变量的解释情况变量的解释情况n图图中中横横轴轴表表示示第第一一个个主主成成分分与与原原始始变变量量间间的的相相关关系系数数;纵纵轴轴表表示示第第二二个个主主成成分分与与原原始始变变量量

20、之之间间的的相关系数相关系数n每每一一个个变变量量对对应应的的主主成成分分载载荷荷就就对对应应坐坐标标系系中中的的一一个个点点,比比如如,人人 均均 GDP变变 量量 对对 应应 的的 点点 是是(0.670,0.725)n第第一一个个主主成成分分很很充充分分地地解解释释了了原原始始的的6个个变变量量(与与每每个个原原始始变变量量都都有有较较强强的的正正相相关关关关系系),第第二二个个主主成成分分则则较较好好地地解解释释了了居居民民消消费费水水平平、人人均均GDP和和年年末末总总人人口口这这3个个变变量量(与与它它们们的的相相关关关关系系较较高高),而而与与其其他他变变量量的的关关系系则则较较

21、弱弱(相关系数的点靠近坐标轴相关系数的点靠近坐标轴)怎样解释主成分?怎样解释主成分? ( (Loading PlotLoading Plot) )相关系数的点越远离坐标轴,主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标第二部分第二部分 因子分析因子分析因子分析的意义和数学模型因子分析的意义和数学模型因子分析的步骤因子分析的步骤因子分析的应用因子分析的应用因子分析的意义和数学模型因子分析的意义和数学模型n由由Charles Spearman于于1904年首次提出的年首次提出的n与与主主成成分分分分析析类类似似,它它们们都都是是要要找找出出少少数数几几个个新新的的变量来代替原始变量变量

22、来代替原始变量n不不同同之之处处:主主成成分分分分析析中中的的主主成成分分个个数数与与原原始始变变量量个个数数是是一一样样的的,即即有有几几个个变变量量就就有有几几个个主主成成分分,只只不不过过最最后后我我们们确确定定了了少少数数几几个个主主成成分分而而已已。而而因因子子分分析析则则需需要要事事先先确确定定要要找找几几个个成成分分,也也称称为为因因子子(factor),然然后后将将原原始始变变量量综综合合为为少少数数的的几几个个因因子子,以以再再现现原原始始变变量量与与因因子子之之间间的的关关系系,一一般般来来说说,因因子的个数会远远少于原始变量的个数子的个数会远远少于原始变量的个数什么是因子

23、分析?什么是因子分析? (factor analysis)(factor analysis)n因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,但但它它对对问问题题的的研研究究更更深深入入、更更细细致致一一些些。实实际际上上,主主成分分析可以看作是因子分析的一个特例成分分析可以看作是因子分析的一个特例n简简言言之之,因因子子分分析析是是通通过过对对变变量量之之间间关关系系的的研研究究,找找出出能能综综合合原原始始变变量量的的少少数数几几个个因因子子,使使得得少少数数因因子子能能够够反反映映原原始始变变量量的的绝绝大大部部分分信信息息,然然后后根根据据相相关关性性

24、的的大大小小将将原原始始变变量量分分组组,使使得得组组内内的的变变量量之之间间相相关关性性较较高高,而而不不同同组组的的变变量量之之间间相相关关性性较较低低。因因此此,因因子子分分析析属属于于多多元元统统计计中中处处理理降降维维的的一一种种统统计计方方法法,其其目目的的就就是是要要减减少少变变量量的的个个数数,用用少少数数因因子子代表多个原始变量代表多个原始变量什么是因子分析?什么是因子分析? (factor analysis)(factor analysis)n因因变变量量和和因因子子个个数数的的不不一一致致,使使得得不不仅仅在在数数学学模模型型上上,而而且且在在实实际际求求解解过过程程中中

25、,因因子子分分析析和和主主成成分分分分析析都都有有着着一一定定的的区区别别,计计算算上上因因子子分分析析更更为为复杂复杂n因因子子分分析析可可能能存存在在的的一一个个优优点点是是:在在对对主主成成分分和和原原始始变变量量之之间间的的关关系系进进行行描描述述时时,如如果果主主成成分分的的直直观观意意义义比比较较模模糊糊不不易易解解释释,主主成成分分分分析析没没有有更更好好的的改改进进方方法法;因因子子分分析析则则额额外外提提供供了了“因因子子旋旋转转(factor rotation)”这这样样一一个个步步骤骤,可可以以使使分分析析结果尽可能达到易于解释且更为合理的目的结果尽可能达到易于解释且更为

26、合理的目的因子分析的数学模型因子分析的数学模型n原始的原始的p个变量表达为个变量表达为k个因子的线性组合变量个因子的线性组合变量n设设p个个原原始始变变量量为为 ,要要寻寻找找的的k个个因因子子(kp)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为因子分析的数学模型因子分析的数学模型因子分析的数学模型系数aij为第个i变量与第k个因子之间的线性相关系数,反映变量与因子之间的相关 程 度 , 也 称 为 载 荷(loading)。由于因子出现在每个原始变量与因子的线性组合中,因此也称为公因子。为特殊因子,代表公因子以外的因素影响kfff,21pxxx,21n共同度量共

27、同度量(Communality)n因子的方差贡献率因子的方差贡献率 因子分析的数学模型因子分析的数学模型( (共同度量共同度量CommunalityCommunality和公因子的方差贡献率和公因子的方差贡献率 ) )变量xi的信息能够被k个公因子解释的程度,用 k个公因子对第i个变量xi的方差贡献率表示第j个公因子对变量xi的提供的方差总和,反映第j个公因子的相对重要程度因子分析的步骤因子分析的步骤n因子分析要求样本的个数要足够多因子分析要求样本的个数要足够多l一一般般要要求求样样本本的的个个数数至至少少是是变变量量的的5倍倍以以上上。同同时时,样样本本总数据量理论要求应该在总数据量理论要求

28、应该在100以上以上n用于因子分析的变量必须是相关的用于因子分析的变量必须是相关的l如如果果原原始始变变量量都都是是独独立立的的,意意味味着着每每个个变变量量的的作作用用都都是是不不可替代的,则无法降维可替代的,则无法降维n检验方法检验方法l计计算算各各变变量量之之间间的的相相关关矩矩阵阵,观观察察各各相相关关系系数数。若若相相关关矩矩阵中的大部分相关系数小于阵中的大部分相关系数小于0.3,则不适合作因子分析,则不适合作因子分析l使使用用Kaiser-Meyer-Olkin检检验验(简简称称KMO检检验验)和和 Bartlett球球度度检检验验(Bartletts test of spheri

29、city)来来判判断断(SPSS将将两两种检验统称为种检验统称为“KMO and Bartletts test of sphericity”)因子分析的步骤因子分析的步骤( (数据检验数据检验) )nBartlett球度检验球度检验l以以变变量量的的相相关关系系数数矩矩阵阵为为基基础础,假假设设相相关关系系数数矩矩阵阵是是单单位位阵阵(对对角角线线元元素素不不为为0,非非对对角角线线元元素素均均为为0)。如如果果相相关关矩矩阵是单位阵,则各变量是独立的,无法进行因子分析阵是单位阵,则各变量是独立的,无法进行因子分析nKMO检验检验l用用于于检检验验变变量量间间的的偏偏相相关关性性,KMO统统计

30、计量量的的取取值值在在01之间之间l如如果果统统计计量量取取值值越越接接近近1,变变量量间间的的偏偏相相关关性性越越强强,因因子子分析的效果就越好分析的效果就越好lKMO统统计计量量在在0.7以以上上时时,因因子子分分析析效效果果较较好好;KMO统统计量在计量在0.5以下时,因子分析效果很差以下时,因子分析效果很差因子分析的步骤因子分析的步骤( (数据检验数据检验) )n nPrincipal Principal componentscomponents( (主主主主成成成成分分分分法法法法) ):多多多多数数数数情情情情况况况况下下下下可可可可以以以以使使使使用用用用该该该该方方方方法法法法

31、( (这这这这也也也也是是是是SPSSSPSS的的的的默默默默认认认认选选选选项项项项) )。通通通通过过过过主主主主成成成成分分分分分分分分析析析析的的的的思思思思想想想想提提提提取取取取公因子,它假设变量是因子的线性组合公因子,它假设变量是因子的线性组合公因子,它假设变量是因子的线性组合公因子,它假设变量是因子的线性组合n nUnweightUnweight Least Least SquareSquare( (不不不不加加加加权权权权最最最最小小小小平平平平方方方方法法法法) ):该该该该方方方方法法法法使使使使实实实实际际际际的相关矩阵和再生的相关矩阵之差的平方和达到最小的相关矩阵和再

32、生的相关矩阵之差的平方和达到最小的相关矩阵和再生的相关矩阵之差的平方和达到最小的相关矩阵和再生的相关矩阵之差的平方和达到最小n nGeneralized Generalized Least Least SquareSquare( (加加加加权权权权最最最最小小小小平平平平方方方方法法法法) ):用用用用变变变变量量量量值值值值进进进进行行行行加加加加权权权权,该该该该方方方方法法法法也也也也是是是是使使使使实实实实际际际际的的的的相相相相关关关关矩矩矩矩阵阵阵阵和和和和再再再再生生生生的的的的相相相相关关关关矩矩矩矩阵阵阵阵之之之之差差差差的的的的平方和达到最小平方和达到最小平方和达到最小平方

33、和达到最小n nMaximum Maximum LikelihoodLikelihood( (最最最最大大大大似似似似然然然然法法法法) ):该该该该方方方方法法法法不不不不要要要要求求求求数数数数据据据据服服服服从从从从正态分布,在样本量较大时使用较好正态分布,在样本量较大时使用较好正态分布,在样本量较大时使用较好正态分布,在样本量较大时使用较好n nPrincipal Principal Axis Axis FactoringFactoring( (主主主主轴轴轴轴因因因因子子子子法法法法) ):该该该该方方方方法法法法从从从从原原原原始始始始变变变变量量量量的相关性出发,使得变量间的相关

34、程度尽可能地被公因子解释的相关性出发,使得变量间的相关程度尽可能地被公因子解释的相关性出发,使得变量间的相关程度尽可能地被公因子解释的相关性出发,使得变量间的相关程度尽可能地被公因子解释因子分析的步骤因子分析的步骤( (因子提取因子提取) )n因子数量的确定因子数量的确定l用用公公因因子子方方差差贡贡献献率率提提取取:与与主主成成分分分分析析类类似似,一一般般累累计计方方差差贡贡献献率率达达到到80%以以上上的的前前几几个个因因子子可以作为最后的公因子可以作为最后的公因子l用用特特征征根根提提取取:一一般般要要求求因因子子对对应应的的特特征征根根要要大大于于1,因因为为特特征征根根小小于于1说

35、说明明该该共共因因子子的的解解释释力力度度太弱,还不如使用原始变量的解释力度大太弱,还不如使用原始变量的解释力度大n实实际际应应用用中中,因因子子的的提提取取要要结结合合具具体体问问题题而而定定,在在某某种种程程度度上上,取取决决于于研研究究者者自自身身的的知知识识和和经经验验 因子分析的步骤因子分析的步骤( (因子提取因子提取) )n因子命名是因子分析重要一步因子命名是因子分析重要一步l一一个个因因子子包包含含了了多多个个原原始始变变量量的的信信息息,它它究究竟反映了原始变量的哪些共同信息?竟反映了原始变量的哪些共同信息?l因因子子分分析析得得到到的的因因子子的的含含义义是是模模糊糊的的,需

36、需要要重新命名,以便对研究的问题作出合理解释重新命名,以便对研究的问题作出合理解释l可可通通过过考考察察观观察察因因子子载载荷荷矩矩阵阵并并结结合合实实际际问问题完成题完成l命命名名已已经经不不是是统统计计问问题题。它它需需要要研研究究者者自自身身的的专专业业素素质质和和对对实实际际问问题题背背景景的的了了解解程程度度,这需要更多的实践经验这需要更多的实践经验因子分析的步骤因子分析的步骤( (因子命名因子命名) )n观察因子载荷矩阵观察因子载荷矩阵l如如果果因因子子载载荷荷aij的的绝绝对对值值在在第第i行行的的多多个个列列上上都都有有较较大大的的取取值值(通通常常大大于于0.5),表表明明原

37、原始始变变量量与与多多个个因因子子都都有有较较大大的的相相关关关关系系,意意味味着着原原始始变变量量xi需需要要由由多多个个因子来共同解释因子来共同解释l如如果果因因子子载载荷荷aij的的绝绝对对值值在在第第j列列的的多多个个行行上上都都有有较较大大的的取取值值,则则表表因因子子fi能能共共同同解解释释许许多多变变量量的的信信息息,而而对对每每个个原原始始变变量量只只能能解解释释其其中中的的少少部部分分信信息息,表表明明因因子子不不能能有有效效代代表表任任何何一一个个原原始始变变量量,因因子子的的含含义义模模糊不清,难以对因子给出一个合理的解释糊不清,难以对因子给出一个合理的解释l需要进行因子

38、旋转,以便得到更加合理的解释需要进行因子旋转,以便得到更加合理的解释因子分析的步骤因子分析的步骤( (因子命名因子命名) )n因因子子旋旋转转(factor rotation)的的目目的的是是使使因因子子的的含含义更加清楚,以便于对因子的命名和解释义更加清楚,以便于对因子的命名和解释n旋转的方法有正交旋转和斜交旋转两种旋转的方法有正交旋转和斜交旋转两种l正正交交旋旋转转是是指指坐坐标标轴轴始始终终保保持持垂垂直直90度度旋旋转转,这这样样新生成的因子仍可保持不相关新生成的因子仍可保持不相关l斜斜交交旋旋转转坐坐标标轴轴的的夹夹角角可可以以是是任任意意的的,因因此此新新生生成成的的因因子子不不能

39、能保保证证不不相相关关。因因此此实实际际应应用用中中更更多多地地使使用用正正交旋转交旋转lSPSS提提供供5种种旋旋转转方方法法,其其中中最最常常用用的的是是Varimax(方差最大正交旋转方差最大正交旋转)法法因子分析的步骤(因子命名旋转)nVarimax(方方差差最最大大正正交交旋旋转转):最最常常用用的的旋旋转转方方法法。使使各各因因子子保保持持正正交交状状态态,但但尽尽量量使使各各因因子子的的方方差差达达到到最最大大,即相对的载荷平方和达到最大,从而方便对因子的解释即相对的载荷平方和达到最大,从而方便对因子的解释nQuartimax(四四次次方方最最大大正正交交旋旋转转):该该方方法法

40、倾倾向向于于减减少少和和每个变量有关的因子数,从而简化对原变量的解释每个变量有关的因子数,从而简化对原变量的解释nEquamax(平平方方最最大大正正交交旋旋转转):该该方方法法介介于于方方差差最最大大正正交旋转和四次方最大正交旋转之间交旋转和四次方最大正交旋转之间nDirect Oblimin(斜斜交交旋旋转转):该该方方法法需需要要事事先先指指定定一一个个因因子映像的自相关范围子映像的自相关范围nPromax:该该方方法法在在方方差差最最大大正正交交旋旋转转的的基基础础上上进进行行斜斜交交旋转旋转因子分析的步骤因子分析的步骤( (因子命名因子命名旋转旋转) )n因因子子得得分分(facto

41、r score)是是每每个个因因子子在在每每个个样样本本上上的的具具体体取取值值,它它由由下下列列因因子子得得分分函函数数给给出出因子分析的步骤因子分析的步骤( (计算因子得分计算因子得分) )因子得分函数因子得分是各变量的线性组合 因子分析的应用【例例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序因子分析因子分析 ( (实例分析实例分析) ) 3131个地区个地区个地区个地区6 6项经济指标的因子分析项经济指标的因子分析项经济指标的因子分析项经济指标的因子分析用用SPSS进行因子分析进行因子分析第第1步步 选择【选择【An

42、alyze】【Data Reduction-Factor】主对话框。将所主对话框。将所 有原始变量选入【有原始变量选入【Variables】第第2步步 点击【点击【Descriptives】【correlation Matrix】【KMO and Bartletts test of sphericity】(其他选项根据需要其他选项根据需要) 【Continue】 第第3步步 点击【点击【Extraction】,在【】,在【Method】框中选择因子的提取方法】框中选择因子的提取方法(本例本例 使用隐含的使用隐含的Principal components);在【;在【Extract】中输入选择因

43、子】中输入选择因子 的最小特征根的最小特征根(隐含的是特征根大于隐含的是特征根大于1);在【;在【Display】下选择】下选择 【Scree Plot】 【Continue】第第4步步 点击【点击【Rotation】,在【】,在【Method】框中选择因子旋转方法】框中选择因子旋转方法(隐含的不隐含的不 旋转,本例选择【旋转,本例选择【Varimax】);在【;在【Display】下选择【】下选择【Loading Plot】 【Continue】 第第5步步 点击【点击【Scores】,并选中【】,并选中【Display factor Score coefficient matrix】(SP

44、SS隐含的估计因子得分系数的方法是隐含的估计因子得分系数的方法是Regression) 【Continue】 【OK】 数据的相关性检验数据的相关性检验因子分析因子分析 ( (实例分析实例分析) )KMO检验和检验和Bartlett球度检验球度检验 Bartlett球球度度检检验验统统计计量量为为277.025。检检验验的的P值值接接近近0。表表明明6个个变变量量之之间间有有较较强强的的相相关关关关系系。而而KMO统统计计量量为为0.695,接近,接近0.7。适合作因子分析。适合作因子分析 共同度量共同度量 因子分析因子分析 ( (实例分析实例分析) ) 变量共同度量变量共同度量 所所有有变变

45、量量的的共共同同度度量量都都在在80%以以上上,因因此此,提提取取出出的的公因子对原始变量的解释能力应该是很强的公因子对原始变量的解释能力应该是很强的 因子方差贡献率因子方差贡献率 因子分析因子分析 ( (实例分析实例分析) )各因子所解释的原始变量的方差各因子所解释的原始变量的方差 除除最最后后3列列外外,其其余余部部分分与与主主成成分分分分析析中中的的表表相相同同。 “Rotation Sums of Squared Loadings”部部分分是是因因子子旋旋转转后后对对原原始始变变量量方方差差的的解解释释情情况况。旋旋转转后后的的累累计计方方差差没没有有改改变变,只只是是两两个个因因子子

46、所所解解释释的的原原始始变变量量的的方方差差发发生生了了一些变化。一些变化。 VarimaxVarimax法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵 因子分析因子分析 ( (实例分析实例分析) )旋转后的因子载荷矩阵旋转后的因子载荷矩阵 第第一一个个因因子子与与年年末末总总人人口口、固固定定资资产产投投资资、社社会会消消费费品品零零售售总总额额、财财政政收收入入这这几几个个载载荷荷系系数数较较大大,主主要要解解释释了了这这几几个个变变量量。从从实实际际意意义义上上看看,可可以以把把因因子子1姑姑且且命命名名为为“经经济济水水

47、平平”因因子子。而而第第二二个个因因子子与与人人均均GDP、居居民民消消水水平平这这两两个个变变量量的的载载荷荷系系数数较较大大,主主要要解解释释了了这这两两个个变变量量,从从实实际际意意义义看看,可可以以将将因因子子2姑且命名为姑且命名为“消费水平消费水平”因子因子 (是否合理读者自己评判是否合理读者自己评判)n原始的原始的6个变量与两个因子的关系个变量与两个因子的关系(模型表达模型表达) 因子分析因子分析( (实例分析实例分析) )因子分析的数学模型表 达 式 中 的 xi已经不是原始变量,而是标准化变量 旋转后的因子载荷图旋转后的因子载荷图旋转后的因子载荷图旋转后的因子载荷图 因子分析因

48、子分析 ( (实例分析实例分析) )旋旋 转转 后后 的的 因因子子 载载 荷荷 系系 数数更更 加加 接接 近近 于于1(如如 果果 旋旋 转转后后 的的 因因 子子 载载荷荷 系系 数数 向向 01分分化化越越明明显显,说说 明明 旋旋 转转 的的效效 果果越越 好好 ),从从 而而 使使 因因 子子的的 意意 义义 更更 加加清楚了清楚了 按回归法按回归法按回归法按回归法(Regression)(Regression)估计的因子得分系数矩阵估计的因子得分系数矩阵估计的因子得分系数矩阵估计的因子得分系数矩阵 因子分析因子分析 ( (实例分析实例分析) )因子得分系数矩阵因子得分系数矩阵 根

49、据因子得分系数矩阵可将因子表示为变量的线性组合 n由由因因子子得得分分系系数数矩矩阵阵,可可以以将将公公因因子子表表示示为为各各变变量量的的线性组合。得到的因子得分函数为线性组合。得到的因子得分函数为因子分析因子分析 ( (实例分析实例分析) )上上面面表表达达式式中中的的xi标标准准化化变变量量。根根据据这这一一表表达达式式便便可可以以计计算算每每个个地地区区对对应应的的第第一一个个因因子子和和第第二二个个因因子子的的取取值值,也也称称为为因因子子得得分分(factor score)。有有了了因因子子得得分分,就就可可以以对对每每个个地地区区分分别别按按照照前前面面命命名名的的“经经济济水水

50、平平”因因子子和和“消消费费水水平平”因因子子进进行行评评价价和和排排序序 因子得分函数 综合评价综合评价n计计算算每每个个地地区区的的因因子子得得分分n每每个个地地区区的的因因子子得得分分计计算算方方法法是是:用用每每个个共共因因子子的的方方差差贡贡献献率率做做权权数数,对对每每个个因因子子进进行行加加权权,然然后后加加总总得得到到每每个个地地区区的总因子得分的总因子得分n按按总总得得分分的的多多少少进进行行排排序序,以以反反映映各各地地区区经经济济发展的差异发展的差异因子分析因子分析 ( (实例分析实例分析) )要要由由SPSS得得出出各各样样本本的的不不同同因因子子得得分分,点点击击【S

51、cores】【Save as variables】即即可可。SPSS会会计计算算出出每每个个因因子子的的得得分分,并并保保存存在在工工作作表表的的FAC1_1和和FAC2_1中中因子综合得分 各地区的因子得分及排名各地区的因子得分及排名各地区的因子得分及排名各地区的因子得分及排名 因子分析因子分析 ( (实例分析实例分析) ) 地区两个因子得分的散点图地区两个因子得分的散点图地区两个因子得分的散点图地区两个因子得分的散点图 因子分析因子分析 ( (实例分析实例分析) )因因 子子 1得得 分分 最最 高高的的是是广广东东,最最低低的的西西藏藏,这这说说明明广广东东是是经经济济发发展展水水平平较

52、较高高的的地地区区,西西藏藏是是经经济济发发展展水水平平较较低低的的地地区区;因因 子子 2得得 分分 最最 高高的的是是上上海海,最最低低的的是是贵贵州州,说说明明上上海海是是消消费费水水平平较较高高的的地地区区,而而贵贵州州则则是是消消费费水水平较低的地区平较低的地区 n利用因子分析过程分析各个城市的市政设施建设情况n执行【Analyze】/【Dimension Reduction】/【Factor】命令,弹出如图所示对话框。n结果解读 1、相关系数表变量间相关性很高 2、 KMO检验和Bartlett球形检验结果表 大于0.9,适合因子分析拒绝原假设,认为各变量之间不独立 3、变量共同度

53、表该变量95.4的信息已经被提取 4、主成分表 5、碎石图提取一个主成分即可 6、因子负荷矩阵 7、因子得分系数矩阵n主主成成分分分分析析和和因因子子分分析析都都是是多多元元分分析析中中处处理理降降维维的的两两种种统统计计方方法法。只只有有当当原原始始数数据据中中的的变变量量之之间间具具有有较较强强的的相相关关关关系系时时,降降维维的的效效果才会明显,否则不适合进行主成分分析和因子分析果才会明显,否则不适合进行主成分分析和因子分析n主主成成分分和和因因子子的的选选择择标标准准应应结结合合具具体体问问题题而而定定。在在某某种种程程度度上上取取决于研究者的知识和经验,而不是方法本身决于研究者的知识

54、和经验,而不是方法本身n即即使使得得到到了了满满意意的的主主成成分分或或因因子子,在在运运用用它它们们对对实实际际问问题题进进行行评评价价、排排序序等等分分析析时时,仍仍然然要要保保持持谨谨慎慎,因因为为主主成成分分和和因因子子毕毕竟竟是是高度抽象的量,无论如何,它们的含义都不如原始变量清晰高度抽象的量,无论如何,它们的含义都不如原始变量清晰n因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,而而主主成成分分分分析析则则可可以以看看作作是是因因子子分分析析的的一一个个特特例例。目目前前因因子子分分析析在在实实际际中中被被广广泛泛应应用用,而而主主成成分分分分析析通通常常只只作作为为大大型型统统计计分分析析的的中中间间步步骤骤,几几乎乎不再单独使用不再单独使用几点说明几点说明

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号