主成份分析和因子分析

上传人:第*** 文档编号:51675158 上传时间:2018-08-15 格式:PPT 页数:63 大小:1.38MB
返回 下载 相关 举报
主成份分析和因子分析_第1页
第1页 / 共63页
主成份分析和因子分析_第2页
第2页 / 共63页
主成份分析和因子分析_第3页
第3页 / 共63页
主成份分析和因子分析_第4页
第4页 / 共63页
主成份分析和因子分析_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《主成份分析和因子分析》由会员分享,可在线阅读,更多相关《主成份分析和因子分析(63页珍藏版)》请在金锄头文库上搜索。

1、主成份分析和因子分析实例主成份分析的基本思想 假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1,X2, ,Xp,主成分分析就是要求p个指标的综合指 标F1,F2,Fk(kp), ,而这些新的指标要 充分反映原指标的信息,并且相互独立。这种由 讨论多个指标降为少数几个综合指标的过程在数 学上就叫做降维。各个主成分分析是原始指标的线性组合满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即设X的协方差阵为, 1, 2, p为的特征 根,不妨假设1 2 p ,可以证明: 第一主成份的方差为1,

2、线性组合的系数为1所对应的 特征单位向量。进一步可以证明为各个特征根所对应的标准正交向量所组成的矩阵因子分析的基本思想因子分析也是一种数据简化的方法。它通过研究众多 变量之间的内部依赖关系,探求观测数据中的基本结 构,并用少数几个不可观测变量来多个变量的相关关 系。这几个不可观测变量能够反映原来众多变量的主 要信息,这些不可观测的潜在变量称为因子。基本的因子分析模型:称 为公共因子,是不可观测的变量, 系数称为因子载荷。 是特殊因子,是不能被前m个公 共因子包含的部分。并且满足: 即不相关;即 互不相关,方差为1。 即 互不相关,方差不 一定相等AnalyzeDataReductionFcto

3、r进入因子分析和主成份 分析对话框13例1:利用2007年全国31省市自治区经济发展情况 的八项指标做主成份分析。 Descriptive框:选择描述性统计量。Statistics:Univariate descriptives 输出原始变量的均值、标准 差等单变量的描述统计量。Initial solution 给出因子提取前,分析变量的公因子 方差。对于主成份分析来说,这些值是分析变量的相关 (协方差)矩阵对角线的元素。 Correlation Matrix 相关矩阵栏Coefficients 给出原始分析变量间的相关系数矩阵。Significance levels给出每个相关系数相对于0的

4、单尾 假设检验的显著性水平。Determinant 给出相关系数矩阵的行列式值。Inverse 给出相关系数矩阵的逆矩阵。 Reproduced 再生相关矩阵。此项给出因子分析后的 相关矩阵,还给出残差,即原始相关阵与再生相关阵 的差。 Anti-image 给出反映像相关矩阵 KMO and Bartlett test of sphericity 要求进行KMO 检验和球形Bartlett检验。KMO是用来比较变量间相 关系数的大小。如果KMO接近1,表示适合做因子分 析,如果KMO接近0,表示不适合做因子分析。球形 Bartlett检验是检验相关矩阵是否是单位矩阵,表明数 据是否合适做因子

5、模型。Extraction按钮:用于设置因子提取方法、迭代 收敛条件、公因子数等。Method:选择因子提取方法,共有七种因子提取方 法,默认为主成份法。七种方法分别是:Principal Components:主成份法;Unweighted least squares :未加权最小二乘法Generalized least square:综合最小平方法Maximum likelihood:最大似然估计法Principal axis factoring:主轴因子法Alpha factoring: 因子法Image factoring:映像因子法。Analyze Correlaton Matrix

6、 使用相关矩阵进行因子分析。 如果原始变量的量纲不同选择此项。 Covariance Matrix 使用协方差矩阵进行因子分析。 Extract 因子提取选项。 Eigenvalues over 指定提取的因子的特征根应具有的 范围。 Number of factors 指定提取公因子的数目。Display 指定与因子提取相关的输出项。Unrotated solution 要求显示未经旋转的因子提取 结果。Scree plot 显示碎石图。 Maximum iterations for Convergence 指定因子分析 收敛的最大迭代次数,默认值为25.Rotation 按钮Method

7、选择旋转的方法。None 不进行旋转。Varimax 方差最大旋转。是一种正交旋转。它使 得每个因子具有最高载荷的变量数最小。Direct Oblimin 直接斜交旋转。如果指定此项需 要输入Delta值,越接近于0,斜交程度越深。Quartmax 四次最大正交旋转。 四次方最大法通过使因子载荷矩阵中每一行的因子载四次方最大法通过使因子载荷矩阵中每一行的因子载 荷平方的方差达到最大。四次方最大旋转是从简化载荷平方的方差达到最大。四次方最大旋转是从简化载 荷矩阵的行出发,通过旋转初始因子,使每个变量只荷矩阵的行出发,通过旋转初始因子,使每个变量只 在一个因子上又较高的载荷,而在其它的因子上尽可在

8、一个因子上又较高的载荷,而在其它的因子上尽可 能低的载荷。如果每个变量只在一个因子上有非零的能低的载荷。如果每个变量只在一个因子上有非零的 载荷,这时的因子解释是最简单的。载荷,这时的因子解释是最简单的。Equamax 平均正交旋转。是方差最大旋转和四 次最大旋转的结合。可以使在一个因子上有较高载 荷的变量数和变量中需要解释的因子数最少。 Promax 斜交旋转方法。允许因子之间彼此相关 ,它比直接斜交旋转更快,因此适用于大数据集的 因子分析。Display Rotated solution 给出旋转后的因子载荷矩阵和 因子转换矩阵。对于斜交旋转除显示以上两项外, 还显示因子之间的相关矩阵。L

9、oding plots 因子载荷散点图。给出以因子为坐标 轴的各变量的载荷散点图。如果有两个因子,给出 原始变量旋转以后的散点图。如果多于三个因子, 则给出基于前三个因子的三维载荷散点图。如果只 提取一个因子则不会给出散点图。Scores 因子得分对话框。 Save as variable 将因子得分最为新变量保存在数据 文件中。2Method 指定计算因子得分的方法。 Regression 回归法。 Bartlett 巴特利特法(加权最小二乘法)。 Anderson-Rubin 安德森-鲁宾法。是为了保证因子的 正交性,而对Bartlett做的调整。因子得分的均值为0, 方差为1,且彼此不相

10、关。 Display factor score coefficient matrix 显示因子得分 系数矩阵,是标准化的得分系数。原始变量进行标准化 后可根据此系数计算因子得分。Options 2 Sorted by size 载荷系数按其数值的大小排列并 构成因子载荷矩阵。使在同一个因子上具有较高 载荷的变量排在一起,便于观察。 Suppress absolute values less than 不显示那些绝 对值小于所指定值的载荷系数。输入0-1之间的数, 默认值为0.1。选择此项可以突出载荷较大的变量, 便于得出结论。Initial 列表示各变量的方差。 Extraction列表示每个

11、变量被公共因子提取的方差, 即共同度。因子分析结果上表为未经旋转的因子载荷矩阵。国内生产总值0.968第一公因子0.238第二公共因子 。再生相关矩阵:它是因子分析后的相关矩阵。即根据 各个变量的公共因子表达式所计算的变量之间的相关 系数矩阵。残差为原始相关矩阵与再生相关矩阵的差。旋转后的因子载荷矩阵。相对于未旋转前因子载荷的 元素更加极端。上表为因子旋转时的因子转换矩阵。成分得分系数矩阵,上表给出了用原始变量表示主成 份得分的系数信息。 标准化第一主成份0.221标准化后的国内生产总值 0.187标准化后的城乡存款余额未标准化第一主成份0.221 标准化后的国内生产总值 0.187 标准化后

12、的城乡存款余 额未标准化第二主成份-0.046 标准化后的国内生产总值 0016 标准化后的城乡存款余 额上表为因子得分的协方差矩阵,由此可见各个因子 之间是完全正交的。例2: 用主成份分析研究影响我国物价波动的因素 。受国内经济波动、居民收入及财富变化、生产 成本价格上涨、国际石油、粮食等原材料价格的 影响使得我国物价的波动变得极其复杂。由于物 价的波动不是取决于某一种因素,或某几个指标 ,而是受多方面因素的影响。而且随着我国市场 化程度的深化以及经济全球化进程的加快,我国 物价的波动不仅反映了国内市场中总供给和总需 求的矛盾,而且受国际经济的影响,尤其是国际 市场价格的影响也越来越大。 因

13、此选取能够反映 上述因素的15个经济变量 ,进行因子分析。4个公因子对原始变量方差的累计贡献率为 85.89%,可见通过因子分析实现了将15维数据变 量降至4维的目的。 代表成本因素的各上游价格指数在公因子F1 上有较高的载荷,可称为成本因子;而代表居民 需求增长的两个收入变量在公因子F3上有较高的 载荷,可称为需求因子;表示货币因素的3个变量 在公因子F2上有较高的载荷,可称为货币因子; 而代表财富变化的股票指数在公因子F4上有较高 的载荷,称为财富因子。但还有一些变量的载荷 并不是很明确,我们可以通过因子旋转得到实际 意义更加明确的因子模式。 旋转后的各公因子的载荷可以看出各因子所代表的

14、意义更明确:代表成本因素的各上游价格指数和 G7PPI的变化在公因子F1上有较高的载荷,可称 F1为成本因子,同时也表明我国价格的变化,尤其 是原材料类价格的变化和国际PPI的变化有较高的 相关性;而代表居民需求增长的两个收入变量在公 因子F3上有最高的载荷,可称 F3为需求因子;而 表示包括GDP增长率在内的货币因素在公因子F2 上的载荷都是最大的,可称 F2为货币因子;而代 表财富变化的股票指数和表示国际经济形势的 G7GDP指数同比增速在公因子F4上载荷最大,称 为财富因子和国际经济因子。通过观察旋转后的因 子载荷,可以发现各因子所代表实际意义更明确。要考察物价波动,通过观察可以发现CP

15、I在各 公因子的载荷分别为0.77、0.08、0.54和0.12,可见 代表成本和需求变动的因子和对CPI变化的解释能 力是最强的,即在样本区间内物价波动受成本推动 和需求拉动的影响较大,其中成本推动占主导地位 。 例3:用主成份法构建我国出口景气指数。由于出 口同多个产业相关,并涉及投资、生产等经济环节 ,因此选取多个与出口相关的指标合成出口景气指 数,从而综合反映出口的波动水平。目前应用较广 泛的景气指数方法有扩散指数(DI)方法、合成指 数(CI)方法,还有应用主成分分析、状态空间模 型、Markov动态因子转移模型、Probit模型等方法 来构建景气指数的方法。在构建某一产业部门的景

16、气指数时,主要应用主成分分析方法。由于中国出口商品总值同比增长率直接反映了中国的出口状况,因此将出口总值增长率作为 基准指标。 一致指标是指该指标的波动与当前出口的景气 变动大体一致。 先行指标是指在经济波动达到高峰(或低谷 )前,超前出现峰和谷的指标。 滞后指标是指那些转折点(峰或谷)滞后于经济波动的指标,其作用在于它的峰和谷的出现可 以确认经济波动的高峰或低谷确已出现。 将收集到的指标进行数据处理,计算相应的 增长率序列,并将其进行季节调整,然后利用时 差相关分析方法、K-L信息量方法、峰谷对应法 等多种方法筛选出了15个景气指标,分别构成中 国出口的先行、一致、滞后指标组。 本文所选取的一致指标包括加拿大、香港、美

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号