《主成分分析与因子分析法ppt课件》由会员分享,可在线阅读,更多相关《主成分分析与因子分析法ppt课件(38页珍藏版)》请在金锄头文库上搜索。
1、主要内容主成分分析法主成分分析法 因子分析法因子分析法附:主成分分析法与因子分析法的区别附:主成分分析法与因子分析法的区别主成分分析法主成分分析法(Principal Components Analysis,PCA) 主成分分析法概述主成分分析法概述主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 一、主成分分析概述假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公司的所有数据,这包括司的所有数据,这包括众多的变量众多的变量,比如,比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料
2、消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等工和教育程度等等。如果让你向上级或有关方面介绍公司状况,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆出去吗出去吗? 引子当然不能。当然不能。汇报什么?汇报什么?发现在如此多的变量之中,有很多是发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的相关的。人们希望能够找出它们的少少数数“代表代表”来对它们进行描述。来对它们进行描述。需要把这种有需要把这种有很多变量很多变量的数据进行高的数据进行
3、高度概括,度概括,用少数几个指标简单明了地用少数几个指标简单明了地把情况说清楚。把情况说清楚。主成分分析主成分分析法法( Principal Components Analysis )和因子分析和因子分析法法(Factor Analysis)就就是把变量维数降是把变量维数降低以便于描述、理解和分析的方法。低以便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)个综合变量(综合指标) ,而这几个综合变量可以,而这几个综合变量
4、可以反映原来多个变量的大部分信息,所含的信息又互反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,这些综合变量就叫因子或主成分,它是不可观测的,即即它不是具体的变量它不是具体的变量, ,只是几个指标的综合只是几个指标的综合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?什么是主成分分析法?成绩数据53个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史、英语的成绩如下表(部分)。史、英语的成绩如下表(部分)。 从本例
5、可能提出的问题能能不不能能把把这这个个数数据据表表中中的的6 6个个变变量量用用一一两个综合变量来表示呢?两个综合变量来表示呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信息呢?信息呢?事实上,以上问题在事实上,以上问题在平时的平时的研究中,也会经研究中,也会经常遇到。它常遇到。它所涉及的问题可以推广到对企业、所涉及的问题可以推广到对企业、对学校、对区域进行对学校、对区域进行分析、评价、排序和分分析、评价、排序和分类类等。等。比如对比如对n个个样本样本进行综合评价,可选的描述进行综合评价,可选的描述样样本本特征的指标很多,而这些指标往往存在特征的指标很多,而这些指标往往存
6、在一一定的相关性定的相关性(既不完全独立,又不完全相关)(既不完全独立,又不完全相关),这就给研究带来很大不便。,这就给研究带来很大不便。若选指标太多,若选指标太多,会增加分析问题的难度与复杂性,选指标太会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对少,有可能会漏掉对样本样本影响较大的指标,影响较大的指标,影响结果的可靠性。影响结果的可靠性。这就需要我们在相关分析的基础上,采这就需要我们在相关分析的基础上,采用主成分分析法找到几个用主成分分析法找到几个新的相互独立新的相互独立的综合指标的综合指标,达到既减少指标数量、又,达到既减少指标数量、又能区分样本间差异的目的。能区分样本间差异的
7、目的。 二、主成分分析的基本原理二、主成分分析的基本原理(一)(一)主成分分析的几何解释主成分分析的几何解释(二)主成分分析的基本思想(二)主成分分析的基本思想(一)主成分分析的几何解释(一)主成分分析的几何解释例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。希希望望把把6维维空空间间用用低低维维空空间间表表示。示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,语语文文成成绩绩(x1)和和数数学学成成绩绩(x2),分分别别由由横横坐坐标标和纵坐标所代表;和纵坐标所代表;每个学生都是二维坐标系中的一个点。每个学生都是二维坐标系中
8、的一个点。因因为为在在实实际际应应用用中中,往往往往存存在在指指标标的的量量纲纲不不同同,所所以以在在计计算算之之前前须须先先消消除除量量纲纲的的影影响响,而而将将原原始始数数据据标标准准化化。为为了了实实现现样样本本数数据据的的标标准准化化,应应求求样样本本数数据据的的平平均均和和方方差差。对对数数据据矩矩阵阵Y Y作作标标准准化化处处理理,即即对对每每一一个指标分量作标准化变换,变换公式为:个指标分量作标准化变换,变换公式为:其中,其中, 样本均值:样本均值: 样本标准差:样本标准差: 原原始始变变量量 经经规规格格化化后后变变为为新新变变量量 ,其均值为零,方差为其均值为零,方差为1 1
9、。对对二二维维空空间间来来讲讲n n个个标标准准化化后后的的样样本本在在二二维维空空间间的的分分布布大大体体为为一一椭椭圆圆形形,该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上数数据据变变化化很很少少,极极端端的的情情况况下下,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到到一一维维的的降降维维就自然完成了。就自然完成了。假定语文成绩假定语文成绩 (X1) 和数学成和数学成绩绩 (X2)分别为)分别为标准化后的分数,标准化后的分数,右图为其散点图,右图为其散点图,椭圆倾斜为椭圆倾斜为45度。
10、度。如果将坐标轴如果将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标,那么点在新坐标系中的坐标(系中的坐标(Y1,Y2)与原坐标()与原坐标(X1,X2)有如下的)有如下的关系:关系: Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量 Y1 和和 Y2 已经不再相已经不再相关。而且大部分关。而且大部分点沿点沿 Y1 轴散开,轴散开,在在 Y1 轴方向的轴方向的变异较大(即变异较大(即 Y1的方差较大)的方差较大) ,相对来说,在,相对来说,在 Y2轴
11、方向的变异轴方向的变异较小(即较小(即 Y2 的的方差较小)方差较小) 。在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的第一主成分和第二主成分。实际上第一主成的第一主成分和第二主成分。实际上第一主成分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因为图中的各点在新坐标系中的为图中的各点在新坐标系中的 Y1 坐标基本上就坐标基本上就代表了这些点的分布情况,因此可以选代表了这些点的分布情况,因此可以选 Y1 为一为一个新的综合变量。当然如果再选个新的综合变量。当然如果再选 Y2也作为综合也作为综合变量,那么变量,那么 Y1
12、 和和 Y2 则反映了则反映了 X1 和和 X2的全部的全部信息。信息。 21( (二二二二) ) 主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想 假如对某一问题的研究涉及假如对某一问题的研究涉及 p p 个指标,记为个指标,记为X X1 1,X X2 2, , , , X Xp p,由这,由这 p p 个随机变量构成的随机向量为个随机变量构成的随机向量为X X=(=(X X1 1, , X X2 2, , , , X Xp p) ) ,设,设 X X 的均值向量为的均值向量为 ,协方差矩阵为,协方差矩阵为 。设。设Y Y=(=(Y Y1 1, , Y Y2
13、2 , , , , Y Yp p) ) 为对为对 X X 进行线性变换得到的合成随机向量,即进行线性变换得到的合成随机向量,即 (1)设设 i i=(=( i i1 1, , i i2 2 , , , , ipip) ) , , A A=(=( 1 1 , , 2 2 , , p p) ) ,则有,则有 (2)22且且 (3) 由是式由是式(1)(2)(1)(2)能够看出,可以对原始变量进行任意的线能够看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量性变换,不同线性变换得到的合成变量Y Y的统计特征显然是的统计特征显然是不一样的。每个不一样的。每个Y Yi i 应尽可能多地反
14、映应尽可能多地反映 p p 个原始变量的信息,个原始变量的信息,通常用方差来度量通常用方差来度量“信息信息”,Y Yi i 的方差越大表示它所包含的方差越大表示它所包含的信息越多。由式(的信息越多。由式(3 3)可以看出将系数向量)可以看出将系数向量 i i 扩大任意倍扩大任意倍数会使数会使Y Yi i 的方差无限增大,为了消除这种不确定性,增加约的方差无限增大,为了消除这种不确定性,增加约束条件:束条件:23 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y Y的不同分量包含的信的不同分量包含的信息不应重叠。综上所述,式(息不应重叠。综上所述,式(1 1)的线性变换需要满足下面
15、的)的线性变换需要满足下面的约束:约束:(1) (1) 即即 ,i i =1, 2, , =1, 2, , p p。(2) (2) Y Y1 1在满足约束在满足约束 (1) (1) 即的情况下,方差最大;即的情况下,方差最大;Y Y2 2是在满足是在满足约束约束(1) (1) ,且与,且与Y Y1 1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;Y Yp p是在满足约束是在满足约束(1) (1) ,且与,且与Y Y1 1,Y Y2 2,Y Y p- p-1 1不相关的条件下,不相关的条件下,在各种线性组合中方差达到最大者。在各种线性组合中方差达到最大者。 满足上述约束得到的合成变
16、量满足上述约束得到的合成变量Y Y1 1, , Y Y2 2, , , , Y Yp p分别称为分别称为原始变量的第一主成分、第二主成分、原始变量的第一主成分、第二主成分、第、第 p p 主成分,而主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。构的目的。三、主成分分析的计算步骤( (一一) )计算相关系数矩阵计算相关系数矩阵( (二二) )计算特征值与特征向量计算特征值与特征向量( (三三) )计算主成分贡献率及累
17、计贡献率计算主成分贡献率及累计贡献率( (四四) )计算主成分载荷计算主成分载荷(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为为原原变变量量xi与与xj标标准准化化后后的的相关系数,相关系数, rij=rji,其计算公式为其计算公式为(3.5.3) (3.5.4) (二)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程,求出特征值,并使、解特征方程,求出特征值,并使其按大小顺序排列其按大小顺序排列 2、分别求出对应于特征值、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求 =1,即,即,其中表示向量其中表示向量 的第的第j个分量个分量,也就是说
18、也就是说 为单位向量。为单位向量。28(三)计算主成分贡献率及累计贡献率(三)计算主成分贡献率及累计贡献率 主成分分析是把主成分分析是把 p p 个随机变量的总方差分解为个随机变量的总方差分解为 p p 个不相个不相关随机变量的方差之和关随机变量的方差之和 1 1 2 2 P P,则总方差中属于,则总方差中属于第第 i i 个主成分(被第个主成分(被第 i i 个主成分所解释)的比例为个主成分所解释)的比例为 称为第称为第 i i 个主成分的贡献率。定义个主成分的贡献率。定义 称为前称为前 m m 个主成分的累积贡献率,衡量了前个主成分的累积贡献率,衡量了前 m m 个主成份对原个主成份对原始
19、变量的解释程度。始变量的解释程度。 (四)计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载荷就是主成主成分载荷就是主成 分分z zi i与变量与变量x xj j之间的相关系数之间的相关系数因子分析法因子分析法(Factor Analysis,FA)因子分析法概述因子分析法概述因子分析法的模型因子分析法的模型附:主成分分析与因子分析的区别附:主成分分析与因子分析的区别(一)因子分析法概述因子分析法与主成分分析法都基于统计分因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。析法,但两者有较大的区别。主成分分析主成分分析是通过坐标变换提取主成分,也就是将
20、一是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性量,将主成分表示为原始观察变量的线性组合。而组合。而因子分析因子分析法是要构造因子模型,法是要构造因子模型,将原始观察变量分解为因子的线性组合。将原始观察变量分解为因子的线性组合。因此因子分析法是主成分分析法的发展。因此因子分析法是主成分分析法的发展。(二)因子分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形
21、式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。其步骤为: 将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算方差贡献率与累计方差贡献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序因子模型的表达式为: 其矩阵形式为: 其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。 F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。 附、主成分分析与因子分析的区别主成分分析法与因子分析法的区别主成分分析法与因子分析法的区别供娄浪颓蓝辣袄驹靴锯澜互慌仲写绎衰斡染圾明将呆则孰盆瘸砒腥悉漠堑脊髓灰质炎(讲课2019)脊髓灰质炎(讲课2019)供娄浪颓蓝辣袄驹靴锯澜互慌仲写绎衰斡染圾明将呆则孰盆瘸砒腥悉漠堑脊髓灰质炎(讲课2019)脊髓灰质炎(讲课2019)