主成分分析课件

上传人:人*** 文档编号:576646885 上传时间:2024-08-20 格式:PPT 页数:114 大小:2.30MB
返回 下载 相关 举报
主成分分析课件_第1页
第1页 / 共114页
主成分分析课件_第2页
第2页 / 共114页
主成分分析课件_第3页
第3页 / 共114页
主成分分析课件_第4页
第4页 / 共114页
主成分分析课件_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《主成分分析课件》由会员分享,可在线阅读,更多相关《主成分分析课件(114页珍藏版)》请在金锄头文库上搜索。

1、2024/8/201主成分分析主成分分析11 主成分分析的基本思想与理论主成分分析的基本思想与理论22 主成分分析的几何意义主成分分析的几何意义33 总体主成分及其性质总体主成分及其性质44 样本主成分的导出样本主成分的导出55 有关问题的讨论有关问题的讨论66 主成分分析步骤及框图主成分分析步骤及框图77 主成分分析的上机实现主成分分析的上机实现2021/6/1612024/8/202 主成分分析主成分分析 目录 上页 下页 返回 结束 主成分分析主成分分析(principal components analysis)也称主分量)也称主分量分析,是由霍特林(分析,是由霍特林(Hotellin

2、g)于于19331933年首先提出的。主成年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主

3、成分而不至于损失太多信息,从而更可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。本章主要介绍主成分分析使问题得到简化,提高分析效率。本章主要介绍主成分分析的基本理论和方法、主成分分析的计算步骤及主成分分析的的基本理论和方法、主成分分析的计算步骤及主成分分析的上机实现。上机实现。2021/6/1622024/8/203 目录 上页 下页 返回 结束 1 1 主成分分析的基本思想与理论主成分分析的基本思想与理论1.1 1.1 主成分分析的基本思想主成分分析的基本

4、思想1.2 1.2 主成分分析的基本理论主成分分析的基本理论2021/6/1632024/8/204 目录 上页 下页 返回 结束 1.11.1 主成分分析的基本思想主成分分析的基本思想 在对某一事物进行实证研究中,为了更全面、准确地在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能

5、多的指标,而另一方面随着考虑指标的增多增加了虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合主成分分析正是研究如何通过原来变量的

6、少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。来解释原来变量绝大多数信息的一种多元统计方法。2021/6/1642024/8/205 目录 上页 下页 返回 结束 1.11.1 主成分分析的基本思想主成分分析的基本思想 既然研究某一问题涉及的众多变量之间有一定的相关性,既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),利用原始变量的

7、线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:下基本关系:1.每一个主成分都是各原始变量的线性组合;每一个主成分都是各原始变量的线性组合;2.主成分的数目大大少于原始变量的数目主成分的数目大大少于原始变量的数目2021/6/1652024/8/206 目录 上页 下页 返回 结束 1.11.1 主

8、成分分析的基本思想主成分分析的基本思想3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关 通过主成分分析,可以从事物之间错综复杂的通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。的启发,把研究工作引向深入。2021/6/1662024/8/207 目录 上页 下页 返回 结束 1.21.2 主成分分析的基本理论主成分

9、分析的基本理论 设对某一事物的研究涉及个设对某一事物的研究涉及个 指标,分别用指标,分别用 表表示,这个示,这个 指标构成的指标构成的 维随机向量为维随机向量为 。设随。设随机向量机向量 的均值为的均值为 ,协方差矩阵为,协方差矩阵为 。 对对 进行线性变换,可以形成新的综合变量,用进行线性变换,可以形成新的综合变量,用 表示,表示,也就是说,新的综合变量可以由原来的变量线性表示,即满也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:足下式:(5.1)(5.1)2021/6/1672024/8/208 目录 上页 下页 返回 结束 1.21.2 主成分分析的基本理论主成分分析的基本理

10、论 由于可以任意地对原始变量进行上述线性变换,由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量由不同的线性变换得到的综合变量 的统计特性也的统计特性也不尽相同。因此为了取得较好的效果,我们总是希不尽相同。因此为了取得较好的效果,我们总是希望望 的方差尽可能大且各的方差尽可能大且各 之间互相独立,由之间互相独立,由于于 =而对任给的常数而对任给的常数 ,有,有2021/6/1682024/8/209 目录 上页 下页 返回 结束 1.21.2 主成分分析的基本理论主成分分析的基本理论 因此对因此对 不加限制时,可使不加限制时,可使 任意增大,问题将变得没任意增大,问题将变

11、得没有意义。我们将线性变换约束在下面的原则之下:有意义。我们将线性变换约束在下面的原则之下:1,即: 2 3 3. . 是是 的一切满足原则的一切满足原则1 1的线性组合中方差最的线性组合中方差最大者;大者; 是与是与 不相关的不相关的 所有线性组合中方差最所有线性组合中方差最大者;大者;, , 是与是与 都不相关的都不相关的 的所有的所有线性组合中方差最大者。线性组合中方差最大者。2021/6/1692024/8/2010 目录 上页 下页 返回 结束 1.21.2 主成分分析的基本理论主成分分析的基本理论 基于以上三条原则决定的综合变量基于以上三条原则决定的综合变量 分别分别称为原始变量的

12、第一、第二、称为原始变量的第一、第二、第、第 个主成分。个主成分。其中,各综合变量在总方差中占的比重依次递减,其中,各综合变量在总方差中占的比重依次递减,在实际研究工作中,通常只挑选前几个方差最大的在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的主成分,从而达到简化系统结构,抓住问题实质的目的。目的。2021/6/16102024/8/2011 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义 由第一节的介绍我们知道,在处理涉及多个指标问题的时由第一节的介绍我们知道,在处理涉及多个指标问题的时候,为了提高分析的效率,可以不直接

13、对候,为了提高分析的效率,可以不直接对 个指标构成的个指标构成的 维维随机向量随机向量 进行分析,而是先对向量进行分析,而是先对向量 进行线进行线性变换,形成少数几个新的综合变量性变换,形成少数几个新的综合变量 ,使得各综合,使得各综合变量之间相互独立且能解释原始变量尽可能多的信息,这样,变量之间相互独立且能解释原始变量尽可能多的信息,这样,在以损失很少部分信息为代价的前提下,达到简化数据结构,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。这一节,我们着重讨论主成分分析的几提高分析效率的目的。这一节,我们着重讨论主成分分析的几何意义,为了方便,我们仅在二维空间中讨论

14、主成分的几何意何意义,为了方便,我们仅在二维空间中讨论主成分的几何意义,所得结论可以很容易地扩展到多维的情况。义,所得结论可以很容易地扩展到多维的情况。2021/6/16112024/8/2012 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义 设有设有 个样品,每个样品有两个观测变量个样品,每个样品有两个观测变量 ,这样,这样,在由变量在由变量 组成的坐标空间中,组成的坐标空间中, 个样品点散布的情况如个样品点散布的情况如带状,见图带状,见图5-15-1。图图5-15-12021/6/16122024/8/2013 目录 上页 下页 返回 结束 22 主成分分析

15、的几何意义主成分分析的几何意义 由图可以看出这由图可以看出这 个样品无论沿个样品无论沿 轴方向还是沿轴方向还是沿 轴方向均轴方向均有较大的离散性,其离散程度可以分别用观测变量有较大的离散性,其离散程度可以分别用观测变量 的方差和的方差和 的方差定量地表示,显然,若只考虑的方差定量地表示,显然,若只考虑 和和 中的任何一个,原中的任何一个,原始数据中的信息均会有较大的损失。我们的目的是考虑始数据中的信息均会有较大的损失。我们的目的是考虑 和和 的线性组合,使得原始样品数据可以由新的变量的线性组合,使得原始样品数据可以由新的变量 和和 来刻画。来刻画。 在几何上表示就是将坐标轴按逆时针方向旋转在几

16、何上表示就是将坐标轴按逆时针方向旋转 角度,得到新坐角度,得到新坐标轴标轴 和和 ,坐标旋转公式如下:,坐标旋转公式如下: 2021/6/16132024/8/2014 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义 其矩阵形式为:其矩阵形式为:其中,其中, 为旋转变换矩阵,由上式可知它是正交阵,为旋转变换矩阵,由上式可知它是正交阵,即满足即满足 2021/6/16142024/8/2015 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义 经过这样的旋转之后,经过这样的旋转之后, 个样品点在个样品点在 轴上的离散程度最轴上的离散程度最

17、大,变量大,变量 代表了原始数据绝大部分信息,这样,有时在研代表了原始数据绝大部分信息,这样,有时在研究实际问题时,即使不考虑变量究实际问题时,即使不考虑变量 也无损大局。因此,经过也无损大局。因此,经过上述旋转变换就可以把原始数据的信息集中到上述旋转变换就可以把原始数据的信息集中到 轴上,对数轴上,对数据中包含的信息起到了浓缩的作用。进行主成分分析的目的据中包含的信息起到了浓缩的作用。进行主成分分析的目的就是找出转换矩阵就是找出转换矩阵 ,而进行主成分分析的作用与几何意义,而进行主成分分析的作用与几何意义也就很明了了。下面我们用遵从正态分布的变量进行分析,也就很明了了。下面我们用遵从正态分布

18、的变量进行分析,以使主成分分析的几何意义更为明显。为方便,我们以二元以使主成分分析的几何意义更为明显。为方便,我们以二元正态分布为例。对于多元正态总体的情况,有类似的结论。正态分布为例。对于多元正态总体的情况,有类似的结论。 2021/6/16152024/8/2016 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义设变量设变量 遵从二元正态分布,分布密度为遵从二元正态分布,分布密度为: 令令 为变量为变量 的协方差矩阵,其形式如下:的协方差矩阵,其形式如下: 令 则上述二元正态分布的密度函数有如下矩阵形式则上述二元正态分布的密度函数有如下矩阵形式:2021/6/

19、16162024/8/2017 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义考虑考虑 ( 为常数),为方便,不妨设为常数),为方便,不妨设上式有如下展开形式:上式有如下展开形式:令令 ,则上面的方程变为:,则上面的方程变为:2021/6/16172024/8/2018 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义这是一个椭圆的方程,长短轴分别为:这是一个椭圆的方程,长短轴分别为:又令又令 为为 的特征值,的特征值, 为相应的标准正交特为相应的标准正交特征向量征向量. 则则 为正交阵,为正交阵, 有:有: 因此有:因此有: 2021

20、/6/16182024/8/2019 目录 上页 下页 返回 结束 22 主成分分析的几何意义主成分分析的几何意义 与上面一样,这也是一个椭圆方程,且在与上面一样,这也是一个椭圆方程,且在 构成的坐标系中,构成的坐标系中,其主轴的方向恰恰正是其主轴的方向恰恰正是 坐标轴的方向。因为坐标轴的方向。因为 所以,所以, 就是原始变量就是原始变量 的两个主成分,它们的方的两个主成分,它们的方差分别为差分别为 ,在,在 方向上集中了原始变量方向上集中了原始变量 的变差,在的变差,在 方向方向上集中了原始变量上集中了原始变量 的变差,经常有的变差,经常有 远大于远大于 ,这样,我们就,这样,我们就可以只研

21、究原始数据在可以只研究原始数据在 方向上的变化而不致于损失过多信息,方向上的变化而不致于损失过多信息,而而 就是椭圆在原始坐标系中的主轴方向,也是坐标轴转换就是椭圆在原始坐标系中的主轴方向,也是坐标轴转换的系数向量。对于多维的情况,上面的结论依然成立。的系数向量。对于多维的情况,上面的结论依然成立。 这样,我们就对主成分分析的几何意义有了一个充分的了解。这样,我们就对主成分分析的几何意义有了一个充分的了解。主成分分析的过程无非就是坐标系旋转的过程,各主成分表达主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐式就是新坐标系与原坐标系的转

22、换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。标轴的方向就是原始数据变差最大的方向。 2021/6/16192024/8/2020 目录 上页 下页 返回 结束 33 总体主成分及其性质总体主成分及其性质 由上面的讨论可知,求解主成分的过程就是求由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量满足三条原则的原始变量 的线性组合的线性组合的过程。本节先从总体出发,介绍求解主成分的的过程。本节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后介绍样本主成分一般方法及主成分的性质,然后介绍样本主成分的导出。的导出。2021/6/16202024/8/2021

23、目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 主成分分析的基本思想就是在保留原始变量尽可能多的信息主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量的主要矛盾。而这里对于随机变量 而言,其协方差而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反应,而相关矩阵不过是将原始变量标准化后的协方的信息的反应,而相关矩阵不过是将原始变量标准化后的协方差矩阵。我们所说

24、的保留原始变量尽可能多的信息,也就是指差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指的生成的较少的综合变量(主成分)的方差和尽可能接近原始的生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。下面我们分别就协方差矩阵矩阵出发求得的主成分是

25、不同的。下面我们分别就协方差矩阵与相关矩阵进行讨论。与相关矩阵进行讨论。2021/6/16212024/8/2022 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分(1)(1)从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分引论:设矩阵引论:设矩阵 ,将,将 的特征值的特征值 依大小顺序依大小顺序排列,不妨设排列,不妨设 , 为为 矩阵各特征值对矩阵各特征值对应的标准正交特征向量,则对任意向量,有:应的标准正交特征向量,则对任意向量,有:(5.2) 证明:对证明:对 与单位阵与单位阵 进行谱分解,可以写成下面的式子:进行谱分解,可以写成下面的式子: 而对任意向量而对任意向

26、量 ,有,有 ,于是有,于是有2021/6/16222024/8/2023 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分类似的,我们可以得出:类似的,我们可以得出: 于是,自然有于是,自然有 2021/6/16232024/8/2024 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 证明:由引论知,对于任意常向量证明:由引论知,对于任意常向量 ,有:,有: 又又 为标准正交特征向量,于是:为标准正交特征向量,于是: 证明:由引论知,对于任意常向量证明:由引论知,对于任意常向量 ,有:,有: 又又 为标准正交特征向量,于是:为标准正交特征向量,于是: 此时

27、: (5.3) 结论:结论: 设随机向量设随机向量 的协方差矩阵为的协方差矩阵为 , 为为 的特征值,的特征值, 为矩阵为矩阵 各特征值对应各特征值对应的标准正交特征向量,则第的标准正交特征向量,则第 i个主成分为:个主成分为: 结论:结论: 设随机向量设随机向量 的协方差矩阵为的协方差矩阵为 , 为为 的特征值,的特征值, 为矩阵为矩阵 各特征值对应各特征值对应的标准正交特征向量,则第的标准正交特征向量,则第 i个主成分为:个主成分为: 2021/6/16242024/8/2025 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 且:令令 ,则有,则有类似的,有类似的,有2

28、021/6/16252024/8/2026 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 由以上结论,我们把由以上结论,我们把 的协方差矩阵的协方差矩阵 的非零特的非零特征值征值 对应的标准化特征向量对应的标准化特征向量 分别分别作为系数向量,作为系数向量, 分别称为随机向分别称为随机向量量 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主成分。主成分。 的分量的分量 依次是依次是 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主成主成分的充分必要条件是:分的充分必要条件是:(1 1) ,即,即 为为 阶正交阵;阶正交阵;(2 2) 的分量之间互

29、不相关;的分量之间互不相关;(3 3) 的的 个分量是按方差由大到小排列。个分量是按方差由大到小排列。2021/6/16262024/8/2027 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 于是随机向量于是随机向量 与随机向量与随机向量 之间存在下面的关系式:之间存在下面的关系式: (5.4) 注:无论注:无论 的各特征根是否存在相等的情况,对应的标准化的各特征根是否存在相等的情况,对应的标准化特征向量特征向量 总是存在的,我们总可以找到对应各特总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题就变成了征根的彼此正交的特征向量。这样,求主成

30、分的问题就变成了求特征根与特征向量的问题。求特征根与特征向量的问题。2021/6/16272024/8/2028 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 (二)主成分的性质(二)主成分的性质 性质性质1 1 的协方差阵为对角阵的协方差阵为对角阵 。 这一性质可由上述结论容易得到,证明略。这一性质可由上述结论容易得到,证明略。 性质性质2 2 记记 ,有,有 证明:证明: 记记 则有则有 于是于是2021/6/16282024/8/2029 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 定义定义 5.1 5.1 称称 为第为第 个主成分个主成分 的方

31、的方差贡献率,称差贡献率,称 为主成分为主成分 的累积贡献率。的累积贡献率。 由此进一步可知,主成分分析是把个由此进一步可知,主成分分析是把个 随机变量的总方差随机变量的总方差 分解为分解为 个不相关的随机变量的方差之和,使第一主成分的方差个不相关的随机变量的方差之和,使第一主成分的方差达到最大,第一主成分是以变化最大的方向向量各分量为系数达到最大,第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差为的原始变量的线性函数,最大方差为 。 表明了表明了 的方差的方差在全部方差中的比值,称在全部方差中的比值,称 为第一主成分的贡献率。这个值越为第一主成分的贡献率。这个值越大

32、,表明大,表明 这个新变量综合这个新变量综合 信息的能力越强,信息的能力越强,也即由也即由 的差异来解释随机向量的差异来解释随机向量 的差异的能力越强。的差异的能力越强。 2021/6/16292024/8/2030 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分正因如此,才把正因如此,才把 称为称为 的主成分。进而我们就更清楚为的主成分。进而我们就更清楚为什么主成分的名次是按特征根什么主成分的名次是按特征根 取值的大小排序的。取值的大小排序的。 进行主成分分析的目的之一是为了减少变量的个数,所以一进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取般不会取 个主成分

33、,而是取个主成分,而是取 个主成分,个主成分, 取多少比较合取多少比较合适,这是一个很实际的问题,通常以所取适,这是一个很实际的问题,通常以所取 使得累积贡献率达使得累积贡献率达到到8585以上为宜,即以上为宜,即(5.5)(5.5) 这样,既能使损失信息不太多,又达到减少变量,简化问题这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。另外,选取主成分还可根据特征值的变化来确定。图的目的。另外,选取主成分还可根据特征值的变化来确定。图5-25-2为为SPSSSPSS统计软件生成的碎石图。统计软件生成的碎石图。 2021/6/16302024/8/2031 目录 上页 下页 返回 结束

34、 3.13.1 总体主成分总体主成分 图图5-25-2 由图由图5-25-2可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于作者习惯于保留特征值大于1 1的那些主成分,但这种方法缺乏完善的理论支持。的那些主成分,但这种方法缺乏完善的理论支持。在大多

35、数情况下,当在大多数情况下,当 时即可使所选主成分保持信息总量的比重达到时即可使所选主成分保持信息总量的比重达到8585以上。以上。2021/6/16312024/8/2032 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 定义定义5.2 5.2 第第 个主成分个主成分 与原始变量与原始变量 的相关系数的相关系数 称做称做因子负荷量。因子负荷量。 因子负荷量是主成分解释中非常重要的解释依据,因子负因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对

36、因子负荷量的统计意义给出更详细的一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。比。 性质性质3 3 (5.6) 证明:证明: 令:令: 为单位向量。则为单位向量。则 又又2021/6/16322024/8/2033 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 于是 于是 由性质由性质3 3知因子负荷量知因子负荷量 与向量系数与向量系数 成正比,与成正比,与 的的标准差成反比关系,因此,绝不能将因子负荷量与向量系数混标准差成反比关系,因此,绝不能将因子负荷

37、量与向量系数混为一谈。在解释主成分的成因或是第为一谈。在解释主成分的成因或是第 个变量对第个变量对第 个主成分的个主成分的重要性时,应当根据因子负荷量而不能仅仅根据重要性时,应当根据因子负荷量而不能仅仅根据 与与 的变换的变换系数系数 。2021/6/16332024/8/2034 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 性质性质4 4 (5.7)证明:由性质证明:由性质3有(5.8)性质性质5 5 证明:因为证明:因为 向量是随机向量向量是随机向量 的线性组合,因此的线性组合,因此 也可以精也可以精确表示成确表示成 的线性组合。由回归分析知识知,的线性组合。由回归分

38、析知识知, 与与 的全相关系数的平方和等于的全相关系数的平方和等于1 1,而因为,而因为 之间之间互不相关,所以互不相关,所以 与与 的全相关系数的平方和也就是的全相关系数的平方和也就是 ,因此,性质,因此,性质5 5成立。成立。 2021/6/16342024/8/2035 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 定义定义5.3 5.3 与前与前 个主成分个主成分 的全相关系数平方和称的全相关系数平方和称为为 对原始变量对原始变量 的方差贡献率的方差贡献率 ,即,即 (5.9)这一定义说明了前这一定义说明了前 个主成分提取了原始变量个主成分提取了原始变量 中中 的信

39、息,的信息,由此我们可以判断我们提取的主成分说明原始的能力。由此我们可以判断我们提取的主成分说明原始的能力。2021/6/16352024/8/2036 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 (三)从相关阵出发求解主成分(三)从相关阵出发求解主成分 考虑如下的数学变换:考虑如下的数学变换: 令:令: 其中,其中, 与与 分别表示变量分别表示变量 的期望与方差。于是有的期望与方差。于是有令:令:于是,对原始变量于是,对原始变量 进行标准化:进行标准化:2021/6/16362024/8/2037 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 经过上

40、述标准化后,显然有经过上述标准化后,显然有 由于上面的变换过程,原始变量由于上面的变换过程,原始变量 的相关阵实际上的相关阵实际上就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则是相一致的,阵出发求主成分的过程与主成分个数的确定准则是相一致的,在此不再赘述。仍用在此不再赘述。仍用 分别表示相关阵分别表示相关阵 的特征值与对应的的特征值与对应的标准正交特征向量,此时,求得的主成分与原始变量

41、的关系式标准正交特征向量,此时,求得的主成分与原始变量的关系式为:为: (5.10)2021/6/16372024/8/2038 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 (四)由相关阵求主成分时主成分性质的简单形式(四)由相关阵求主成分时主成分性质的简单形式 由相关阵出发所求得主成分依然具有上面所述的各种性质,由相关阵出发所求得主成分依然具有上面所述的各种性质,不同的是在形式上要简单,这是由相关阵不同的是在形式上要简单,这是由相关阵 的特性决定的。我的特性决定的。我们将由相关阵得到的主成分的性质总结如下:们将由相关阵得到的主成分的性质总结如下:1 1 的协方差矩阵为对

42、角阵的协方差矩阵为对角阵 ;3 3第第 个主成分的方差占总方差的比例,即第个主成分的方差占总方差的比例,即第 个主成分的个主成分的方差贡献率为方差贡献率为 ,前,前 个主成分的累积方差贡献率个主成分的累积方差贡献率为为 ;2021/6/16382024/8/2039 目录 上页 下页 返回 结束 3.13.1 总体主成分总体主成分 注意到注意到 ,且,且 ,结合前面从协方差矩阵出发求主,结合前面从协方差矩阵出发求主成分部分对主成分性质的说明,可以很容易的得出上述性质。成分部分对主成分性质的说明,可以很容易的得出上述性质。虽然主成分的性质在这里有更简单的形式,但应注意其实质与虽然主成分的性质在这

43、里有更简单的形式,但应注意其实质与前面的结论并没有区别;需要注意的一点是判断主成分的成因前面的结论并没有区别;需要注意的一点是判断主成分的成因或是原始变量(这里原始变量指的是标准化以后的随机向量或是原始变量(这里原始变量指的是标准化以后的随机向量 )对主成分的重要性有更简单的方法,因为由上面第)对主成分的重要性有更简单的方法,因为由上面第4 4条知这里条知这里因子负荷量仅依赖于由因子负荷量仅依赖于由 到到 的转换向量系数的转换向量系数 (因为对不同(因为对不同的的 ,因子负荷量表达式的后半部分,因子负荷量表达式的后半部分 是固定的)。是固定的)。2021/6/16392024/8/2040 目

44、录 上页 下页 返回 结束 44 样本主成分的导出样本主成分的导出记 在实际研究工作中,总体协方差阵在实际研究工作中,总体协方差阵 与相关阵与相关阵 通常是未知通常是未知的,于是需要通过样本数据来估计。设有的,于是需要通过样本数据来估计。设有 个样品,每个样品个样品,每个样品有有 个指标,这样共得到个指标,这样共得到 个数据,原始资料矩阵如下:个数据,原始资料矩阵如下: 2021/6/16402024/8/2041 目录 上页 下页 返回 结束 44 样本主成分的导出样本主成分的导出 为样本协方差矩阵,作为总体协方差阵为样本协方差矩阵,作为总体协方差阵 的无偏估计,的无偏估计, 是样是样本相关

45、矩阵,为总体相关矩阵的估计。由前面的讨论知,若原本相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若原始资料始资料 阵是经过标准化处理的,则由矩阵阵是经过标准化处理的,则由矩阵 求得的协方差阵就求得的协方差阵就是相关矩阵,即是相关矩阵,即 与与 完全相同。因为由协方差矩阵求解主成分完全相同。因为由协方差矩阵求解主成分的过程与同相关矩阵出发求解主成分的过程是一致的,下面我的过程与同相关矩阵出发求解主成分的过程是一致的,下面我们仅介绍由相关阵们仅介绍由相关阵 出发求解主成分。出发求解主成分。 根据总体主成分的定义,主成分根据总体主成分的定义,主成分 的协方差是:的协方差是:其中其中 为对角阵为对角

46、阵2021/6/16412024/8/2042 目录 上页 下页 返回 结束 44 样本主成分的导出样本主成分的导出用用 左乘上式,得左乘上式,得假定资料矩阵假定资料矩阵 为已标准化后的数据矩阵,则可由相关矩阵代为已标准化后的数据矩阵,则可由相关矩阵代替协方差矩阵,于是上式可表示为:替协方差矩阵,于是上式可表示为:即:2021/6/16422024/8/2043 目录 上页 下页 返回 结束 44 样本主成分的导出样本主成分的导出把上式全部展开得到把上式全部展开得到 个方程,这里只考虑在矩阵乘积中由第个方程,这里只考虑在矩阵乘积中由第一列得出的一列得出的 个方程:个方程:整理得到:2021/6

47、/16432024/8/2044 目录 上页 下页 返回 结束 44 样本主成分的导出样本主成分的导出为了得到上面齐次方程的非零解,根据线性方程组的理论知,为了得到上面齐次方程的非零解,根据线性方程组的理论知,要求系数矩阵行列式为要求系数矩阵行列式为0 0,即,即 即 对于对于 可以得到完全类似的方程,于是,所求的新的综可以得到完全类似的方程,于是,所求的新的综合变量(主成分)的方差合变量(主成分)的方差 ( )是)是 的的 个根,个根,为相关矩阵的特征值,相应的各个为相关矩阵的特征值,相应的各个 是其特征向量的分量。是其特征向量的分量。2021/6/1644 因为因为 为正定矩阵,所以其特征

48、根都是非负实数,将它们为正定矩阵,所以其特征根都是非负实数,将它们依大小顺序排列依大小顺序排列 ,其相应的特征向量记为,其相应的特征向量记为 ,则相对于,则相对于 的方差为:的方差为:同理有即对于即对于 有最大方差,有最大方差, 有次大方差,有次大方差,并且,协方差为,并且,协方差为:2024/8/2045 目录 上页 下页 返回 结束 44 样本主成分的导出样本主成分的导出 2021/6/16452024/8/2046 目录 上页 下页 返回 结束 44 样本主成分的导出样本主成分的导出 由由此此可可知知新新的的综综合合变变量量(主主成成分分) 彼彼此此不不相相关关,并并且且 的的方方差差为

49、为 ,则则 分分别别称称为为第第一一、第第二二、第第 个个主主成成分分。由由上上述述求求主主成成分分的的过过程程可可知知,主主成成分分在在几几何何图图形形中中的的方方向向实实际际上上就就是是 的的特特征征向向量量的的方方向向,关关于于主主成成分分分分析析的的几几何何意意义义我我们们还还要要在在下下一一节节详详细细讨讨论论;主主成成分分的的方方差差贡贡献献就就等等于于 的的相相应应特特征征值值。这这样样,我我们们在在利利用用样样本本数数据据求求解解主主成成分分的的过过程程实实际际上上就就转转化化为为求求相相关关阵阵或协方差阵的特征值和特征向量的过程。或协方差阵的特征值和特征向量的过程。 2021

50、/6/16462024/8/2047 目录 上页 下页 返回 结束 5 5 有关问题的讨论有关问题的讨论5.5.1 5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分关于由协方差矩阵或相关矩阵出发求解主成分 5.5.2 5.5.2 主成分分析不要求数据来自于正态总体主成分分析不要求数据来自于正态总体5.5.3 5.5.3 主成分分析与重叠信息主成分分析与重叠信息2021/6/16472024/8/2048 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分 由前面的讨论可知求解主成分的过程实际就是对矩阵结构进由前面的

51、讨论可知求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。在实际分析过程中,行分析的过程,也就是求解特征值的过程。在实际分析过程中,我们可以从原始数据的协方差矩阵出发,也可以从原始数据的我们可以从原始数据的协方差矩阵出发,也可以从原始数据的相关矩阵出发,其求主成分的过程是一致的。但是,从协方差相关矩阵出发,其求主成分的过程是一致的。但是,从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。下面我们举例说明这个问题,为而且这种差别有时候还很大。下面我们举例说明这个问题,为了叙述方便,

52、我们以二维数据为例。了叙述方便,我们以二维数据为例。【例例5.15.1】 假定我们研究某一经济问题共涉及两个指标:假定我们研究某一经济问题共涉及两个指标:产值和利税。其中产值以百万元计,利税以万元计,得原产值和利税。其中产值以百万元计,利税以万元计,得原始资料矩阵如下始资料矩阵如下: :2021/6/16482024/8/2049 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分可以得到,原始变量的协方差阵与相关阵分别为:可以得到,原始变量的协方差阵与相关阵分别为: 由协方差阵出发求解主成分,得到结果见表由协方差阵出

53、发求解主成分,得到结果见表5-1:2021/6/16492024/8/2050 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分表表5-15-1对应两特征值的标准正交特征向量为:对应两特征值的标准正交特征向量为:表表5-25-22021/6/16502024/8/2051 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分因此,所得的主成分的表达式为:因此,所得的主成分的表达式为:其中,第一主成分保留了原始变量其中,第一主成分保留了原始变量9

54、9.50%99.50%的信息,我们在分的信息,我们在分析中就可以把第二主成分舍掉,这样达到简化问题的目的。析中就可以把第二主成分舍掉,这样达到简化问题的目的。第一主成分与原始变量的因子负荷量分别为:第一主成分与原始变量的因子负荷量分别为:由此可知,第一主成分反应了利税指标由此可知,第一主成分反应了利税指标0.98710.9871的信息,方的信息,方差较大的利税指标对第一主成分起了主要作用。差较大的利税指标对第一主成分起了主要作用。2021/6/16512024/8/2052 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解

55、主成分由相关矩阵求解主成分的结果见表由相关矩阵求解主成分的结果见表5-3:表表5-35-3对应两特征值的标准正交特征向量为:对应两特征值的标准正交特征向量为:表表5-45-42021/6/16522024/8/2053 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分此时,所得主成分的表达式为:由从相关矩阵出发求解主成分的结果可知,第一主成分保留由从相关矩阵出发求解主成分的结果可知,第一主成分保留了原始变量了原始变量66.29%66.29%的信息,且产值指标与利税指标对第一主的信息,且产值指标与利税指标对第一主成分的

56、贡献是相同的。第一主成分分别集中了产值和利税成分的贡献是相同的。第一主成分分别集中了产值和利税 的信息。的信息。2021/6/16532024/8/2054 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分 由此可以看出,由协方差阵出发求解主成分所得的结果及由由此可以看出,由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同,所得主成分解相关阵出发求解主成分所得的结果有很大不同,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之释原始变量方差比例与主成分表达式均有显著差别,且

57、两者之间不存在简单的线性关系。正因有此差别,所以在处理实际问间不存在简单的线性关系。正因有此差别,所以在处理实际问题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵出发求解主成分的问题,为了更好的理解这种差别,我们对原出发求解主成分的问题,为了更好的理解这种差别,我们对原始变量转换成同一度量单位再求主成分。始变量转换成同一度量单位再求主成分。对产值与利税均以万元计,原始数据资料阵变为以下形式:对产值与利税均以万元计,原始数据资料阵变为以下形式:相关矩阵没有变化,协方差矩阵变为:2021/6/16542024/8/2055 目录 上页 下

58、页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分由此协方差矩阵出发重新求主成分,结果见表由此协方差矩阵出发重新求主成分,结果见表5-55-5: 表表5-55-5对应两特征值的标准正交特征向量见表见表5-65-6 :表表5-65-62021/6/16552024/8/2056 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分此时所得主成分的表达式为:其中,第一主成分保留了原始变量98.44%的信息,第一主成分 与原始变量的因子负荷量分别为:由此可知,第一主

59、成分保留原始变量的信息与主成分与原始变由此可知,第一主成分保留原始变量的信息与主成分与原始变量的关系式均与上两种情况有很大差别,那么,究竟哪种方法量的关系式均与上两种情况有很大差别,那么,究竟哪种方法得到的结果更为可信呢,在实际研究中我们应该作何选择呢?得到的结果更为可信呢,在实际研究中我们应该作何选择呢?2021/6/16562024/8/2057 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分 一般而言,对于度量单位不同的指标或是取值范围彼此差一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我

60、们不直接由其协方差矩阵出发进行主成分异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。比如,在对上市公司的财务分析,而应该考虑将数据标准化。比如,在对上市公司的财务状况进行分析时,常常会涉及到利润总额、市盈率、每股净利状况进行分析时,常常会涉及到利润总额、市盈率、每股净利率等指标,其中利润总额取值常常从几十万到上百万,市盈率率等指标,其中利润总额取值常常从几十万到上百万,市盈率取值一般从五到六、七十之间,而每股净利率在取值一般从五到六、七十之间,而每股净利率在1 1以下,不同指以下,不同指标取值范围相差很大,这时若是直接从协方差矩阵入手进行主标取值范围相差很大

61、,这时若是直接从协方差矩阵入手进行主成分分析,明显利润总额的作用将起到重要支配作用,而其它成分分析,明显利润总额的作用将起到重要支配作用,而其它两个指标的作用很难在主成分中体现出来,此时应该考虑对数两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。据进行标准化处理。2021/6/16572024/8/2058 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分 但是,对原始数据进行标准化处理后倾向于各个指标的作用但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。由上面的例子

62、我们看到,对于取值范在主成分的构成中相等。由上面的例子我们看到,对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为离散程度差异的过程,标准化后的各变量方差相等均为1 1,而实,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始际上方差也是对数据信息的重要概括形

63、式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来,对同后各变量在对主成分构成中的作用趋于相等。由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。解主成分为宜。2021/6/16582024/8/2059 目录 上页 下页 返回 结束 5.1 5.1 关于由协方差矩阵或相关矩阵关于由协方差矩阵或相关矩阵出发求解主成分出发求解主成分 对于从什么出发求解主成分,现在还没有一个定论,但对于从

64、什么出发求解主成分,现在还没有一个定论,但是我们应该看到,不考虑实际情况就对数据进行标准化处是我们应该看到,不考虑实际情况就对数据进行标准化处理或者直接从原始变量的相关矩阵出发求解主成分是有其理或者直接从原始变量的相关矩阵出发求解主成分是有其不足之处的,这一点一定要引起注意。建议在实际工作中不足之处的,这一点一定要引起注意。建议在实际工作中分别从不同角度出发求解主成分并研究其结果的差别,看分别从不同角度出发求解主成分并研究其结果的差别,看看是否发生明显差异且这种差异产生的原因在何处,以确看是否发生明显差异且这种差异产生的原因在何处,以确定用哪种结果更为可信。定用哪种结果更为可信。2021/6/

65、16592024/8/2060 目录 上页 下页 返回 结束 5.2 5.2 主成分分析不要求数据来自于正态总体主成分分析不要求数据来自于正态总体 由上面的讨论可知,无论是从原始变量协方差矩阵出发求解主成分,还由上面的讨论可知,无论是从原始变量协方差矩阵出发求解主成分,还是从相关矩阵出发求解主成分,均没有涉及到总体分布的问题。也就是说,是从相关矩阵出发求解主成分,均没有涉及到总体分布的问题。也就是说,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算

66、的技术主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协方差矩阵或是其相关矩阵均是非负定的,这样,我们就可以按照求解主成分方差矩阵或是其相关矩阵均是非负定的,这样,我们就可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据维数的目的。同时,由主成分分析的几何意义可以看到,对来自多元正态总维数的目的。同时,由主成分分析的几何意义可以看到,对来自多元正态总

67、体的数据,我们得到了合理的几何解释,即主成分就是按数据离散程度最大体的数据,我们得到了合理的几何解释,即主成分就是按数据离散程度最大的方向进行坐标轴旋转。的方向进行坐标轴旋转。 主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布情况。情况。2021/6/16602024/8/2061 目录 上页 下页 返回 结束 5.35.3主成分分析与重叠信息主成分分析与重叠信息 首先应当认识到主成分

68、分析方法适用于变量之间存在较强相关性的数据,首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于大部分变量的相关系数都小于0.30.3时,运用主成分分析不会取得很好的效果。时,运用主成分分析不会取得很好的效果。 很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分很多研究工作者在运用主成

69、分分析方法时,都或多或少存在着对主成分分析去除原始变量重叠信息的期望,这样,在实际工作中初始就可以把与分析去除原始变量重叠信息的期望,这样,在实际工作中初始就可以把与某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分进行深入分析。在对待重叠信息方面,生成的新的综合变量(主成分)是进行深入分析。在对待重叠信息方面,生成的新的综合变量(主成分)是有效剔除了原始变量中的重叠信息,还是仅仅按原来的模

70、式将原始信息中有效剔除了原始变量中的重叠信息,还是仅仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还值得讨论。的绝大部分用几个不相关的新变量表示出来,这一点还值得讨论。2021/6/16612024/8/2062 目录 上页 下页 返回 结束 5.35.3主成分分析与重叠信息主成分分析与重叠信息 为说明这个问题,我们有必要再回顾一下主成分的求解过为说明这个问题,我们有必要再回顾一下主成分的求解过程,我们仅就从协方差矩阵出发求主成分的过程予以说明,对程,我们仅就从协方差矩阵出发求主成分的过程予以说明,对相关阵有类似的情况。相关阵有类似的情况。 对于对于 维指标的情况,我

71、们得到其协方差矩阵如下:维指标的情况,我们得到其协方差矩阵如下:现在考虑一种极端情况,即有两个指标完全相关,不妨设第现在考虑一种极端情况,即有两个指标完全相关,不妨设第一个指标在进行主成分分析时考虑了两次。则协方差矩阵变一个指标在进行主成分分析时考虑了两次。则协方差矩阵变为:为:2021/6/16622024/8/2063 目录 上页 下页 返回 结束 5.5.35.5.3主成分分析与重叠信息主成分分析与重叠信息此时进行主成分分析的时候实际上是由此时进行主成分分析的时候实际上是由 维矩阵维矩阵 进进行。行。 的行列式的值为零但仍满足非负定,只不过其最小的特征的行列式的值为零但仍满足非负定,只不

72、过其最小的特征值为值为0 0,由,由 出发求解主成分,其方差总和不再是出发求解主成分,其方差总和不再是 而是变为而是变为 ,也就是说,第一个指标在分析过程,也就是说,第一个指标在分析过程中起到了加倍的作用,其重叠信息完全象其他指标提供的信息中起到了加倍的作用,其重叠信息完全象其他指标提供的信息一样在起作用。一样在起作用。2021/6/16632024/8/2064 目录 上页 下页 返回 结束 5.5.35.5.3主成分分析与重叠信息主成分分析与重叠信息 这样求得的主成分已经与没有第一个指标重叠信息时不一样这样求得的主成分已经与没有第一个指标重叠信息时不一样了,因为主成分方差的总和已经变为了,

73、因为主成分方差的总和已经变为 而不是而不是 ,每个主成分解释方差的比例也相应发生变化,而整个分析过,每个主成分解释方差的比例也相应发生变化,而整个分析过程没有对重叠信息作任何特殊处理。也就是说,由于对第一个程没有对重叠信息作任何特殊处理。也就是说,由于对第一个指标罗列了两次,其在生成的主成分构成中也起到了加倍的作指标罗列了两次,其在生成的主成分构成中也起到了加倍的作用。这一点是尤其应该引起注意的,这意味着主成分分析对重用。这一点是尤其应该引起注意的,这意味着主成分分析对重叠信息的剔除是无能为力的,同时主成分分析还损失了一部分叠信息的剔除是无能为力的,同时主成分分析还损失了一部分信息。对此文献信

74、息。对此文献44举例进行了说明。举例进行了说明。 这就告诉我们在实际工作中,在选取初始变量进入分析时应这就告诉我们在实际工作中,在选取初始变量进入分析时应该小心,对原始变量存在多重共线性的问题,在应用主成分分该小心,对原始变量存在多重共线性的问题,在应用主成分分析方法时一定要慎重。应该考虑所选取的初始变量是否合适,析方法时一定要慎重。应该考虑所选取的初始变量是否合适,是否真实地反映了事物的本来面目,如果是出于避免遗漏某些是否真实地反映了事物的本来面目,如果是出于避免遗漏某些信息而特意选取了过多的存在重叠信息的变量时,就要特别注信息而特意选取了过多的存在重叠信息的变量时,就要特别注意应用主成分分

75、析所得到的结果。意应用主成分分析所得到的结果。2021/6/16642024/8/2065 目录 上页 下页 返回 结束 5.5.35.5.3主成分分析与重叠信息主成分分析与重叠信息 如果所得到的样本协方差矩阵(或是相关阵)最小的特征如果所得到的样本协方差矩阵(或是相关阵)最小的特征值接近于值接近于0 0,那么就有,那么就有(5.11)进而推出(5.12) 这就意味着,中心化以后的原始变量之间存在着多重共线这就意味着,中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。因此,在进行主性,即原始变量存在着不可忽视的重叠信息。因此,在进行主成分分析得出协方差阵或是相关阵发

76、现最小特征根接近于零时,成分分析得出协方差阵或是相关阵发现最小特征根接近于零时,应该注意对主成分的解释,或者考虑对最初纳入分析的指标进应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选,由此可以看出,虽然主成分分析不能有效地剔除重叠行筛选,由此可以看出,虽然主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。我们减少分析中的失误是有帮助的。2021/6/16652024/8/2066 目录 上页 下页 返回 结束 5.6 5.6 主成分分析步骤及框图主成分分析步骤及框图

77、5.6.1 5.6.1 主成分分析步骤主成分分析步骤5.6.2 5.6.2 主成分分析的逻辑框图主成分分析的逻辑框图2021/6/16662024/8/2067 目录 上页 下页 返回 结束 5.6.1 5.6.1 主成分分析步骤主成分分析步骤 由上面讨论大体上已经可以明了进行主成分分析的步骤,由上面讨论大体上已经可以明了进行主成分分析的步骤,对此进行归纳如下:对此进行归纳如下:1.根据研究问题选取初始分析变量;根据研究问题选取初始分析变量;2.根据初始变量特性判断由协方差阵求主成分还是由相关阵根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;求主成分;3.求协差阵或相关阵的特征根与

78、相应标准特征向量;求协差阵或相关阵的特征根与相应标准特征向量;4.判断是否存在明显的多重共线性,若存在,则回到第一步;判断是否存在明显的多重共线性,若存在,则回到第一步;5.得到主成分的表达式并确定主成分个数,选取主成分;得到主成分的表达式并确定主成分个数,选取主成分;6.结合主成分对研究问题进行分析并深入研究。结合主成分对研究问题进行分析并深入研究。2021/6/16672024/8/2068 目录 上页 下页 返回 结束 5.6.2 5.6.2 主成分分析的逻辑框图主成分分析的逻辑框图 特征值特征值标准正交特征向量标准正交特征向量是是否否有有接接近近0的情况的情况是是其他处理其他处理否否主

79、成分主成分对主成分进行分析对主成分进行分析深入分析深入分析选择初始变量选择初始变量 度度量量或或取取值值范围相同?范围相同?是是否否(否)(否)对比对比分析相关阵分析相关阵分析协方差阵分析协方差阵 主成分分析主成分分析的逻辑框图见的逻辑框图见 图图5-3:2021/6/1668【例例5.25.2】 数据集数据集Employee dataEmployee data为为MidwesternMidwestern银行在银行在1969-1969-19711971年之间雇员情况的数据,共包括年之间雇员情况的数据,共包括474474条观测及如下条观测及如下1010个变量:个变量:IdId(观测号)、(观测号

80、)、GenderGender(性别)、(性别)、BdateBdate(出生日期)、(出生日期)、EducEduc(受教育程度(年数)、(受教育程度(年数)、JobcatJobcat(工作种类)、(工作种类)、SalarySalary(目(目前年薪)、前年薪)、SalbeginSalbegin(开始受聘时的年薪)、(开始受聘时的年薪)、JobtimeJobtime(受雇时(受雇时间(月)、间(月)、PrevexpPrevexp(受雇以前的工作时间(月)、(受雇以前的工作时间(月)、MinorityMinority(是否少数民族)。下面我们用主成分分析方法处理(是否少数民族)。下面我们用主成分分析

81、方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。该数据,以期用少数变量来描述该地区居民的雇佣情况。2024/8/2069 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 SPSS SPSS软件软件FACTORFACTOR模块提供了主成分分析的功能。下面先以模块提供了主成分分析的功能。下面先以SPSSSPSS软件包自带的数据软件包自带的数据Employee data.savEmployee data.sav为例介绍主成分分为例介绍主成分分析的上机实现方法,在析的上机实现方法,在SPSSSPSS软件的安装目录下可以找到该数据软件的安装目录下可以找到该数

82、据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。集;然后,我们举一个实际的例子介绍主成分分析的具体应用。2021/6/16692024/8/2070 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 进入进入SPSSSPSS软件,打开数据集软件,打开数据集Employee data.savEmployee data.sav。依次点。依次点选选AnalyzeData ReductionFactor.AnalyzeData ReductionFactor.进入进入Factor Factor AnalysisAnalysis(因子分析)对话框。(在(因子分

83、析)对话框。(在SPSSSPSS软件中,主成分分软件中,主成分分析与因子分析均在析与因子分析均在Factor AnalysisFactor Analysis模块中完成。此时,数据模块中完成。此时,数据集集Employee data.savEmployee data.sav中的变量名均已显示在左边的窗口中,中的变量名均已显示在左边的窗口中,依次选中变量依次选中变量educeduc、salarysalary、salbeginsalbegin、jobtimejobtime、prevexpprevexp并点向右的箭头按钮,这五个变量便进入并点向右的箭头按钮,这五个变量便进入variablesvaria

84、bles窗口(此窗口(此时若选中时若选中variablesvariables窗口中的变量,则窗口左侧的箭头按钮即窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OKOK按钮,即可得到如下输出结果按钮,即可得到如下输出结果5-15-1。2021/6/16702024/8/2071 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-15-1(2 2)输出结果输出结果5-15-1(1 1)2021/6/16712024/8/2072 目录 上页 下页 返回 结

85、束 5.75.7主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-15-1(3 3)2021/6/16722024/8/2073 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 其中其中CommunalitiesCommunalities给出了该次分析从每个原始变量中提取的信息,表给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用格下面的注示表明,该次分析是用Factor analysisFactor analysis模块默认的信息提取模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较大外,主成方法即

86、主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎包含了各个原始变量至少分几乎包含了各个原始变量至少90%90%的信息。的信息。Total Variance ExplainedTotal Variance Explained表则显示了各主成分解释原始变量总方差的情况,表则显示了各主成分解释原始变量总方差的情况,SPSSSPSS默认保留特征根大默认保留特征根大于于1 1的主成分,在本例中看到当保留的主成分,在本例中看到当保留3 3个主成分为宜,这个主成分为宜,这3 3个主成分集中了个主成分集中了原始原始5 5个变量信息的个变量信息的90.66%90.66%,可见效果是比较好的。实际

87、上,主成分解释,可见效果是比较好的。实际上,主成分解释总方差的百分比也可以由总方差的百分比也可以由CommunalitiesCommunalities表中计算得出,即表中计算得出,即 (0.896+0.916+0.999+0.968+0.7540.896+0.916+0.999+0.968+0.754)/5=90.66%/5=90.66%。Component MatrixComponent Matrix表中表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中中Current SalaryCurrent Salar

88、y一行为例,不妨用一行为例,不妨用 来表示各个来表示各个主成分,则由主成分,则由Component MatrixComponent Matrix表可以得到:表可以得到:标准化的标准化的salary salary 2021/6/16732024/8/2074 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 在上面的主成分分析中,在上面的主成分分析中,SPSSSPSS默认是从相关阵出发求解主成默认是从相关阵出发求解主成分,且默认保留特征根大于分,且默认保留特征根大于1 1的主成分,实际上,对主成分的个的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入

89、数我们可以自己确定,方法为:进入Factor AnalysisFactor Analysis对话框并对话框并选择好变量之后,点击选择好变量之后,点击ExtractionExtraction选项,在弹出的对话框中有选项,在弹出的对话框中有一个一个ExtractExtract选择框,默认是选择选择框,默认是选择Eigenvalues over 1Eigenvalues over 1也就是保也就是保留特征根大于留特征根大于1 1的主成分,我们可以输入别的数值来改变的主成分,我们可以输入别的数值来改变SPSSSPSS软软件保留特征根的大小;另外,还可以选择件保留特征根的大小;另外,还可以选择Numbe

90、r of FactorsNumber of Factors选选项直接确定主成分的个数。在实际进行主成分分析时可以先按项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。分的个数,用该方法进行设定后重新分析。 因为我们上面的结果是默认从相关阵出发得到的,而由相关因为我们上面的结果是默认从相关阵出发得到的,而由相关阵出发求得的主成分其性质有简单的表达形式,我们可以方便阵出发求得的主成分其性质有简单的表达形式,我们可以方便地加以验证。地加以验证。2021

91、/6/16742024/8/2075 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 这恰好与这恰好与Communalities表中三个主成分提取表中三个主成分提取salary变量的变量的信息相等。我们重做一遍主成分分析,此次将信息相等。我们重做一遍主成分分析,此次将5个主成分全个主成分全部保留,得到部保留,得到Component Matrix表如输出结果表如输出结果5-2: 由由Component Matrix中的结果可以得到中的结果可以得到:= =第一主成分的方差,这就验证了性质第一主成分的方差,这就验证了性质4 4。又有:。又有:2021/6/1675

92、2024/8/2076 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-25-2可以看到前三个主成分的相应结果与输出结果可以看到前三个主成分的相应结果与输出结果5-15-1中的对应部分结中的对应部分结果是一致的。对上表中结果有如下关系式:果是一致的。对上表中结果有如下关系式:2021/6/16762024/8/2077 目录 上页 下页 返回 结束 由由SPSS软件默认选项输出的结果,我们还不能得到用原始变软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,量表示出主成分的表达式, 这是因为这是因为Component M

93、atrix表中表中表示的是因子载荷矩阵而不是主成分的系数矩阵,因此要对表示的是因子载荷矩阵而不是主成分的系数矩阵,因此要对SPSS的因子分析模块运行结果进行调整,将的因子分析模块运行结果进行调整,将Component Matrix表中的第表中的第 列的每个元素分别除以第列的每个元素分别除以第 个特征根的平方个特征根的平方根根 就得到主成分分析的第就得到主成分分析的第 个主成分的系数,主成分的系数个主成分的系数,主成分的系数矩阵如下表所示矩阵如下表所示。 这就验证了性质这就验证了性质5。由此表还可以得到标准化原始变量用各主成。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以

94、分线性表示的精确的表达式,以仍以Current Salary为例,有:为例,有:标准化的salary 5.75.7主成分分析的上机实现主成分分析的上机实现 由由SPSS软件默认选项输出的结果,我们还不能得到用原始变软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,量表示出主成分的表达式, 这是因为这是因为Component Matrix表中表中表示的是因子载荷矩阵而不是主成分的系数矩阵,因此要对表示的是因子载荷矩阵而不是主成分的系数矩阵,因此要对SPSS的因子分析模块运行结果进行调整,将的因子分析模块运行结果进行调整,将Component Matrix表中的第表中的第 列的

95、每个元素分别除以第列的每个元素分别除以第 个特征根的平方个特征根的平方根根 就得到主成分分析的第就得到主成分分析的第 个主成分的系数,主成分的系数个主成分的系数,主成分的系数矩阵如下表所示矩阵如下表所示。这就验证了性质这就验证了性质5。由此表还可以得到标准化原始变量用各主成。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以分线性表示的精确的表达式,以仍以Current Salary为例,有:为例,有:标准化的salary 2021/6/16775.7主成分分析的上机实现 由此表可以写出各个主成分用标准化后的原始变量表示的表达式。Educational Level (yea

96、rs)0.53765-0.18898-0.01396Current Salary0.5974570.1018340.028523Beginning Salary0.582450.256952-0.07677Months since Hire0.043243-0.050930.994159Previous Experience (months)-0.11340.9409030.068887 目录 上页 下页 返回 结束 782024/8/202021/6/16785.7主成分分析的上机实现 目录 上页 下页 返回 结束 792024/8/202021/6/16792024/8/2080 目录 上

97、页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 【例例5.35.3】在企业经济效益的评价中,设计的指标在企业经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经济效益评往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到的工业企业的经济效益评价中,涉及到9 9项指标,项指标,原始数据见表原始数据见表5-75-7,即样品数,即样品数n=28n=28,变量数,变量数p=9

98、p=9。2021/6/16802024/8/2081 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 100固定资产固定资产原值实现值原值实现值(%)100元固定元固定资产原值资产原值实现利税实现利税(%)100元元资金实资金实现利税现利税(%)100元工业元工业总产值实总产值实现利税现利税(%)100元销售收元销售收入实现利税入实现利税(%)每吨标准煤每吨标准煤实现工业产实现工业产值(元)值(元)每千瓦时电每千瓦时电力实现工业力实现工业产值(元)产值(元)全员劳动生全员劳动生产率(元产率(元/人人.年)年)100元流动元流动资金实现产资金实现产值(元)值(

99、元)北京(北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(河北(3)94.817.217.9518.149.3711672.0312607322.2山西(山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.

100、7吉林(吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(安徽(12)110.7820.720.1218.696.614682.23125783

101、41.1福建(福建(13)122.7622.5219.9318.348.3522002.6312164301.2表表5-75-7100固定资产固定资产原值实现值原值实现值(%)100元固定元固定资产原值资产原值实现利税实现利税(%)100元元资金实资金实现利税现利税(%)100元工业元工业总产值实总产值实现利税现利税(%)100元销售收元销售收入实现利税入实现利税(%)每吨标准煤每吨标准煤实现工业产实现工业产值(元)值(元)每千瓦时电每千瓦时电力实现工业力实现工业产值(元)产值(元)全员劳动生全员劳动生产率(元产率(元/人人.年)年)100元流动元流动资金实现产资金实现产值(元)值(元)北京(

102、北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(河北(3)94.817.217.9518.149.3711672.0312607322.2山西(山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(吉

103、林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(安徽(12)110.7820.720.1218.696.614682.2312578341.1福

104、建(福建(13)122.7622.5219.9318.348.3522002.6312164301.2表表5-75-72021/6/16812024/8/2082 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 江西(江西(14)94.9414.714.1815.496.6916692.2410463274.4山东(山东(15)117.5821.9320.8918.659.118202.817829331.1河南(河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(湖北(17)103.9619.518.4818

105、.779.1618292.7515745308.9湖南(湖南(18)104.0321.4721.2820.638.7212721.9813161309广东(广东(19)136.4423.6420.8317.337.8529593.7116259334广西(广西(20)100.7222.0420.921.889.6717322.1312441296.4四川(四川(21)84.7314.3514.1716.937.9613102.3411703242.5贵州(贵州(22)59.0514.4814.3524.538.0910681.329710206.7云南(云南(23)73.7221.9122.7

106、29.729.3814471.9412517295.8陕西(陕西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肃(甘肃(25)59.6214.0716.2423.5911.349261.1313084246.8青海(青海(26)51.668.328.2616.117.0510551.319246176.49宁夏(宁夏(27)52.958.258.8215.576.588341.1210406245.4新疆(新疆(28)60.2911.2613.1418.688.3910412.910983266续表续表5-75-72021/6/16822024/

107、8/2083 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 0.4235231.3384051.5902821.6875562.2396340.4819710.9547461.2603710.0488050.9951991.4096491.6314530.6672281.0658731.1887581.8553941.1338441.200166-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.7400

108、46-1.79273-0.84655-0.56349-0.15927-1.06992-1.20067-1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.1868270.5837370.7710330.694243-0.3171-0.11989-2.27170.308902-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.359408-0.47334-0.22224-

109、0.62003-0.466192.0095833.0809562.9886561.3001862.0961332.7554331.6711712.9832842.1625242.4302940.9494850.548246-1.48989-0.582541.5557832.264781.6592991.9648512.4650251.5813351.002539-0.85187-0.041662.1944081.7530481.43671.5885780.2264810.1377740.199007-0.15562-1.02776-0.26257-0.25294-0.157670.818691

110、0.5038680.3503370.172033-0.24423-0.383850.5050410.156444-0.227320.126834-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.51352-0.337870.3839290.2814290.308322-0.16574-0.107890.1065570.3304330.725830.645294表表5-85-8首先标准化原始数据,标准化后的数据见表5-8。2021/6/16832024/8/2084 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主

111、成分分析的上机实现 -0.34774-0.25932-0.218380.206435-0.63406-0.43245-0.60092-0.38161-0.301460.068569-0.00238-0.03382-0.13536-0.085810.1159940.279260.375190.2603510.070190.2277050.3636890.335558-0.24771-0.4681-0.50881-0.059580.2620850.8206170.4811450.299804-0.49995-0.567831.3009631.2617850.4616730.695579-0.006

112、450.2942770.3097410.6520370.1018430.014276-0.35529-0.180720.043603-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.14036-0.30489-0.89101-0.97128-0.58868-0.620141.322972-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.2790930.5652822.636993-0.00486-0.28459-0.54975-0.167930.033199-0.53205-0.74635-0.

113、87284-0.62654-0.074770.013227-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81645-1.14239-1.30812-1.48472-0.80883-0.86219-0.69566-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-0.94257-0.96475-0.79192-0.15815-0

114、.36913-0.710340.432779-0.42603-0.48353续表续表5-85-82021/6/16842024/8/2085 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 将表将表5-8数据导入数据导入spss软件,依次点选软件,依次点选Analyze-Data Reduction-Factor进入进入Factor Analysis对话框。(在对话框。(在spss中,主成分分析与中,主成分分析与因子分析均在因子分析均在Factor Analysis模块中完成。)如图模块中完成。)如图5-4所示:所示:图图5-45-42021/6/16852

115、024/8/2086 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 此时,数据集此时,数据集5-5.sav中的变量名均显示在对话框左边的窗口中的变量名均显示在对话框左边的窗口中,选择变量中,选择变量x1,x2,x3,x4,x5,x6,x7,x8,x9进入进入variables窗口中,操作如图窗口中,操作如图5-5所示:所示:图图5-55-52021/6/16862024/8/2087 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 图图5-5点击点击descriptives按钮,在弹出的对话框中,在按钮,在弹出的对话框中

116、,在correlation matrix中选择中选择coefficients 。回到原对话框点击右侧的。回到原对话框点击右侧的Ok,即可得到输出结果即可得到输出结果5-4 和输出结果和输出结果5-5。2021/6/16872024/8/2088 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-45-42021/6/16882024/8/2089 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-55-5由输出结果由输出结果5-45-4看到,前面看到,前面2 2个主成分个主成分 、 的方

117、差和占全部方差的的方差和占全部方差的比例为比例为84.7%84.7%。我们就选取。我们就选取 为第一主成分,为第二主成分,且这为第一主成分,为第二主成分,且这两个主成分之方差和占全部方差的两个主成分之方差和占全部方差的84.7%84.7%,即基本上保留了原来指,即基本上保留了原来指标的信息,这样由原来的标的信息,这样由原来的9 9个指标转化为个指标转化为2 2个新指标,起到了降维个新指标,起到了降维的作用。的作用。2021/6/16892024/8/2090 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 SPSS软件得到软件得到因子载荷矩阵因子载荷矩阵如下

118、图如下图:2021/6/16905.7主成分分析的上机实现主成分分析的上机实现 对对SPSS的因子分析模块运行结果输出的的因子分析模块运行结果输出的Component Matrix的第的第 列的每个元素分别除以第列的每个元素分别除以第 个特征根的平方个特征根的平方根根 就得到主成分分析的第就得到主成分分析的第 个主成分的系数。结果如个主成分的系数。结果如下表:下表: 目录 上页 下页 返回 结束 912024/8/202021/6/16915.7主成分分析的上机实现主成分分析的上机实现 主成分1主成分2x10.3755586-0.25951x20.39339580.134374x30.3752

119、5560.265294x40.09353430.711329x50.1745590.491327x60.3721494-0.16496x70.3616165-0.2254x80.3513161-0.05236x90.3625942-0.12675 目录 上页 下页 返回 结束 922024/8/202021/6/169293 (5.13) 其中, 表示对原始变量标准化后的表示对原始变量标准化后的变量。变量。由上表得到前由上表得到前2 2个主成分,个主成分, , 的线性组合为:的线性组合为: 由上表得到前由上表得到前2 2个主成分,个主成分, , 的线性组合为:的线性组合为: 5.75.7主成分

120、分析的上机实现主成分分析的上机实现 其中, 表示对原始变量标准化后的表示对原始变量标准化后的变量。变量。由上表得到前由上表得到前2 2个主成分,个主成分, , 的线性组合为:的线性组合为: 2024/8/202021/6/16935.7主成分分析的上机实现主成分分析的上机实现 对所选主成分作经济解释。主成分分析的关键在于能对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。主成分是原根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组

121、合中,各变量的系数有来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。线性组合中个变这个主成分是某个原变量的属性的作用。线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识

122、,给出恰如其分的解释,的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。才能达到深刻分析经济成因的目的。 目录 上页 下页 返回 结束 942024/8/202021/6/16942024/8/2095 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 我们所取的例子中有我们所取的例子中有9 9个指标,这个指标,这9 9个指标有很强的依赖性,通个指标有很强的依赖性,通过主成分计算后,我们选择了过主成分计算后,我们选择了2 2个主成分,这两个主成分有着明显个主成分,这两个主成分有着明显的经济意义。第一主成分的线性组合中除了的经济

123、意义。第一主成分的线性组合中除了100100元工业总产值实现元工业总产值实现利税和利税和100100元销售收入实现利税外,其余变量的系数相当,所以第元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成是一主成分可看成是 的综合变量。可以解释为第的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是是“投入投入”与与“产出产出”之比。第一主成分所占信息总量为之比。第一主成分所占信息总量为68.3%68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,在我国目前的工业企业中,经济效益

124、首先反映在投入与产出之比上,其中固定资产所产生的经济效益更大一些。第二主成分是把工业生其中固定资产所产生的经济效益更大一些。第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了行比较,反映了“产出产出”对国家所作的贡献。这样,在抓企业经济对国家所作的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓住了这抓住了这2 2个方面,经济效益就一定会提高。个方面,经济效益就一定会提高。2021/6/16952024

125、/8/2096 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 通常为了分析各样品在主成分所反映的经济意义方面的情通常为了分析各样品在主成分所反映的经济意义方面的情况,还将标准化后的原始数据带入主成分表达式计算出各样况,还将标准化后的原始数据带入主成分表达式计算出各样品的主成分得分,由各样品的主成分得分(当主成分个数为品的主成分得分,由各样品的主成分得分(当主成分个数为2 2时)就可在二维空间中描出各样品的分布情况。时)就可在二维空间中描出各样品的分布情况。 将表将表5-85-8数据代入式(数据代入式(5.135.13)式,得到)式,得到2828个省、市、自

126、治个省、市、自治区的主成分得分,见表区的主成分得分,见表5-95-9。将这。将这2828各样品在平面直角坐标各样品在平面直角坐标系上描出来,进而可进行样品分类。主成分得分图见图系上描出来,进而可进行样品分类。主成分得分图见图5-65-6。2021/6/16962024/8/2097 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 表表5-95-9续表续表5-95-9样品号主成分得分第一主成分得分第二主成分得分12.81623982.425742123.735830.53648293-0.486829-0.0977494-2.021990.38457515-2

127、.976295-0.7324966-0.4180131.26764567-1.613557-0.8096318-1.0415440.692268397.03771961.3785883103.9442746-2.806731114.3684353-1.821382120.0722514-0.598317130.5124102-0.52311214-1.189847-1.252904150.9843842-0.36278316-1.0275450.0977472170.3548472-0.30025818-0.043540.3876575191.8189336-1.314742200.13749

128、790.718906321-1.409933-0.61027422-2.244181.318488923-0.0211562.400203424-1.624188-0.40611925-1.6450681.74861226-3.408248-0.59253327-3.068128-0.84212328-1.542767-0.2857612021/6/16972024/8/2098 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 图图5-65-6由图由图5-65-6可看出,分布在第一可看出,分布在第一象限的是上海、北京、天津、象限的是上海、北京、天津、广西这广

129、西这4 4个省,这四个省、市、个省,这四个省、市、自治区的经济效益在全国来说自治区的经济效益在全国来说属于比较好的,其中上海的经属于比较好的,其中上海的经济效益最好。分布在第四象限济效益最好。分布在第四象限的江苏、浙江、安徽、福建、的江苏、浙江、安徽、福建、山东、湖北、广东七个省、市、山东、湖北、广东七个省、市、自治区。因为第四象限的主要自治区。因为第四象限的主要特征是第一主成分,第一主成特征是第一主成分,第一主成分占信息总量的比重最大,所分占信息总量的比重最大,所以这七个省的经济效益也算比以这七个省的经济效益也算比较好。分布在第二象限和第三较好。分布在第二象限和第三象限的地区可属同一类,经济

130、象限的地区可属同一类,经济效益较差。效益较差。2021/6/16982024/8/2099 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 【例例5-45-4】 全国重点水泥企业经济效益综合评价例。全国重点水泥企业经济效益综合评价例。 利用主成分综合评价全国重点水泥企业的经济效益。利用主成分综合评价全国重点水泥企业的经济效益。原始数据(数据来自原始数据(数据来自19841984年中国统计年鉴)见表年中国统计年鉴)见表5-105-10。2021/6/16992024/8/20100 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机

131、实现 厂家编号及指标厂家编号及指标固定资产固定资产利税率利税率资金利资金利税率税率销售收入销售收入利税率利税率资金利润资金利润率率固定资产固定资产产值率产值率流动资流动资金周转金周转天数天数万元产万元产值能耗值能耗全员劳动生产全员劳动生产率率1 1琉璃河琉璃河16.6816.6826.7526.7531.8431.8418.418.453.2553.25555528.8328.831.751.752 2邯郸邯郸19.719.727.5627.5632.9432.9419.219.259.8259.82555532.9232.922.872.873 3大同大同15.215.223.423.432

132、.9832.9816.2416.2446.7846.78656541.6941.691.531.534 4哈尔滨哈尔滨7.297.298.978.9721.321.34.764.7634.3934.39626239.2839.281.631.635 5华新华新29.4529.4556.4956.4940.7440.7443.6843.6875.3275.32696926.6826.682.142.146 6湘乡湘乡32.9332.9342.7842.7847.9847.9833.8733.8766.4666.46505032.8732.872.62.67 7柳州柳州25.3925.3937.8

133、237.8236.7636.7627.5627.5668.1868.18636335.7935.792.432.438 8峨嵋峨嵋15.0515.0519.4919.4927.2127.2114.2114.216.136.13767635.7635.761.751.759 9耀县耀县19.8219.8228.7828.7833.4133.4120.1720.1759.2559.25717139.1339.131.831.831010永登永登21.1321.1335.235.239.1639.1626.5226.5252.4752.47626235.0835.081.731.731111工源工源

134、16.7516.7528.7228.7229.6229.6219.2319.2355.7655.76585830.0830.081.521.521212抚顺抚顺15.8315.8328.0328.0326.426.417.4317.4361.1961.19616132.7532.751.61.61313大连大连16.5316.5329.7329.7332.4932.4920.6320.6350.4150.41696937.5737.571.311.311414江南江南22.2422.2454.5954.5931.0531.05373767.9567.95636332.3332.331.571.

135、571515江油江油12.9212.9220.8220.8225.1225.1212.5412.5451.0751.07666639.1839.181.831.83表表5-105-102021/6/161002024/8/20101 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 将指标将指标“流动资金周转天数流动资金周转天数”和和“万元产值能耗万元产值能耗”取倒数,取倒数,经标准化后的数据取名为经标准化后的数据取名为“重点水泥厂重点水泥厂”。见表。见表5-11 表表5-115-11x1x2x3x4x5x6x7x8-0.37675-0.35795-0.113

136、56-0.36669-0.038791.1933471.426821-0.277120.088158-0.293880.050803-0.287320.3561571.1933470.2890352.253119-0.60458-0.622920.056779-0.581-0.42773-0.37328-1.3981-0.77413-1.82227-1.76431-1.68844-1.71997-1.172550.043644-1.00954-0.548221.5890961.9944361.2162772.1414281.287927-0.872792.164810.6039442.1248

137、150.9099992.2980751.1681420.7553152.2116560.3012351.643150.964090.5176720.6215860.5421040.858711-0.09974-0.35411.2590962021/6/161012024/8/20102 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 续表续表5-115-11x1x2x3x4x5x6x7x8-0.62767-0.9322-0.80537-0.7824-2.87137-1.6204-0.34791-0.277120.106631-0.197380.12103-0

138、.191090.321892-1.10143-0.98378-0.096390.3082950.3104340.9801930.438921-0.085680.043644-0.20479-0.3223-0.36597-0.20212-0.44527-0.284350.1120930.6666361.046255-0.79672-0.5076-0.2567-0.9264-0.462930.4385130.1917320.330666-0.61599-0.39984-0.12223-0.01644-0.14545-0.20952-0.87279-0.70361-1.271140.4791711.

139、844149-0.23161.4786810.844885-0.099740.435397-0.68377-0.95557-0.827-1.11766-0.94809-0.16984-0.50383-0.99239-0.096392021/6/161022024/8/20103 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 导入导入spss中计算出其相关阵中计算出其相关阵R如下,见表如下,见表5-12:表表5-125-122021/6/161032024/8/20104 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 在

140、确定主成分个数之前,与例5-3相同的spss操作,得出软件输出结果5-6如下:输出结果5-6(1)2021/6/161042024/8/20105 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 输出结果输出结果5-65-6(2 2)2021/6/161052024/8/20106 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 从上表及上图可看出,前从上表及上图可看出,前3个主成分个主成分解释了全部方差的解释了全部方差的87.085%,也即包,也即包含了原始数据的信息总量达到了含了原始数据的信息总量达到了87.085%,

141、这说明前三个主成分代表,这说明前三个主成分代表原来的原来的8个指标评价企业的经济效益个指标评价企业的经济效益已经有足够的把握。设这已经有足够的把握。设这3个主成分个主成分分别用分别用 来表示,按照例来表示,按照例5-3操作,操作,只不过在点击只不过在点击extraction按钮时,在按钮时,在number of factors中填写中填写3,即可得到,即可得到相关矩阵的前三个特征根的特征向量,相关矩阵的前三个特征根的特征向量,见表见表5-13:表表5-135-132021/6/161065.7主成分分析的上机实现主成分分析的上机实现 对表对表5-13的第的第 列的每个元素分别除以第列的每个元素

142、分别除以第 个特征根个特征根的平方根的平方根 就得到主成分分析的第就得到主成分分析的第 个主成分的系个主成分的系数。结果如下表:数。结果如下表:主成分1主成分2主成分3x10.434067-0.016487-0.26157x20.407766-0.3511230.040662x30.3909110.0722408-0.36959x40.420727-0.311078-0.04112x50.3568540.00022140.198903x60.1916310.6864530.377485x70.290517-0.0691410.701934x80.2588890.5463096-0.34187

143、目录 上页 下页 返回 结束 1072024/8/202021/6/161072024/8/20108 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 由上表,三个主成分的线性组合如下:由上表,三个主成分的线性组合如下:(5.14) 其中, 表示表示对原始原始变量量标准化后的准化后的变量。量。 主成分的经济意义由各线性组合中权数较大的几个指标的综合主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定。综合因子意义来确定。综合因子 中中 的系数远大于其他变量的系数,的系数远大于其他变量的系数,所以,所以, 主要是固定资产利税率、资金利税率、销售收入

144、利税率、主要是固定资产利税率、资金利税率、销售收入利税率、资金利润率这四个指标的综合反映,它代表着经济效益的盈利方资金利润率这四个指标的综合反映,它代表着经济效益的盈利方面,刻画了企业的盈利能力。因为由面,刻画了企业的盈利能力。因为由 来评价企业的经济效益已来评价企业的经济效益已有有60.76%60.76%的把握,所以这四项指标是反映企业经济效益的主要指的把握,所以这四项指标是反映企业经济效益的主要指标。标。 其中, 表示表示对原始原始变量量标准化后的准化后的变量。量。5.75.7主成分分析的上机实现主成分分析的上机实现 由上表,三个主成分的线性组合如下:由上表,三个主成分的线性组合如下:(5

145、.14) 主成分的经济意义由各线性组合中权数较大的几个指标的综合主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定。综合因子意义来确定。综合因子 中中 的系数远大于其他变量的系数,的系数远大于其他变量的系数,所以,所以, 主要是固定资产利税率、资金利税率、销售收入利税率、主要是固定资产利税率、资金利税率、销售收入利税率、资金利润率这四个指标的综合反映,它代表着经济效益的盈利方资金利润率这四个指标的综合反映,它代表着经济效益的盈利方面,刻画了企业的盈利能力。因为由面,刻画了企业的盈利能力。因为由 来评价企业的经济效益已来评价企业的经济效益已有有60.76%60.76%的把握,所以这

146、四项指标是反映企业经济效益的主要指的把握,所以这四项指标是反映企业经济效益的主要指标。标。 其中, 表示表示对原始原始变量量标准化后的准化后的变量。量。2021/6/161082024/8/20109 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 同时,从同时,从 的线性组合中可以看到前四个单项指标在综合因子的线性组合中可以看到前四个单项指标在综合因子 中所占的比重相当,这进而说明这四项指标用于考核评价企业经中所占的比重相当,这进而说明这四项指标用于考核评价企业经济效益每一项都是必不可少的。济效益每一项都是必不可少的。 主要是流动资金周转天数和全主要是流动

147、资金周转天数和全员劳动生产率的综合反映,它标志着企业的资金和人力的利用水员劳动生产率的综合反映,它标志着企业的资金和人力的利用水平,以资金和个人的利用率作用于企业的经济效益。资金和人力平,以资金和个人的利用率作用于企业的经济效益。资金和人力利用得好,劳动生产率就提高,资金周转就加快,从而提高企业利用得好,劳动生产率就提高,资金周转就加快,从而提高企业经济效益。经济效益。 主要反映万元产值能耗,从改进生产工艺、勤俭节主要反映万元产值能耗,从改进生产工艺、勤俭节约方面作用于企业经济效益。这三个综合因子从三个影响企业经约方面作用于企业经济效益。这三个综合因子从三个影响企业经济效益的主要方面刻画企业经

148、济效益,用它们来考核企业经济效济效益的主要方面刻画企业经济效益,用它们来考核企业经济效益具有益具有87.085%87.085%的可靠性。的可靠性。2021/6/161092024/8/20110 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 关于用样本主成分得分进行排序问题,目前常用的方法是关于用样本主成分得分进行排序问题,目前常用的方法是利用主成分利用主成分 做线性组合,并以每个主成分做线性组合,并以每个主成分 的方差的方差贡献率贡献率 作为权数构造一个综合评价函数:作为权数构造一个综合评价函数: 依据计算出的依据计算出的 值大小进行排序或分类划级。这一

149、方法目值大小进行排序或分类划级。这一方法目前在一些专业文献中都有应用和介绍,但在实践中经常看前在一些专业文献中都有应用和介绍,但在实践中经常看到它的应用效果并不理想,一直以来存在较大争议,主要到它的应用效果并不理想,一直以来存在较大争议,主要原因是产生主成分的特征向量的各级分量符号不一致,很原因是产生主成分的特征向量的各级分量符号不一致,很难进行排序评价。难进行排序评价。 2021/6/161105.75.7主成分分析的上机实现主成分分析的上机实现 因此我们给出下面的建议:当第一主成分的因此我们给出下面的建议:当第一主成分的方差贡献率方差贡献率比较大时比较大时(如如60%以上以上)用第一主成分

150、作评价指数,理由是:用第一主成分作评价指数,理由是:第一主成分与原变量综合相关度最强,另一方面由于第一主第一主成分与原变量综合相关度最强,另一方面由于第一主成分对应于数据变异最大的方向也就是使数据信息损失最小,成分对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但还须注意当主成分系数全为正精度最高的一维综合变量。但还须注意当主成分系数全为正的时候,也就是要求所有评价指标变量都是正相关的时候,的时候,也就是要求所有评价指标变量都是正相关的时候,第一主成分才可以用来进行排序。如果系数中有正有负或近第一主成分才可以用来进行排序。如果系数中有正有负或近似为零,说明第一主成分是

151、无序指数,不能用来作为排序评似为零,说明第一主成分是无序指数,不能用来作为排序评价指数。而如果第一主成分系数全为正,则第二、三,价指数。而如果第一主成分系数全为正,则第二、三,主主成分由于与第一主成分正交,系数肯定有正有负,因而一般成分由于与第一主成分正交,系数肯定有正有负,因而一般来说均为无序指数,不能用来作为排序评价指数。来说均为无序指数,不能用来作为排序评价指数。2024/8/20 目录 上页 下页 返回 结束 1112021/6/161115.75.7主成分分析的上机实现主成分分析的上机实现 依据第一主成分依据第一主成分 得分对各个水泥得分对各个水泥 企业经济效益做企业经济效益做 综合

152、评价,将标综合评价,将标 准化后的原始数准化后的原始数 据代入(据代入(5.145.14) 的第一个表达式的第一个表达式 中,计算出各样中,计算出各样 品的第一主成分品的第一主成分 得分并排名,见得分并排名,见 表表5-145-14。名次名次琉璃河琉璃河0.0494517邯邯 郸郸0.840475大大 同同-1.5694312哈尔滨哈尔滨-3.7393715华华 新新3.9570571湘湘 乡乡3.8894612柳柳 州州1.6110514峨峨 嵋嵋-2.8045814耀耀 县县-0.474259永永 登登0.6630816工工 源源-0.269528抚抚 顺顺-0.7521110大大 连连-

153、1.0665411江江 南南1.7234243江江 油油-2.0582113表表5-145-14 目录 上页 下页 返回 结束 1122024/8/202021/6/161122024/8/20113 目录 上页 下页 返回 结束 5.75.7主成分分析的上机实现主成分分析的上机实现 从表从表5-145-14的经济效益得分中,有许多企业的得分是负数,的经济效益得分中,有许多企业的得分是负数,但并不表明企业的经济效益就为负,这里的正负仅表示该企但并不表明企业的经济效益就为负,这里的正负仅表示该企业与平均水平的位置关系,企业的经济效益的平均水平算作业与平均水平的位置关系,企业的经济效益的平均水平算

154、作零点,这时我们在整个过程中将数据标准化的结果。零点,这时我们在整个过程中将数据标准化的结果。 从表从表5-145-14可看到,华新水泥厂的综合经济效益最好,是可看到,华新水泥厂的综合经济效益最好,是第一名;湘乡水泥厂的综合经济效益为第二名;第一名;湘乡水泥厂的综合经济效益为第二名;,哈尔,哈尔滨水泥厂的综合经济效益最差。滨水泥厂的综合经济效益最差。 虽然此处可以根据各上市公司的主成分得分对各公司运虽然此处可以根据各上市公司的主成分得分对各公司运营情况进行一些比较分析或分类研究,但因此处主成分的意营情况进行一些比较分析或分类研究,但因此处主成分的意义不十分明朗,我们把更深入的分析放到下一章,以期得到义不十分明朗,我们把更深入的分析放到下一章,以期得到更合理,更容易解释的结果。更合理,更容易解释的结果。2021/6/16113 结束语结束语若有不当之处,请指正,谢谢!若有不当之处,请指正,谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号