M-S 第3章 主成分分析课件

上传人:我*** 文档编号:145146542 上传时间:2020-09-17 格式:PPT 页数:47 大小:268.50KB
返回 下载 相关 举报
M-S 第3章 主成分分析课件_第1页
第1页 / 共47页
M-S 第3章 主成分分析课件_第2页
第2页 / 共47页
M-S 第3章 主成分分析课件_第3页
第3页 / 共47页
M-S 第3章 主成分分析课件_第4页
第4页 / 共47页
M-S 第3章 主成分分析课件_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《M-S 第3章 主成分分析课件》由会员分享,可在线阅读,更多相关《M-S 第3章 主成分分析课件(47页珍藏版)》请在金锄头文库上搜索。

1、主成分分析,汇报什么?,假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。 如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?,需要高度概括,在如此多的变量之中,有很多是相关的。 人们希望能够找出它们的少数“代表”来对它们进行描述。 需要把这种有很多变量的数据进行高度概括。,本章介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor a

2、nalysis)。 实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。,10.1 主成分分析,成绩数据(student.txt),100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,SPSS数据形式,从本例可能提出的问题,目前的问题是,能否把这个数据的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能否利用找到的综合变量来对学生排序或据此进行其他分析呢?,空间的点,例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,由横坐标和纵坐标所代表; 每个观

3、测值都有相应于这两个坐标轴的两个坐标值;,空间的点,如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少; 在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。,椭圆的长短轴,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。,椭圆的长短轴,如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍

4、去次要的一维),降维就完成了。 椭圆的长短轴相差得越大,降维也越有道理。,主轴和主成分,多维变量的情况和二维类似,也有高维的椭球,只不过不那么直观罢了。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。,主轴和主成分,正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主轴。 和二维情况类似,高维椭球的主轴也是互相垂直的。 这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。,主成分之选取,选择越少的主成分,降维就越好。什么是标准呢? 那就是这些被选的主成分所代表的主轴的长度之

5、和占了主轴长度总和的大部分。 有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而定。,主成分分析的数学,要寻找方差最大的方向。即,使向量X的线性组合aX的方差最大的方向a. 而Var(aX)=aCov(X)a;由于Cov(X)未知;于是用X的样本相关阵R来近似. 要寻找向量a使得aRa最大(注意相关阵和协方差阵差一个常数) 这涉及相关阵和特征值。回顾一下吧! 选择几个主成分呢?要看“贡献率.”,对于我们的数据,SPSS输出为,这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)

6、。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。,特征值的贡献还可以从SPSS的所谓碎石图看出,怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。,如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分为,这些系数称为主成分载荷(l

7、oading),它表示主成分和相应的原先变量的相关系数。,比如y1表示式中x1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。,可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。,该图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可

8、以识别的。,基本操作,AnalyzeData ReductionFactor 把需要分析变量选入Variables Descriptives:Initial Solution Correlation Matrix:coefficients Extraction: Method:Principal Components Analyze:从相关阵出发或从协差阵出发 Display:unrotated factor solution 画碎石图就选Scree plot Extract:可以按照特征值的大小选主成分,也可以选定主成分的数目;,SPSS实现(因子分析与主成分分析),在Rotation:根据

9、需要选择Loading plot(以输出载荷图) score:save as variables,输出主成分得分 选择Display factor score coefficient matrix; 输出主成分得分系数矩阵,实例分析,公司雇员数据,对以下5个变量: 对受教育年限,目前年薪,开始受聘 时年薪,工作时间,工作经验 进行主成分分析.,例1:,主成分概念首先由 Karl Parson在1901年引进,当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量。 在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂

10、性。 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。,主成分分析,主成分分析是考察多个数值变量间相关性的一种多元统计方法,它是研究如何通过少数几个主成分来解释多变量的方差协方差结构。 导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关。,主成分分析,数学原理,对原有变量作坐标变换,,如果z1=u1x满足 则称z1为x的第一主成分。 若z1不足以代表原变量所包含的信息,就考虑采用z2。 Z2满足 Z2为第二主成分,数学原理,数学原理,几何解释,x1,x2,y1,y2,旋

11、转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量y2也损失不多的信息。 Y1与y2除起了浓缩作用外,还具有不相关性。 Y1称为第一主成分,y2称为第二主成分。,几何解释,量纲对于主成分分析的影响及消除方法,对数据进行标准化处理,以使每一个变量的均值为0,方差为1。,数据标准化后,总体的协方差矩阵与总体的相关系数相等.,量纲对于主成分分析的影响及消除方法,样本主成分,变量X 样本协方差为总体协方差的无偏估计 相关矩阵R为总体相关矩阵的估计,重要指标,主成分的方差贡献率: 这个值越大,表明第i主

12、成分综合信息的能力越强。 主成分的累计贡献率 表明取前几个主成分基本包含了全部测量指标所具有信息的百分率。,重要指标,因子负荷量,成分个数的选取,1.累积贡献率达到85%以上 2.根据特征根的变化来确定,主成分分析的基本步骤,1.将原始数据进行标准化处理 2.计算样本相关矩阵R 3.求相关矩阵R的特征值与特征向量,并计算贡献率 4.选择主成分 5.对所选主成分做解释,基本操作,AnalyzeData ReductionFactor 把需要分析变量选入Variables Descriptives:Initial Solution Correlation Matrix:coefficients E

13、xtraction: Method:Principal Components Analyze:从相关阵出发或从协差阵出发 Display:unrotated factor solution 画碎石图就选Scree plot Extract:可以按照特征值的大小选主成分,也可以选定主成分的数目;,SPSS实现(因子分析与主成分分析),在Rotation:根据需要选择Loading plot(以输出载荷图) score:save as variables,输出主成分得分 选择Display factor score coefficient matrix; 输出主成分得分系数矩阵,实例分析,公司雇员

14、数据,对以下5个变量: 对受教育年限,目前年薪,开始受聘 时年薪,工作时间,工作经验 进行主成分分析.,例1:,在经济指标综合评价中的应用,核心:通过主成分分析,选择m个主成分y1,y2,ym,以每个主成分yi的方差贡献率i作为权数,构造综合评价函数, 其中 为第i个主成分的得分(求出主成分的表达式后,将标准化后的数据再代入yi中) 当把m个主成分得分代入F函数后,即可得到每个样本的综合评价函数得分,以得分的大小排序,可排列出每个样本的经济效益的名次。,一、选用一个主成分的排序 二、选用多个主成分的排序,在经济指标综合评价中的应用,实例分析,.,例2: 各地区平均年收入数据,进行主成分分析. 并根据主成分得分对各地区平均年收入 进行排序,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号