第04章主成分分析和典型相关分析.

上传人:今*** 文档编号:107186106 上传时间:2019-10-18 格式:PPT 页数:127 大小:3.45MB
返回 下载 相关 举报
第04章主成分分析和典型相关分析._第1页
第1页 / 共127页
第04章主成分分析和典型相关分析._第2页
第2页 / 共127页
第04章主成分分析和典型相关分析._第3页
第3页 / 共127页
第04章主成分分析和典型相关分析._第4页
第4页 / 共127页
第04章主成分分析和典型相关分析._第5页
第5页 / 共127页
点击查看更多>>
资源描述

《第04章主成分分析和典型相关分析.》由会员分享,可在线阅读,更多相关《第04章主成分分析和典型相关分析.(127页珍藏版)》请在金锄头文库上搜索。

1、主成分分析和典型相关分析,第4章,引言,变量太多会增加计算的复杂性 变量太多给分析问题和解释问题带来困难 变量提供的信息在一定程度上会有所重叠 用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,降维的思想来处理高维数据。,4.1 主成分分析,主要目的: 对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低变量的维数,即用较少的“新变量”代替原来的各变量。,4.1.2 总体主成分,设 为某实际问题所涉及的 个随机变量。记 ,其协方差矩阵为 它是一个 阶非负定矩阵。设 为 个常数向量,考虑如下线性组合:,总体主成分,易知有 我们希望用 代替原来 个变量 ,这就要求 尽可能

2、地反映原来 个变量的信息。这里用方差来度量。即要求 达到最大。 对任意常数 ,若取 ,则 。,总体主成分,因此,必须对 加以限制,否则 无界。最方便的限制是要求 具有单位长度,即我们在约束条件 之下,求 使 达到最大,由此 所确定的随机变量 称为 的第一主成分。,总体主成分,如果第一主成分 还不足以反映原变量的信息,进一步求 。 为了使 和 反映原变量的信息不相重叠,要求二者不相关,在约束条件 求 使 达到最大。 第二主成分: 依次类推,总体主成分,一般地,在约束条件 及 下,求 使 达到最大,由此 所确定的 称为 的第 个主成分。,总体主成分的求法,设 是 的协方差矩阵, 的特征值及相应的正

3、交单位化特征向量分别为 及 ,则 的第 个主成分为 其中 。易见: 事实上,令 ,则 为一正交矩阵,且,总体主成分的求法,设 为X的第一主成分,其中 。令 则 并且当 时,等号成立。这时,总体主成分的求法,在约束条件 下,当 时, 达到最大,且 设 为X的第二主成分,则有 即有 且,总体主成分的求法,令 则有 从而 并且当 ,即 时, 。由此知,当 时,满足 , 且使 达到最大。依此类推.,总体主成分的求法,以上结果告诉我们,求X的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的 的线性组合分别为X的第一、第二、直至第

4、p个主成分,而各主成分的方差等于相应的特征值。,总体主成分的性质,主成分的协方差矩阵及总方差 记 为主成分向量,则 ,其中 ,Y的协方差矩阵为 由此得主成分的总方差为,总体主成分的性质,主成分分析是把p个原始变量 的总方差分解成p个不相关变量 的方差之和。 第 个主成分 的贡献率: 描述了第k个主成分提取的信息占总信息的份额。,总体主成分的性质,前 个主成分的累计贡献率: 表明前m个主成分综合提供信息的能力。 实际应用中,通常选取mp,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分代替原始变量不但是变量维数降低,而且也不致于损失原始变量中的太多信息。,总体主成

5、分的性质,主成分 与变量 的相关系数 由于 ,故 ,从而 由此可得 与 的相关系数为 它给出了主成分 与原始变量 的关联性的度量。,各主成分与原始变量间的相关系数,实际应用中,一般只对前m个主成分感兴趣,因此只关心 与 的相关系数,即表中前m行的各个值。,例4.1,设随机变量 的协方差矩阵为 求 的各主成分。 解 易求得 的特征值及相应的正交单位化特征向量分别为,例4.1,因此 的主成分为 如果我们只取第一主成分,则贡献率为 若取前两个主成分,则累计贡献率为,例 4.1,进一步可求得前两个主成分与各原始变量的相关系数 同理,可求得 即 与 , 高度相关而与 不相关; 与 以概率1呈完全线性关系

6、。,标准化变量的主成分,在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用 求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令 其中 。,标准化变量的主成分,这时, 的协方差矩阵便是 的相关矩阵 ,其中 利用 的相关矩阵 作主成分分析,可以得到如下结论:,标准化变量的主成分,设 为标准化的随机向量,其协方差矩阵(即 的相关矩阵)为 ,则 的第 个主成分为 并且 其中 为 的特征值, 为相应于特征值 的正交单位化特征向量 。这时,第 个

7、主成分的贡献率为 ,前 个主成分的累计贡献率为 , 与 的相关系数为,例 4.2,设 的协方差矩阵为 相应的相关矩阵为 分别从 和 出发,作主成分分析。,例 4.2,解 如果从 出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为 的两个主成分分别为 第一主成分的贡献率为,例 4.2,与 , 的相关系数分别是 我们可以看到,由于 的方差很大,它完全控制了提取信息量占99.2的第一主成分( 在 中的系数为0.999),淹没了变量 的作用。 如果从 出发求主成分,可求得其特征值和相应的正交单位化特征向量为,例 4.2,的两个主成分分别为 此时,第一个主成分的贡献率有所下降,为 注:当涉及的

8、各变量的变化范围差异较大时,从 出发求主成分比较合理。,4.1.3 样本主成分,设 为取自 的一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为 其中,样本主成分,设 是样本协方差矩阵,其特征值为 相应的正交单位化特征向量 这里 ,则第 个样本主成分为 其中 为X的任一观测值。当依次代入X的n个观测值 时,便得到第i个样本主成分 的n个观测值 ,我们称为第i个主成分的得分。,样本主成分,第 个样本主成分的贡献率为 , 前 个样本主成分的累计贡献率为 。,样本主成分,同样,为了消除量纲的影响,我们可以对样本进行标准化,即令 则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵 。由

9、 出发所求得的样本主成分称为标准化样本主成分。只要求出 的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为 。,样本主成分,实际应用中,将样本 代入各主成分 中,可得到各样本主成分的观测值,原变量,主成分,1 2,样本主成分,实际应用中,选取前m(mp)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个主成分的得分代替原始数据,这样便可以达到降低原始数据维数的目的,同时也不致损失原始数据的太多信息。,PRINCOMP过程,可对输入资料文件做主成分分析 输入资料文件可以是原始数据、相关系数矩阵或样本协方差矩阵等 输出包括相关矩阵或

10、协方差矩阵、特征值、特征向量及标准化的主成分值等,主要语句,Proc princomp 选项串; var 变量名称串; partial 变量名称串; freq 变量名称串; weight 变量名称串; by 变量名称串; run;,PROC PRINCOMP,Proc princomp options; data=sas data set:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(在数据集名称后加上typecorr)或协方差矩阵(在数据集名称后加上typecov)。若省略数据集选项,则自动使用最新建立的sas数据集。,PROC PRINCOMP,

11、Proc princomp options; outsas data set:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。 outstatsas data set:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出sas数据集。,PROC PRINCOMP,Proc princomp options; covariance(或COV):要求从协方差矩阵出发作主成分分析。若省略此选项,则从相关矩阵出发进行分析。除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。 Nn:指定

12、要计算的主成分个数“n”。其默认值为参与分析的变量个数。,PROC PRINCOMP,Proc princomp options; prefixname:规定各主成分的名称的前缀。省略此句则sas系统自动赋予各主成分名称分别为prin1,prin2,。若“nameA”,则各主成分名称分别为A1,A2,。前缀的字符个数加上后面数字位数应不超过8个字符。,例4.3,对10名男中学生的身高( )、胸围( )和体重( )进行测量,得数据如表。对其作主成分分析。,例4.3,Data students; input x1 x2 x3; cards; 149.5 69.5 38.5 157.7 79.0 5

13、3.5 ; proc princomp cov; var x1-x3; run;,例4.3,由上面的sas proc princomp过程,可以算得样本协方差矩阵为 S的特征值与单位正交化特征向量分别为,例4.3,各样本主成分的贡献率分别为: 前两个主成分的累计贡献率已达98.855,实际应用中可只取前两个主成分,即,例 4.3,如果从相关矩阵出发,SPSS,SPSS,1.Analyze Data Reduction Factor Analysis, 弹出 Factor Analysis 对话框; 2.把变量 选入Variables 框; 3. Descriptives: Correlatio

14、n Matrix 框组中选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框; 4.点击“OK”,因子分析,主成分分析的推广和发展,多元统计分析方法中降维的一种方法,是研究相关阵或协方差阵的内在的依赖关系,将多个变量进行综合,并用少数几个因子来再现原始变量和因子之间的相关关系的一种统计方法。,例 4.4,某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表。试进行主成分分析。,例4.4,data lirun; input x1-x8; cards; 40.4 24.7 7.2 6.1 8.3 8.7 2.442 20.0

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号