第4章 主成分分析

上传人:aa****6 文档编号:50999653 上传时间:2018-08-12 格式:PPT 页数:66 大小:1.43MB
返回 下载 相关 举报
第4章 主成分分析_第1页
第1页 / 共66页
第4章 主成分分析_第2页
第2页 / 共66页
第4章 主成分分析_第3页
第3页 / 共66页
第4章 主成分分析_第4页
第4页 / 共66页
第4章 主成分分析_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《第4章 主成分分析》由会员分享,可在线阅读,更多相关《第4章 主成分分析(66页珍藏版)》请在金锄头文库上搜索。

1、主成分分析南通大学理学院引 言实际问题中,为了尽可能完整的获得相关信 息,往往要考虑众多的变量,这虽然避免了主要 信息的遗漏,但也存在一定的不足: 变量太多会增加计算的复杂性 变量太多给分析问题和解释问题带来困难 变量提供的信息在一定程度上会有所重叠主成分分析:在不致损失原变量太多信息的 条件下,尽可能降低原变量的维数。即用为数较 少的互不相关的新变量反映原变量所提供的绝大 部分信息。主成分分析即构造原变量的一系列线性组合,使其方差 达到最大。总体主成分的定义 设 为某实际问题所涉及的 个随机变量。 记随机向量 ,其协方差矩阵为它是一个 阶非负定矩阵。设 为 维常数向量,考虑如下线性组合:总体

2、主成分 易知:我们希望用 代替原来 个变量 ,这就 要求 尽可能地反映原来 个变量的信息。这里用 方差来度量。即要求 达到最大。对任意常数 ,若取 则 。总体主成分因此,必须对 加以限制,否则 无界。 最方便的限制是要求 具有单位长度,即我们 在约束条件 之下,求 使 达到 最大,因此 所确定的随机变量 称为的第一主成分。 总体主成分 如果第一主成分 还不足以反映原变量的信息,进一 步求 。 在约束条件 之下求 使 方差达到最大。第二主成分:依次类推得第k主成分注:按上述方法,我们最多可以构造p个方差大于零的 主成分!总体主成分的求法 设 是 的协方差矩阵, 的特征值及相 应的正交单位化特征向

3、量分别为 及 ,则 的第 个主成分为其中 。易见:事实上,令 ,则 为一正交矩阵,且总体主成分的求法 设 为X的第一主成分,其中 .令则当 时,等号成立。这时 总体主成分的求法 在约束条件 下,当 时, 达到最大,且设 为X的第二主成分,则有即有 且 总体主成分的求法 令则有从而并且当 ,即 时, 。所以 当 时,满足 , 且使 达到最大。总体主成分的性质 主成分的协方差矩阵及总方差记 为主成分向量,则 ,其中,且由此得主成分的方差为总体主成分的性质 第 个主成分 的贡献率: 前 个主成分的累计贡献率:例4.1 设随机变量 的协方差矩阵为求 的各主成分。解:易求得 的特征值及相应的正交单位化特

4、征向量 分别为例4.1 因此 的主成分为如果我们只取第一主成分,则贡献率为若取前两个主成分,则累计贡献率为例4.1 进一步可求得前两个主成分与各原始变量的相关系数同理,可求得即 与 , 高度相关而与 不相关; 与 以概率1 呈完全线性关系。 data examp4_1 (type=cov); _type_=cov; input _name_ $ x1-x3; cards; x1 1 -2 0 x2 -2 5 0 x3 0 0 2 ; run; proc princomp data=examp4_1 cov outstat=bb; var x1-x3; run; proc print data=

5、bb; run;例题 4.1标准化变量的主成分 在实际问题中,不同的变量往往有不同的量纲,由于 不同的量纲会引起各变量取值的分散程度差异较大, 这时变量的总方差则主要受方差较大的变量的控制。 若用原变量的协方差阵求主成分,则优先照顾了方差 较大的变量,会造成很不合理的结果。为了消除由于 量纲的不同带来的影响,常采用变量标准化的方法, 即令 其中 。标准化变量的主成分 这时, 的协方差矩阵便是的相关矩阵 ,其中利用 的相关矩阵 作主成分分析,可以得到如 下结论:标准化变量的主成分 设 为标准化的随机向量,其协方差矩 阵(即 的相关矩阵)为 ,则 的第 个主成分为并且其中 为 的特征值, 为相应

6、于特征值 的正交单位化特征向量 。这时, 第 个主成分的贡献率为 ,前 个主成分的累计 贡献率为 , 与 的相关系数为例4.2 设 的协方差矩阵为相应的相关矩阵为 分别从 和 出发,作主成分分析。例4.2 解: 如果从 出发作主成分分析,易求得其特征值和 相应的正交单位化特征向量为的两个主成分分别为第一主成分的贡献率为例4.2 与 , 的相关系数分别是我们可以看到,由于 的方差很大,它完全控 制了提取信息量占99.2的第一主成分( 在 中的 系数为0.999),淹没了变量 的作用。 如果从 出发求主成分, 可求得其特征值和相应的 正交单位化特征向量为例4.2 的两个主成分分别为此时,第一个主成

7、分的贡献率有所下降,为注:当涉及的各变量的变化范围差异较大时,从相关 矩阵 出发求主成分比较合理。 data examp4_2 (type=cov); _type_=COV; input _name_ $ x1 x2; cards; x1 1 4 x2 4 100 ; run; proc princomp data=examp4_2 cov; var x1 x2; run; proc princomp data=examp4_2; var x1 x2; run;例4.2样本主成分 设 为取自 的一个容量为 的简单随机样 本,则样本协方差矩阵及样本相关矩阵分别为其中样本主成分 设 是样本协方差矩

8、阵,其特征值为相应的正交单位化特征向量为 ,这里 。则第 个样本主成分为其中 为X的任一观测值。当依次代入X 的n个观测值 时,便得到 第k个样本主成分 的n个观测值 , 我们称为第k个主成分的得分。有样本主成分 第 个样本主成分的贡献率定义为 ,前 个样本主成分的累计贡献率定义为 。 样本主成分 同样,为了消除量纲的影响,我们可以对样本进行标 准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相 关矩阵 。由 出发所求得的样本主成分称为标准化 样本主成分。只要求出 的特征值及相应的正交单位 化特征向量,类似上述结果可求得标准化样本主成分 。这时标准化样本总方差为 。样本主成分 实际应用中

9、,将样本 代入各主成分中,可得到各样本主成分的 观测值原变量主成分1 2序号PROC PRINCOMP 可对输入资料文件做主成分分析 输入资料文件可以是原始数据、相关系数矩阵或样本 协方差矩阵等 输出包括相关矩阵或协方差矩阵、特征值、特征向量 及标准化的主成分值等PROC PRINCOMP Proc princomp 选项串;var 变量名称串;partial 变量名称串;freq 变量名称串;weight 变量名称串;by 变量名称串;PROC PRINCOMP Proc princomp options;data=sas data set:指出要分析的sas数据集名称 。这个数据集可以是原

10、始观测值的sas数据集,也可 以是相关矩阵(typecorr)或协方差矩阵(type cov)。若省略数据集选项,则自动使用最新建立 的sas数据集。PROC PRINCOMP Proc princomp options;outsas data set:命名一个输出的sas数据集 ,其中包含原始数据以及各主成分的得分(即各主成 分的观测值)。outstatsas data set:命名一个包含各变量的 均值、标准差、相关矩阵或协方差矩阵、特征值和特 征向量的输出sas数据集。PROC PRINCOMP Proc princomp options;covariance(或COV):要求从协方差矩

11、阵出 发作主成分分析。若省略此选项,则从相关矩阵出发 进行分析。除非各变量的度量单位是可比较的或已经 过某种方式的标准化,否则不宜使用此选项,应从相 关矩阵出发作主成分分析。Nn:指定要计算的主成分个数“n”。其默认值为 参与分析的变量个数。PROC PRINCOMP Proc princomp options;prefixname:规定各主成分的名称的前缀。省 略此句则sas系统自动赋予各主成分名称分别为prin1 ,prin2,。若“nameA”,则各主成分名称分 别为A1,A2,。前缀的字符个数加上后面数字位 数应不超过8个字符。例4.3 对10名男中学生的身高 ( )、胸围( )和体

12、重( )进行测量,得数 据如表。对其作主成分 分析。序号身高(cm)胸围(cm)体重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5例4.3 data students;input x1 x2 x3;cards;149.5 69.5 38.5157.7 79.0 53.5;proc princomp cov;var x1-x3;run; 例4.3 由上面的sas proc princomp过程,可以算得样本协 方差矩阵为 S的特征值与单位正交化特征向量分别为例4.3 各主成分的贡献率分别为:前两个主成分的累计贡献率已达98.855,实际应用 中可只取前两个主成分,即 例 4.4 为全面了解我国西北某省的十家上市公 司的获利能力和经营发展能力,选取六个指标 进行分析:X1 x2 x3 X4 X5 X6,下面给出10 家公司关于六个指标在过去三年取值的加权平 均,对其做主成分分析,并按第一主成分得分 对这10家公司的综合能

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 教育/培训/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号