主成分分析法1.－金锄头文库

资源描述

《主成分分析法1.》由会员分享，可在线阅读，更多相关《主成分分析法1.（32页珍藏版）》请在金锄头文库上搜索。

1、6.1 主成分分析 6.1.1 主成分分析的概念与步骤 6.1.2 使用INSIGHT模块作主成分分析 6.1.3 使用“分析家”作主成分分析,主成分分析,6.1.1 主成分分析的概念与步骤 1. 主成分分析基本思想主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标（比如p个指标），重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合，作为新的综合指标。但是这种线性组合，如果不加限制，则可以有很多，应该如何去选取呢？,在所有的线性组合中所选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表

2、原来p个指标的信息，再考虑选取F2即选第二个线性组合。为了有效地反映原有信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1，F2)0。称F2为第二主成分，依此类推可以构造出第三、第四、第p个主成分。,2. 主成分分析的数学模型设有n个样品（多元观测值），每个样品观测p项指标（变量）：X1，X2，Xp，得到原始数据资料阵：其中Xi = (x1i，x2i，xni)，i = 1，2，p。,用数据矩阵X的p个列向量（即p个指标向量）X1，X2，Xp作线性组合，得综合指标向量：简写成： Fi = a1iX1 + a2iX2 +apiXp i = 1，2，p,为了加以限制

3、，对组合系数ai = (a1i，a2i，api)作如下要求：即：ai为单位向量：aiai = 1，且由下列原则决定： 1) Fi与Fj（ij, i, j = 1, , p）互不相关，即Cov(Fi，Fj) = 0,并有Var(Fi)=aiai，其中为X的协方差阵 2) F1是X1，X2，Xp的一切线性组合（系数满足上述要求）中方差最大的，即，其中c = (c1，c2，cp) F2是与F1不相关的X1，X2，Xp一切线性组合中方差最大的，Fp是与F1，F2，Fp-1都不相关的X1，X2，Xp的一切线性组合中方差最大的。,满足上述要求的综合指标向量F1，F2，Fp就是主成分，这p个主成分从原始

4、指标所提供的信息总量中所提取的信息量依次递减，每一个主成分所提取的信息量用方差来度量，主成分方差的贡献就等于原指标相关系数矩阵相应的特征值i，每一个主成分的组合系数 ai = (a1i，a2i，api) 就是相应特征值i所对应的单位特征向量ti。方差的贡献率为，i越大，说明相应的主成分反映综合信息的能力越强。,3. 主成分分析的步骤 (1) 计算协方差矩阵计算样品数据的协方差矩阵： = (sij)pp，其中 i，j = 1，2，p (2) 求出的特征值及相应的特征向量求出协方差矩阵的特征值12p0及相应的正交化单位特征向量：则X的第i个主成分为Fi = aiX i = 1，2，p。,(

5、3) 选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小，m的确定以累计贡献率达到足够大（一般在85%以上）为原则。,(4) 计算主成分得分计算n个样品在m个主成分上的得分： i = 1，2，m (5) 标准化实际应用时，指标的量纲往往不同，所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法，常用方法是将原始数据标准化，即做如下数据变换：其中，，j = 1，2，p。标准化后的数据阵记为X*，其中每个列向量（标准化变量）的均值为0，标准差为1，数据无量纲。,标准化后变量的协方差矩阵（Covaria

6、nce Matrix） = (sij)pp，即原变量的相关系数矩阵（Correlation Matrix）R= (rij)pp： i，j = 1，2，p 此时n个样品在m个主成分上的得分应为： Fj = a1jX1* + a2jX2* +.+ apjXp* j = 1，2，m,6.1.2 使用INSIGHT模块作主成分分析【例6-1】全国沿海10个省市经济指标的主成分分析表6-1 全国沿海10个省市经济综合指标假设表6-1中数据已经存放在数据集Mylib.jjzb中，试对各地区的经济发展水平进行主成分分析。,1. 使用INSIGHT模块做主成分分析的步骤使用INSIGHT模块做主成分分

7、析的步骤如下： 1) 在INSIGHT模块中打开数据集Mylib.jjzb；选择菜单“Analyze”“Multivariate(Y X)（多元分析）”，打开“Multivariate(Y X)”对话框； 2) 将做主成分分析的变量x1x9选为Y变量，将变量diqu选为Label变量，如图所示。,图6-1 多元分析对话框 3) 单击“Method”按钮，在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征值。系统默认计算相关系数矩阵的特征值和特征向量，单击“OK”按钮返回。,4) 单击“Output”按钮，在打开的对话框（图左）中包括“Descriptive Statist

8、ics”选项、“Bivariate Plots”选项以及各种多元分析的选项。选中“Principal Component Analysis”复选框，单击下面的“Principal Component Options”按钮，打开“Principal Component Options”对话框，选中“Eigenvectors”复选框，取消“Correlations(Structure)”复选框，如图右所示。,2. 主成分的结果分析输出的数字分析结果有4个部分：简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。,3) 图6-5给出相关系数矩阵的特征值（Eigenvalue）

9、、上下特征值之差（Difference）、各主成分的方差贡献率（Proportion）以及累积贡献率（Cumulative）。相关系数矩阵的特征值即各主成分的方差，可以看出，第一主成分的方差贡献率为80.11%，前两个主成分的累积贡献率已达92.33%，因此，只需用前面2个主成分就可以概括这组数据。,4) 图6-6给出相关系数矩阵的两个最大特征值的特征向量，据此可以写出第一和第二主成分得分： PCR1 = 0.35x1* + 0.04x2* + 0.36x3* + 0.37x4* + 0.37x5* + 0.35x6* + 0.36x7* + 0.30x8* + 0.36x9* PCR2 =

10、 -0.21x1* + 0.94x2* 0.01x3* 0.05x4* + 0.10x5* 0.02x6* 0.14x7* + 0.05x8* + 0.18x9* 对于第一主成分而言，除了x2（人均GDP）外，各变量所占比重均在0.3以上，因此第一主成分(Prin1)主要由x1、x3x9八个变量解释；而第二主成分则主要由x2这一个变量解释。,5) 选择菜单“Edit（编辑）”“Observations（观测）”“Label in Plots”，在弹出的对话框中选中所有diqu变量值，单击“OK”按钮返回，显示结果中的散点图上出现地区名；图中看出，上海在第二主成分PCR2的得分远远高于其他省市

11、，而在第一主成分PCR1的得分则处于中间。广东、江苏、山东和浙江则在第1主成分的得分上位于前列。,6) 回到INSIGHT的数据窗口，可以看到前两个主成分的得分情况（如图6-8左）。单击数据窗口左上角的箭头，在弹出的菜单中选择“Sort（排序）”选项，在打开的对话框中选定排序变量PCR1，并单击“Asc/Des”按钮将其设为降序（Des），如图6-8所示。,单击“OK”按钮返回，得到按第一主成分排序的结果如图6-9左所示。同样方法可以得到按第二主成分排序的结果如图6-9右所示。从第一主成分排序情况来看，沿海19省市经济发展状况综合排名前5位的省市依次为：广东、江苏、山东、浙江、上海；从第二

12、主成分排序情况来看，人均GDP排名前5位的省市依次是：上海、天津、浙江、广东、福建。,6.1.3 使用“分析家”作主成分分析【例6-2】某企业为了了解其客户的信用程度，评价客户的信用等级，采用信用评估常用的5C方法，5C的目的是说明顾客违约的可能性。 1) 品格x1，指客户的信誉。 2) 能力x2，指客户的偿还能力。 3) 资本x3，指客户的财务势力和财务状况。 4) 附带的担保品x4。 5) 环境条件x5，指客户的外部因素。,通过专家打分，得到10个客户5项指标的得分如表6-3所示。表6-2 10个客户5项指标的得分假设表6-2中数据已经存放在数据集Mylib.xydj中，试对各客户的

13、信用等级进行评估。,1. 使用“分析家”做主成分分析的步骤 1) 在“分析家”中打开数据集Mylib.xydj； 2) 选择菜单“Statistics（统计）”“Multivariate（多元分析）”“Principal Components（主成分分析）”，打开“Principal Components”对话框； 3) 在对话框中输入主成分分析的变量，如图所示。,4) 单击“Statistics（统计）”按钮，打开“Principal Components：Statistics”对话框；在“# of components：”右边的框中指定主成分的个数4，如图右。单击“OK”返回；,5) 单

14、击“Save Data”按钮，打开“Principal Components：Save Data”对话框，在该对话框中可选择存储数据。选中“Create and save scores data”，如图6-11所示。单击“OK”返回；,6) 单击“Plots”按钮，打开“Principal Components：Plots”对话框，可以设置图形输出。在“Scree Plot (碎石图)”选项卡中（图左），选中“Create scree plot(建立碎石图)”复选框。在“Component Plot (成分图)”选项卡中（图右），选中“Create component Plot(建立成分

15、图)”复选框。,2. 主成分的结果分析输出的数字分析结果包括4个部分：简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。 1) 图6-13给出变量的简单统计量，图中显示5项指标中品格、能力和附带担保品是最为重要的，其标准差高出其他变量。,2) 图6-14给出各变量之间的相关系数矩阵。可以看出，能力与资本、附带担保品有着较强的相关性，表明客户的偿还能力与其财务实力、财务状况和抵押资产有着重要的关系。,3) 图6-15给出相关系数矩阵的特征值（Eigenvalues）、上下特征值之差（Difference）、各主成分的方差贡献率（proportion）以及累积贡献率（Cu

16、mulative）。相关系数矩阵的特征值即各主成分的方差，可以看出，第一主成分的方差贡献率为84.22%，第二主成分的方差贡献率为7.67%，第三主成分的方差贡献率为5.95%。说明第一主成分已经具有足够多的方差贡献率，可以很好地概括这组数据。,在“分析家”左边的管理窗口中双击“Scree plot”项，打开的“Scree plot”对话框显示前4个特征值的“碎石图”，很直观地看到第一主成分远远大于其它特征值，说明第一主成分已经代表了绝大部分信息。,4) 图6-16给出相关系数矩阵的特征向量，由最大特征值所对应的特征向量可以写出第一主成分的表达式。 Prin1 = 0.4135x1* + 0.4729x2* + 0.4656x3* + 0.4547x4* + 0.4265x5* 利用特征向量

展开阅读全文