建模培训讲座第三讲(主成份分析及SAS)

资源描述

《建模培训讲座第三讲(主成份分析及SAS)》由会员分享，可在线阅读，更多相关《建模培训讲座第三讲(主成份分析及SAS)（94页珍藏版）》请在金锄头文库上搜索。

1、第六章主成分分析第一节引言第二节主成分的几何意义及数学推导第三节主成分的性质第四节主成分方法应用中应注意的问题第五节实例分析与计算机实现第一节引言多元统计分析处理的是多变量多指标问题由于变量较多增加了分析问题的复杂性但在实际问题中变量之间可能存在一定的相关性因此多变量中可能存在信息的重叠人们自然希望通过克服相关性重叠性用较少的变量来代替原来较多的变量而这种代替可以反映原来多个变量的大部分信息这实际上是一种降维的思想主成分分析也称主分量分析是由Hotelling于1933年首先提出的由于多个变量之间往往存在着一定程度的相关性人们自然希望通过线性

2、组合的方式从这些指标中尽可能快地提取信息当第一个线性组合不能提取更多的信息时再考虑用第二个线性组合继续这个快速提取的过程直到所提取的信息与原指标相差不多时为止这就是主成分分析的思想一般说来在主成分分析适用的场合用较少的主成分就可以得到较多的信息量以各个主成分为分量就得到一个更低维的随机向量因此通过主成分既可以降低数据维数又保留了原数据的大部分信息我们知道当一个变量只取一个数据时这个变量数据提供的信息量是非常有限的当这个变量取一系列不同数据时我们可以从中读出最大值最小值平均数等信息变量的变异性越大说明它对各种场景的遍历性越强提供的信息就更加

3、充分信息量就越大主成分分析中的信息就是指标的变异性用标准差或方差表示它主成分分析的数学模型是设p个变量构成的p维随机向量为X X1 Xp 对X作正交变换令Y T X 其中T为正交阵要求Y的各分量是不相关的并且Y的第一个分量的方差是最大的第二个分量的方差次之等等为了保持信息不丢失 Y的各分量方差和与X的各分量方差和相等第二节主成分的几何意义及数学推导一主成分的几何意义二主成分的数学推导一主成分的几何意义主成分分析数学模型中的正交变换在几何上就是作一个坐标旋转因此主成分分析在二维空间中有明显的几何意义假设共有n个样品每个样品都测量了两个指标 X1 X2

4、它们大致分布在一个椭圆内如图6 1所示事实上散点的分布总有可能沿着某一个方向略显扩张这个方向就把它看作椭圆的长轴方向显然在坐标系x1Ox2中单独看这n个点的分量X1和X2 它们沿着x1方向和x2方向都具有较大的离散性其离散的程度可以分别用的X1方差和X2的方差测定如果仅考虑X1或X2中的任何一个分量那么包含在另一分量中的信息将会损失因此直接舍弃某个分量不是降维的有效办法图6 1主成分的几何意义易见 n个点在新坐标系下的坐标Y1和Y2几乎不相关称它们为原始变量X1和X2的综合变量 n个点y1在轴上的方差达到最大即在此方向上包含了有关n个样品的最大量信息因此

5、欲将二维空间的点投影到某个一维方向上则选择y1轴方向能使信息的损失最小我们称Y1为第一主成分称Y2为第二主成分第一主成分的效果与椭圆的形状有很大的关系椭圆越是扁平 n个点在y1轴上的方差就相对越大在y2轴上的方差就相对越小用第一主成分代替所有样品所造成的信息损失也就越小考虑两种极端的情形一种是椭圆的长轴与短轴的长度相等即椭圆变成圆第一主成分只含有二维空间点的约一半信息若仅用这一个综合变量则将损失约50 的信息这显然是不可取的造成它的原因是原始变量X1和X2的相关程度几乎为零也就是说它们所包含的信息几乎不重迭因此无法用一个一维的综合变量来代替另一种是椭圆扁

6、平到了极限变成y1轴上的一条线第一主成分包含有二维空间点的全部信息仅用这一个综合变量代替原始数据不会有任何的信息损失此时的主成分分析效果是非常理想的其原因是第二主成分不包含任何信息舍弃它当然没有信息损失二主成分的数学推导第三节主成分的性质一主成分的一般性质二主成分的方差贡献率一主成分的一般性质二主成分的方差贡献率第四节主成分方法应用中应注意的问题一实际应用中主成分分析的出发点二如何利用主成分分析进行综合评价一实际应用中主成分分析的出发点这里我们需要进一步强调的是从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的实际表明这种差异有时很大

7、我们认为如果各指标之间的数量级相差悬殊特别是各指标有不同的物理量纲的话较为合理的做法是使用R代替对于研究经济问题所涉及的变量单位大都不统一采用R代替后可以看作是用标准化的数据做分析这样使得主成分有现实经济意义不仅便于剖析实际问题又可以避免突出数值大的变量二如何利用主成分分析进行综合评价人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难一般情况下选择评价指标体系后通过对各指标加权的办法来进行综合但是如何对指标加权是一项具有挑战性的工作指标加权的依据是指标的重要性指标在评价中的重要性判断难免带有一定的主观性这影

8、响了综合评价的客观性和准确性由于主成分分析能从选定的指标体系中归纳出大部分信息根据主成分提供的信息进行综合评价不失为一个可行的选择这个方法是根据指标间的相对重要性进行客观加权可以避免综合评价者的主观影响在实际应用中越来越受到人们的重视对主成分进行加权综合我们利用主成分进行综合评价时主要是将原有的信息进行综合因此要充分的利用原始变量提供的信息将主成分的权数根据它们的方差贡献率来确定因为方差贡献率反映了各个主成分的信息含量多少第五节实例分析与计算机实现一主成分分析实例二利用SPSS进行主成分分析一主成分分析实例表6 1是某市工业部门13个行业的8项重要经济指标

9、的数据这8项经济指标分别是 X1 年末固定资产净值单位万元 X2 职工人数据单位人 X3 工业总产值单位万元 X4 全员劳动生产率单位元人年 X5 百元固定资产原值实现产值单位元 X6 资金利税率单位 X7 标准燃料消费量单位吨 X8 能源利用效果单位万元吨表6 1某市工业部门13个行业8项指标我们要考虑的是如何从这些经济指标出发对各工业部门进行综合评价与排序我们先计算这些指标的主成分然后通过主成分的大小进行排序表6 2和表6 3分别是特征根累计贡献率和特征向量的信息利用主成分得分进行综合评价时从特征向量我们可以写出所有8个主成分的具体

10、形式表6 2特征根和累计贡献率表6 3特征向量表6 4各行业主成分得分及排序我们以特征根为权对8个主成分进行加权综合得出各工业部门的综合得分具体数据见表6 4 综合得分的计算公式是根据上式可计算出各工业部门的综合得分并可据此排序从上表可以看出机器行业在该地区的综合评价排在第一原始数据也反映出机器行业存在明显的规模优势另外从前两个主成分得分上看该行业也排在第一位同样存在效益优势而排在最后三位的分别是皮革行业电力行业和煤炭行业二利用SPSS进行主成分分析 SPSS没有提供主成分分析的专用功能只有因子分析的功能但是因子分析和主成分分析有着密切的联系因子分析

11、的重要步骤因子的提取最常用的方法就是主成分法利用因子分析的结果可以很容易地实现主成分分析具体来讲就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量即其中 zij为第j个特征向量的第i个元素 aij为因子载荷阵第i行第j列的元素 j为第j个因子对应的特征根然后再利用计算出的特征向量来计算主成分以下是我国2005年第1 2季度分地区城镇居民家庭收支基本情况通过这个例子介绍如何利用SPSS软件实现主成分分析表6 5分地区城镇居民家庭收支基本情况表6 5分地区城镇居民家庭收支基本情况一利用SPSS进行因子分析将原始数据输入SPSS数据编辑窗口将5个变量分别命名为X

12、1 X5 在SPSS窗口中选择Analyze DataReduction Factor菜单项调出因子分析主界面并将变量X1 X5移入Variables框中其他均保持系统默认选项单击OK按钮执行因子分析过程关于因子分子在SPSS中实现的详细过程参见第7章实例得到如表6 6所示的特征根和方差贡献率表和表6 7所示的因子载荷阵表6 6中Total列为各因子对应的特征根本例中共提取两个公因子 ofVariance列为各因子的方差贡献率 Cumulative 列为各因子累积方差贡献率由表中可以看出前两个因子已经可以解释79 31 的方差图6 2因子分析主界面表6 6特征根和方

13、差贡献率表二利用因子分析结果进行主成分分析1 将表6 7中因子载荷阵中的数据输入SPSS数据编辑窗口分别命名为a1和a2 表6 7因子载荷阵 2 为了计算第一个特征向量点击菜单项中的Transform Compute 调出Computevariable对话框在对话框中输入等式 z1 a1 SQRT 2 576 点击OK按钮即可在数据编辑窗口中得到以z1为变量名的第一特征向量再次调出Computevariable对话框在对话框中输入等式 z2 a2 SQRT 1 389 点击OK按钮得到以z2为变量名第二特征向量这样我们得到了如表6 8所示的特征向量矩阵图6 3Compu

14、tevariable对话框根据表6 8可以得到主成分的表达式 3 再次使用Compute命令就可以计算得到两个主成分表6 8特征向量矩阵第13章主成分分析与因子分析介绍 1 主成分分析与因子分析的概念2 主成分分析与因子分析的过程主成分分析与因子分析的概念需要与可能在各个领域的科学研究中往往需要对反映事物的多个变量进行大量的观测收集大量数据以便进行分析寻找规律多变量大样本无疑会为科学研究提供丰富的信息但也在一定程度上增加了数据采集的工作量更重要的是在大多数情况下许多变量之间可能存在相关性而增加了问题分析的复杂性同时对分析带来不便如果分别分析每个指标分析又可能是

15、孤立的而不是综合的盲目减少指标会损失很多信息容易产生错误的结论因此需要找到一个合理的方法减少分析指标的同时尽量减少原指标包含信息的损失对所收集的资料作全面的分析由于各变量间存在一定的相关关系因此有可能用较少的综合指标分别综合存在于各变量中的各类信息主成分分析与因子分析就是这样一种降维的方法主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法直线综合指标往往是不能直接观测到的但它更能反映事物的本质因此在医学心理学经济学等科学领域以及社会化生产中得到广泛的应用主成分分析与因子分析的概念续由于实测的变量间存在一定的相关关系因此有可

16、能用较少数的综合指标分别综合存在于各变量中的各类信息而综合指标之间彼此不相关即各指标代表的信息不重叠综合指标称为因子或主成分提取几个因子一般有两种方法特征值 1累计贡献率 0 8 主成分分析实例P316 不旋转使用默认值进行最简单的主成分分析默认为主成分分析法 Principalcomponents 例子P316 对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析 data13 01a 数据见下一张幻灯片菜单 Analyze DataReduction FactorVariables pop School employ Services house其他使用默认值主成分分析法Principalcomponents 选取特征值 1 不旋转比较有用的结果两个主成分因子 f1 f2及因子载荷矩阵 ComponentMatrix 根据该表可以写出每个原始变量标准化值的因子表达式 Pop 0 581f1 0 806f2School 0 767f1 0 545f2employ 0 672f1 0 726f2Services 0 932f1 0 104f2ho

展开阅读全文