建模培训讲座第三讲(主成份分析及SAS)

上传人:灯火****19 文档编号:121905129 上传时间:2020-02-27 格式:PPT 页数:94 大小:2.88MB
返回 下载 相关 举报
建模培训讲座第三讲(主成份分析及SAS)_第1页
第1页 / 共94页
建模培训讲座第三讲(主成份分析及SAS)_第2页
第2页 / 共94页
建模培训讲座第三讲(主成份分析及SAS)_第3页
第3页 / 共94页
建模培训讲座第三讲(主成份分析及SAS)_第4页
第4页 / 共94页
建模培训讲座第三讲(主成份分析及SAS)_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《建模培训讲座第三讲(主成份分析及SAS)》由会员分享,可在线阅读,更多相关《建模培训讲座第三讲(主成份分析及SAS)(94页珍藏版)》请在金锄头文库上搜索。

1、第六章主成分分析 第一节引言 第二节主成分的几何意义及数学推导 第三节主成分的性质 第四节主成分方法应用中应注意的问题 第五节实例分析与计算机实现 第一节引言 多元统计分析处理的是多变量 多指标 问题 由于变量较多 增加了分析问题的复杂性 但在实际问题中 变量之间可能存在一定的相关性 因此 多变量中可能存在信息的重叠 人们自然希望通过克服相关性 重叠性 用较少的变量来代替原来较多的变量 而这种代替可以反映原来多个变量的大部分信息 这实际上是一种 降维 的思想 主成分分析也称主分量分析 是由Hotelling于1933年首先提出的 由于多个变量之间往往存在着一定程度的相关性 人们自然希望通过线性

2、组合的方式 从这些指标中尽可能快地提取信息 当第一个线性组合不能提取更多的信息时 再考虑用第二个线性组合继续这个快速提取的过程 直到所提取的信息与原指标相差不多时为止 这就是主成分分析的思想 一般说来 在主成分分析适用的场合 用较少的主成分就可以得到较多的信息量 以各个主成分为分量 就得到一个更低维的随机向量 因此 通过主成分既可以降低数据 维数 又保留了原数据的大部分信息 我们知道 当一个变量只取一个数据时 这个变量 数据 提供的信息量是非常有限的 当这个变量取一系列不同数据时 我们可以从中读出最大值 最小值 平均数等信息 变量的变异性越大 说明它对各种场景的 遍历性 越强 提供的信息就更加

3、充分 信息量就越大 主成分分析中的信息 就是指标的变异性 用标准差或方差表示它 主成分分析的数学模型是 设p个变量构成的p维随机向量为X X1 Xp 对X作正交变换 令Y T X 其中T为正交阵 要求Y的各分量是不相关的 并且Y的第一个分量的方差是最大的 第二个分量的方差次之 等等 为了保持信息不丢失 Y的各分量方差和与X的各分量方差和相等 第二节主成分的几何意义及数学推导 一主成分的几何意义 二主成分的数学推导 一 主成分的几何意义 主成分分析数学模型中的正交变换 在几何上就是作一个坐标旋转 因此 主成分分析在二维空间中有明显的几何意义 假设共有n个样品 每个样品都测量了两个指标 X1 X2

4、 它们大致分布在一个椭圆内如图6 1所示 事实上 散点的分布总有可能沿着某一个方向略显扩张 这个方向就把它看作椭圆的长轴方向 显然 在坐标系x1Ox2中 单独看这n个点的分量X1和X2 它们沿着x1方向和x2方向都具有较大的离散性 其离散的程度可以分别用的X1方差和X2的方差测定 如果仅考虑X1或X2中的任何一个分量 那么包含在另一分量中的信息将会损失 因此 直接舍弃某个分量不是 降维 的有效办法 图6 1主成分的几何意义 易见 n个点在新坐标系下的坐标Y1和Y2几乎不相关 称它们为原始变量X1和X2的综合变量 n个点y1在轴上的方差达到最大 即在此方向上包含了有关n个样品的最大量信息 因此

5、欲将二维空间的点投影到某个一维方向上 则选择y1轴方向能使信息的损失最小 我们称Y1为第一主成分 称Y2为第二主成分 第一主成分的效果与椭圆的形状有很大的关系 椭圆越是扁平 n个点在y1轴上的方差就相对越大 在y2轴上的方差就相对越小 用第一主成分代替所有样品所造成的信息损失也就越小 考虑两种极端的情形 一种是椭圆的长轴与短轴的长度相等 即椭圆变成圆 第一主成分只含有二维空间点的约一半信息 若仅用这一个综合变量 则将损失约50 的信息 这显然是不可取的 造成它的原因是 原始变量X1和X2的相关程度几乎为零 也就是说 它们所包含的信息几乎不重迭 因此无法用一个一维的综合变量来代替 另一种是椭圆扁

6、平到了极限 变成y1轴上的一条线 第一主成分包含有二维空间点的全部信息 仅用这一个综合变量代替原始数据不会有任何的信息损失 此时的主成分分析效果是非常理想的 其原因是 第二主成分不包含任何信息 舍弃它当然没有信息损失 二 主成分的数学推导 第三节主成分的性质 一主成分的一般性质 二主成分的方差贡献率 一 主成分的一般性质 二 主成分的方差贡献率 第四节主成分方法应用中应注意的问题 一实际应用中主成分分析的出发点 二如何利用主成分分析进行综合评价 一 实际应用中主成分分析的出发点 这里我们需要进一步强调的是 从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的 实际表明 这种差异有时很大

7、我们认为 如果各指标之间的数量级相差悬殊 特别是各指标有不同的物理量纲的话 较为合理的做法是使用R代替 对于研究经济问题所涉及的变量单位大都不统一 采用R代替 后 可以看作是用标准化的数据做分析 这样使得主成分有现实经济意义 不仅便于剖析实际问题 又可以避免突出数值大的变量 二 如何利用主成分分析进行综合评价 人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难 一般情况下 选择评价指标体系后通过对各指标加权的办法来进行综合 但是 如何对指标加权是一项具有挑战性的工作 指标加权的依据是指标的重要性 指标在评价中的重要性判断难免带有一定的主观性 这影

8、响了综合评价的客观性和准确性 由于主成分分析能从选定的指标体系中归纳出大部分信息 根据主成分提供的信息进行综合评价 不失为一个可行的选择 这个方法是根据指标间的相对重要性进行客观加权 可以避免综合评价者的主观影响 在实际应用中越来越受到人们的重视 对主成分进行加权综合 我们利用主成分进行综合评价时 主要是将原有的信息进行综合 因此 要充分的利用原始变量提供的信息 将主成分的权数根据它们的方差贡献率来确定 因为方差贡献率反映了各个主成分的信息含量多少 第五节实例分析与计算机实现 一主成分分析实例 二利用SPSS进行主成分分析 一 主成分分析实例 表6 1是某市工业部门13个行业的8项重要经济指标

9、的数据 这8项经济指标分别是 X1 年末固定资产净值 单位 万元 X2 职工人数据 单位 人 X3 工业总产值 单位 万元 X4 全员劳动生产率 单位 元 人年 X5 百元固定资产原值实现产值 单位 元 X6 资金利税率 单位 X7 标准燃料消费量 单位 吨 X8 能源利用效果 单位 万元 吨 表6 1某市工业部门13个行业8项指标 我们要考虑的是 如何从这些经济指标出发 对各工业部门进行综合评价与排序 我们先计算这些指标的主成分 然后通过主成分的大小进行排序 表6 2和表6 3分别是特征根 累计贡献率 和特征向量的信息 利用主成分得分进行综合评价时 从特征向量我们可以写出所有8个主成分的具体

10、形式 表6 2特征根和累计贡献率 表6 3特征向量 表6 4各行业主成分得分及排序 我们以特征根为权 对8个主成分进行加权综合 得出各工业部门的综合得分 具体数据见表6 4 综合得分的计算公式是 根据上式可计算出各工业部门的综合得分 并可据此排序 从上表可以看出 机器行业在该地区的综合评价排在第一 原始数据也反映出机器行业存在明显的规模优势 另外从前两个主成分得分上看 该行业也排在第一位 同样存在效益优势 而排在最后三位的分别是皮革行业 电力行业和煤炭行业 二 利用SPSS进行主成分分析 SPSS没有提供主成分分析的专用功能 只有因子分析的功能 但是因子分析和主成分分析有着密切的联系 因子分析

11、的重要步骤 因子的提取最常用的方法就是 主成分法 利用因子分析的结果 可以很容易地实现主成分分析 具体来讲 就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量 即 其中 zij为第j个特征向量的第i个元素 aij为因子载荷阵第i行第j列的元素 j为第j个因子对应的特征根 然后再利用计算出的特征向量来计算主成分 以下是我国2005年第1 2季度分地区城镇居民家庭收支基本情况 通过这个例子 介绍如何利用SPSS软件实现主成分分析 表6 5分地区城镇居民家庭收支基本情况 表6 5分地区城镇居民家庭收支基本情况 一 利用SPSS进行因子分析将原始数据输入SPSS数据编辑窗口 将5个变量分别命名为X

12、1 X5 在SPSS窗口中选择Analyze DataReduction Factor菜单项 调出因子分析主界面 并将变量X1 X5移入Variables框中 其他均保持系统默认选项 单击OK按钮 执行因子分析过程 关于因子分子在SPSS中实现的详细过程 参见第7章实例 得到如表6 6所示的特征根和方差贡献率表和表6 7所示的因子载荷阵 表6 6中Total列为各因子对应的特征根 本例中共提取两个公因子 ofVariance列为各因子的方差贡献率 Cumulative 列为各因子累积方差贡献率 由表中可以看出 前两个因子已经可以解释79 31 的方差 图6 2因子分析主界面 表6 6特征根和方

13、差贡献率表 二 利用因子分析结果进行主成分分析1 将表6 7中因子载荷阵中的数据输入SPSS数据编辑窗口 分别命名为a1和a2 表6 7因子载荷阵 2 为了计算第一个特征向量 点击菜单项中的Transform Compute 调出Computevariable对话框 在对话框中输入等式 z1 a1 SQRT 2 576 点击OK按钮 即可在数据编辑窗口中得到以z1为变量名的第一特征向量 再次调出Computevariable对话框 在对话框中输入等式 z2 a2 SQRT 1 389 点击OK按钮 得到以z2为变量名第二特征向量 这样 我们得到了如表6 8所示的特征向量矩阵 图6 3Compu

14、tevariable对话框 根据表6 8可以得到主成分的表达式 3 再次使用Compute命令 就可以计算得到两个主成分 表6 8特征向量矩阵 第13章主成分分析与因子分析 介绍 1 主成分分析与因子分析的概念2 主成分分析与因子分析的过程 主成分分析与因子分析的概念 需要与可能 在各个领域的科学研究中 往往需要对反映事物的多个变量进行大量的观测 收集大量数据以便进行分析寻找规律 多变量大样本无疑会为科学研究提供丰富的信息 但也在一定程度上增加了数据采集的工作量 更重要的是在大多数情况下 许多变量之间可能存在相关性而增加了问题分析的复杂性 同时对分析带来不便 如果分别分析每个指标 分析又可能是

15、孤立的 而不是综合的 盲目减少指标会损失很多信息 容易产生错误的结论 因此需要找到一个合理的方法 减少分析指标的同时 尽量减少原指标包含信息的损失 对所收集的资料作全面的分析 由于各变量间存在一定的相关关系 因此有可能用较少的综合指标分别综合存在于各变量中的各类信息 主成分分析与因子分析就是这样一种降维的方法 主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法直线综合指标往往是不能直接观测到的 但它更能反映事物的本质 因此在医学 心理学 经济学等科学领域以及社会化生产中得到广泛的应用 主成分分析与因子分析的概念 续 由于实测的变量间存在一定的相关关系 因此有可

16、能用较少数的综合指标分别综合存在于各变量中的各类信息 而综合指标之间彼此不相关 即各指标代表的信息不重叠 综合指标称为因子或主成分 提取几个因子 一般有两种方法 特征值 1累计贡献率 0 8 主成分分析实例P316 不旋转 使用默认值进行最简单的主成分分析 默认为主成分分析法 Principalcomponents 例子P316 对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析 data13 01a 数据见下一张幻灯片 菜单 Analyze DataReduction FactorVariables pop School employ Services house其他使用默认值 主成分分析法Principalcomponents 选取特征值 1 不旋转 比较有用的结果 两个主成分 因子 f1 f2及因子载荷矩阵 ComponentMatrix 根据该表可以写出每个原始变量 标准化值 的因子表达式 Pop 0 581f1 0 806f2School 0 767f1 0 545f2employ 0 672f1 0 726f2Services 0 932f1 0 104f2ho

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号