数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章 主成分分析与因子分析

上传人:E**** 文档编号:89184311 上传时间:2019-05-20 格式:PPT 页数:35 大小:791.50KB
返回 下载 相关 举报
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章  主成分分析与因子分析_第1页
第1页 / 共35页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章  主成分分析与因子分析_第2页
第2页 / 共35页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章  主成分分析与因子分析_第3页
第3页 / 共35页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章  主成分分析与因子分析_第4页
第4页 / 共35页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章  主成分分析与因子分析_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章 主成分分析与因子分析》由会员分享,可在线阅读,更多相关《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第4章 主成分分析与因子分析(35页珍藏版)》请在金锄头文库上搜索。

1、第4章 主成分分析与因子分析 4.1 主成分分析 4.1.1 引言 实际问题中涉及众多变量,但变量较多且有相互性,主成分分析用为数较小的互不相关的新变量反映原变量所提供的绝大部分信息.主成分分析是降维的思想下产生的处理高维数据的方法. 分析二元变量 次观测 其散布图近似为椭圆,其点分布在椭圆长轴附近.旋转的坐标变换,转角为: 反映了在彼此不相关的两个方向上的分散性.,相应变量 分别称 和 的第一和第二主成分.数据在 方向上分散性比较小,因而用一元数据 反映二元数据的绝大部分信息.即可用 的分布近似代替 的分布情况.,4.1.2 总体主成分 1.总体主成分定义 其协方差矩阵 非负定. 设 线性变

2、换: 有,第一主成分 在约束条件 下,求 ,使 ,第一主成分 第二主成分 求 ,使 不相关. 在约束条件 下,求 ,使 第二主成分. 一般地,在约束条件 及 下,求 使 第 主成分. 2.总体主成分的求法 是 的协方差矩阵, 的特征值及相应的单位正变化特征向量分别为 及 ,则 的第 个主成分为 其中,证 令 .则 为正交矩阵,且 设 为 的第一主成分, 令 , 则 当 时,等号成立,这时 ,故知 设 为 的第二主成分,则有 且 即 令 ,则 取 ,即 故知 .依次类证.,3.总体主成分的性质 (1)主成分的协方差矩阵及总方差, 记 为主成分向量,则 ,且 主成分的总方差 第 个主成分 的贡献率

3、 前 个主成分的累计贡献率 要求累计贡献率有较高比例(如80%90%) 主成分,达到降维目的.,(2)主成分 与变量 的相关系数 与 相关系数 例4.1 设随机变量的 协方差矩阵为 求 的各主成分. 解 PROC PRINCOMP 过程,算得 的特征值及单位正交特征向量:,第一主成分贡献率为0.7286,前两主成分累计贡献率为0.9786. 4.标准化变量的主成分 设 标准化变量 标准化随机向量, 的协方差矩阵即 的相关矩阵 ,通常由 出发进行主成分分析. 的第 个主成分 其中 为 的特征值, 是相应于 的单位正交特征向量. 第 个主成分贡献率为 ,前 个主成分累计贡献为 , 与 的相关系数

4、.,4.1.3 样本主成分 实际问题中, 或 未知,需用样本估计 容量为 个样本,用样本协方差矩阵及样本相关矩阵 估计 .其中 的特征值 ,单位正交特征向量 .样本主成分 个观测值 代入第 样本主成分,得 的 个观测值 ,称为第 个主成分得分.,通常从样本相关矩阵 出发进行主成分分析.从 出发求得的样本主成分称标准化样本主成分. 例4.3 对10名男中学生身高 、胸围 和体重 进行测量,得数据如下,作主成分分析. 解 由PROC PRINCOMP 过程,从样本协方差矩阵出发进行主成分分析,算得 魁梧因子 形状因子 两主成分累计贡献率98.855%.,例4.4 14家企业8个不同的利润指标数据如

5、下,试进行主成分分析.,解 (1) 由 PROC PRINCOMP 过程,从样本相关矩阵 出发进行主成分分析. 样本相关矩阵 X1 X2 X3 X4 X5 X6 X7 X8 X1 1.0000 0.7627 0.7076 0.6428 0.5962 0.5443 0.6218 0.7729 X2 0.7627 1.0000 0.5534 0.5143 0.5154 0.4689 0.7356 0.7121 X3 0.7076 0.5534 1.0000 0.9879 0.9776 0.9741 0.6828 0.7802 X4 0.6428 0.5143 0.9879 1.0000 0.980

6、7 0.9798 0.6974 0.7731 X5 0.5962 0.5154 0.9776 0.9807 1.0000 0.9923 0.6266 0.7872 X6 0.5443 0.4689 0.9741 0.9798 0.9923 1.0000 0.6303 0.7245 X7 0.6218 0.7356 0.6828 0.6974 0.6266 0.6303 1.0000 0.6220 X8 0.7729 0.7121 0.7802 0.7731 0.7872 0.7245 0.6220 1.0000,相关矩阵特征值及累计贡献率 Eigenvalues of the Correlat

7、ion Matrix Eigenvalue Difference Proportion Cumlative 1 6.13662351 5.09449321 0.7671 0.7671 2 1.04213030 0.60617666 0.1303 0.8973 3 0.43595365 0.21558158 0.0545 0.9518 4 0.22037207 0.06846521 0.0275 0.9794 5 0.15190686 0.14307942 0.0190 0.9984 6 0.00882744 0.00586506 0.0011 0.9995 7 0.00296238 0.001

8、73859 0.0004 0.9998 8 0.00122379 0.0002 1.0000 由于第一、第二主成分累计贡献率已达89.73%,只需取第一,第二主成分. 单位正交特征向量 第一,第二标准化样本主成分以Prin1,Prin2为系数,第一主成分反映各企业总效益大小的综合指标.第二主成分的正负代表企业不同的效益类型.,按第一主成分Prin1排序,计算结果如下: id Prin1 Prin2 12 -4.35808 -0.69575 3 -2.82407 -0.55374 11 -2.37005 0.07956 4 -2.18861 -0.15873 10 -0.30203 -0.750

9、65 7 -0.27669 -1.05142 5 0.06679 1.04155 14 0.36440 -0.21968 13 0.39917 0.71592 1 0.73165 2.61780 8 1.01116 0.87272 2 1.06472 -0.00842 6 3.45780 -0.86751 9 5.22385 -1.02163 从计算结果看,Prin1由小到大排序,知第9家企业效益最好,第12家企业效益最差.,4.2 因子分析 4.2.1 引言 因子分析将多个变量综合为少数几个因子,以再现原始变量与因子变量之间的相关关系. 例4.5 观测 个学生 个科目的成绩, 表示 个科目:

10、 表示第 个学生 个科目的成绩.全部科目所共有的因子有 个,如记忆因子,计算因子等,记为 用因子表示: 用这 个不可观测的互不相关的公共因子 和一个特殊因子 来描述原始可测的相关变量(科目), 并解释分析学生的学习能力. 称为因子载荷,表示第 个科目在 个方面的表现.这是一个因子分析模型.,4.2.2 因子模型 1.正交因子模型 是可观测的随机向量, 不可观测随机向量, 又设 与 互不相关,且 设 满足 即 称正交因子模型. 称 的公共因子, 称 的特殊因子. 是待估系数矩阵,称因子载荷矩阵. 称第 个变量在第 个因子上的载荷(因子载荷).,假设:特殊因子互不相关. 特殊因子现公共因子互不相关

11、, 即 (a) 可用相关矩阵 出发进行因子分析. 即 (b) 刻画 与 之间的相关性. (a),(b)称正交因子模型的协方差结构.,2.正交因子模型中各个量的统计意义 (1) 因子载荷的统计意义 当 是标准化变量 ,则 反映 依赖 的权重,即载荷. (2) 变量共同度的统计意义 称 的共同度 对标准化变量 ,当 时 , 完全由公共因子线性组合表示, 反映 对公共因子 的依赖程度.,(3) 公共因子 的方差贡献的统计意义 表示第 个公共因子 ,对 的所有分量 的总影响,它是衡量第 个公共因子 相对重要性的指标. 性质 因子载荷矩阵A不唯一 证 若 是任一正交矩阵,则 因 故将 看成公共因子, 看成相应的因子载荷矩阵. 可见因子载荷矩阵不唯一. 令 有 ,4.2.3 参数估计方法 1.主成分法 设样本协方差阵 的特征值为 ,相应单位正交特征向量为 ,则 有谱分解式: 当最后 个特征值较小时, 其中 称主成分解 的选取方法: 根据实际意义或专业知识确定 或从样本相关矩阵出发求主成分解.,主因子解 设从样本相关矩阵 出发分析. 称约相关矩阵 若已知特殊方差初始估计 ,则共同度的估计 有: 令 的前 个正特征值,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号