4第三讲-主成分分析

上传人:夏** 文档编号:567330836 上传时间:2024-07-20 格式:PPT 页数:46 大小:485KB
返回 下载 相关 举报
4第三讲-主成分分析_第1页
第1页 / 共46页
4第三讲-主成分分析_第2页
第2页 / 共46页
4第三讲-主成分分析_第3页
第3页 / 共46页
4第三讲-主成分分析_第4页
第4页 / 共46页
4第三讲-主成分分析_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《4第三讲-主成分分析》由会员分享,可在线阅读,更多相关《4第三讲-主成分分析(46页珍藏版)》请在金锄头文库上搜索。

1、第三讲第三讲 主成分分析主成分分析2024/7/20江西理工大学理学院江西理工大学理学院主成分分析的重点主成分分析的重点v1 1、掌握什么是主成分分析、掌握什么是主成分分析; ;v2 2、理解主成分分析的基本思想、理解主成分分析的基本思想; ;v3 3、理解主成分求解方法:协方差矩阵与相、理解主成分求解方法:协方差矩阵与相 关系数矩阵的差异关系数矩阵的差异; ;v4 4、掌握运用数学软件求解主成分、掌握运用数学软件求解主成分; ;v5 5、对软件输出结果进行正确分析、对软件输出结果进行正确分析. .2024/7/20江西理工大学理学院江西理工大学理学院一、一、主成分分析的主成分分析的基本思想基

2、本思想v主成分分析:将原来较多的指标简化为少数主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。几个新的综合指标的多元统计方法。v主成分:由原始指标综合形成的几个新指标。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成依据主成分所含信息量的大小成为第一主成分,第二主成分等等。分,第二主成分等等。2024/7/20江西理工大学理学院江西理工大学理学院v主成分分析得到的主成分与原始变量之间的关主成分分析得到的主成分与原始变量之间的关系:系: 1 1、主成分保留了原始变量绝大多数信息。、主成分保留了原始变量绝大多数信息。 2 2、主成分的个数大大少于

3、原始变量的数目。、主成分的个数大大少于原始变量的数目。 3 3、各个主成分之间互不相关。、各个主成分之间互不相关。 4 4、每个主成分都是原始变量的线性组合。、每个主成分都是原始变量的线性组合。 2024/7/20江西理工大学理学院江西理工大学理学院v主成分分析的运用:主成分分析的运用: 1 1、对一组内部相关的变量作简化的描述对一组内部相关的变量作简化的描述 2 2、用来削减回归分析或群集分析用来削减回归分析或群集分析( (Cluster)Cluster)中变量的中变量的数目数目 3 3、用来检查异常点用来检查异常点 4 4、用来作多重共线性鉴定、用来作多重共线性鉴定 5 5、用来做原来数据

4、的常态检定用来做原来数据的常态检定 2024/7/20江西理工大学理学院江西理工大学理学院二、数学模型二、数学模型v假设我们所讨论的实际问题中,有假设我们所讨论的实际问题中,有p个指标,我个指标,我们把这们把这p个指标看作个指标看作p个随机变量,记为个随机变量,记为X1 1,X2 2,Xp,主成分分析就是要把这主成分分析就是要把这p个指标的问个指标的问题,转变为讨论题,转变为讨论p个指标的线性组合的问题,而个指标的线性组合的问题,而这些新的指标这些新的指标F1 1, ,F2 2,Fk( (kp),),按照保留主按照保留主要信息量的原则充分反映原指标的信息,并且要信息量的原则充分反映原指标的信息

5、,并且相互独立。相互独立。2024/7/20江西理工大学理学院江西理工大学理学院v这种由讨论多个指标降为少数几个综合指这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合析通常的做法是,寻求原指标的线性组合Fi。2024/7/20江西理工大学理学院江西理工大学理学院v满足如下的条件:满足如下的条件: 1 1、每个主成分的系数平方和为、每个主成分的系数平方和为1 1。即。即 2 2、主成分之间相互独立,即无重叠的信息。即、主成分之间相互独立,即无重叠的信息。即 3 3、主成分的方差依次递减,重要性依次递减

6、,即、主成分的方差依次递减,重要性依次递减,即F1,F2,Fp分别称为原变量的第一、第二、分别称为原变量的第一、第二、第、第p个主成分。个主成分。2024/7/20江西理工大学理学院江西理工大学理学院v了解了主成分分析的基本思想、数学模型后,问了解了主成分分析的基本思想、数学模型后,问题的关键:题的关键: 1 1、如何进行主成分分析?(主成分分析的方法)、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基

7、于相关系数纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。矩阵的主成分分析。 2 2、如何确定主成分个数?、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。个主成分,应该权衡主成分个数和保留的信息。 3 3、如何解释主成分所包含的经济意义?、如何解释主成分所包含的经济意义?2024/7/20江西理工大学理学院江西理工大学理学院四、总体主成分的求解及其性质四、总体主成分的求解及其性质v矩阵知识回顾:矩阵

8、知识回顾:(1 1)特征根与特征向量)特征根与特征向量A A、若对任意的若对任意的k阶方阵阶方阵C,有数字有数字 与向量与向量 满满足:足: ,则称,则称 为为C的特征根,的特征根, 为为C的相的相应于应于 的特征向量。的特征向量。B B、同时,方阵同时,方阵C的特征根的特征根 是是k阶方程阶方程 的根。的根。(2 2)任一)任一k阶方阵阶方阵C的特征根的特征根 的性质:的性质:2024/7/20江西理工大学理学院江西理工大学理学院(3 3)任一)任一k阶的实对称矩阵阶的实对称矩阵C的性质:的性质:A A、实对称矩阵实对称矩阵C的非零特征根的数目的非零特征根的数目C的秩的秩B B、k阶的实对称

9、矩阵存在阶的实对称矩阵存在k个实特征根个实特征根C C、实对称矩阵的不同特征根的特征向量是正交的实对称矩阵的不同特征根的特征向量是正交的D D、若若 是实对称矩阵是实对称矩阵C的单位特征向量,则的单位特征向量,则若矩阵若矩阵 ,是由特征向量,是由特征向量 所构成的,则有:所构成的,则有:2024/7/20江西理工大学理学院江西理工大学理学院v主成分分析的目标:主成分分析的目标:1 1、从相关的、从相关的X1, X2,Xk , ,求出相互独立的新综合变求出相互独立的新综合变量(主成分)量(主成分)Y1,Y2 ,Yk。2 2、Y(Y1 1, ,Y2 2,Yk)所反映信息的含量无遗漏所反映信息的含量

10、无遗漏或损失的指标或损失的指标方差方差, ,等于等于X(X1 1, ,X2 2,Xk)的方差的方差 。X与与Y之间的计算关系是:之间的计算关系是:如何求解主成分?如何求解主成分?2024/7/20江西理工大学理学院江西理工大学理学院v一、从协方差矩阵出发求解主成分一、从协方差矩阵出发求解主成分(一)第一主成分(一)第一主成分: 设设X的协方差阵为的协方差阵为 由于由于x为非负定的对称阵,则有利用线性代数的为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵知识可得,必存在正交阵U U,使得使得 2024/7/20江西理工大学理学院江西理工大学理学院o其中其中 1 , 2 ,, p为为X的

11、特征根,不妨假设的特征根,不妨假设 1 2 p 。而而U U恰好是由特征根相对应的恰好是由特征根相对应的特征向量所组成的正交阵。特征向量所组成的正交阵。o下面我们来看,是否由下面我们来看,是否由U U的第一列元素所构成为的第一列元素所构成为原始变量的线性组合是否有最大的方差。原始变量的线性组合是否有最大的方差。2024/7/20江西理工大学理学院江西理工大学理学院o证明:设有证明:设有P P维正交向量维正交向量2024/7/20江西理工大学理学院江西理工大学理学院o当且仅当当且仅当a a1 1 =u =u1 1时,即时,即 时,有时,有最大的方差最大的方差 1 1。因为。因为Var(FVar(

12、F1 1)=U)=U1 1 x xU U1 1= = 1 1。o如果第一主成分的信息不够,则需要寻找第二主成分。如果第一主成分的信息不够,则需要寻找第二主成分。2024/7/20江西理工大学理学院江西理工大学理学院(二)(二) 第二主成分第二主成分在约束条件在约束条件 下,寻找第二主成分下,寻找第二主成分 因为因为所以所以则,对则,对p维向量维向量 ,有,有2024/7/20江西理工大学理学院江西理工大学理学院o所以如果取线性变换:所以如果取线性变换:则则 的方差次大。的方差次大。类推类推2024/7/20江西理工大学理学院江西理工大学理学院o写为矩阵形式:写为矩阵形式:2024/7/20江西

13、理工大学理学院江西理工大学理学院o例:设的协方差矩阵为:例:设的协方差矩阵为:从协方差矩阵出发,求解主成分从协方差矩阵出发,求解主成分()求协方差矩阵的特征根()求协方差矩阵的特征根依据求解依据求解2024/7/20江西理工大学理学院江西理工大学理学院()求特征根对应的特征向量()求特征根对应的特征向量2024/7/20江西理工大学理学院江西理工大学理学院()主成分:()主成分:()各主成分的贡献率及累计贡献率:()各主成分的贡献率及累计贡献率:第一主成分贡献率:第一主成分贡献率:第二主成分贡献率:第二主成分贡献率:第三主成分贡献率:第三主成分贡献率:2024/7/20江西理工大学理学院江西理

14、工大学理学院第一和第二主成分的累计贡献率:第一和第二主成分的累计贡献率: 由此可将以前三元的问题降维为两维问题第一和由此可将以前三元的问题降维为两维问题第一和第二主成分包含了以前变量的绝大部分信息第二主成分包含了以前变量的绝大部分信息97.875%97.875%2024/7/20江西理工大学理学院江西理工大学理学院o从协方差矩阵出发求解主成分的步骤:从协方差矩阵出发求解主成分的步骤:1 1、求解各观测变量、求解各观测变量 的的协方差矩阵。协方差矩阵。2 2、由由X的协方差阵的协方差阵,求出其特征根,即解方程求出其特征根,即解方程 ,可得特征根,可得特征根 。3 3、求解、求解 可得各特征根对应

15、的特征向量可得各特征根对应的特征向量U U1 1, U U2 2,U Up p 。 其中最大特征根的特征向量对应第一主成分的系数向其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系量;第二大特征根对应的特征向量是第二大主成分的系数向量数向量2024/7/20江西理工大学理学院江西理工大学理学院4 4、计算累积贡献率,给出恰当的主成分个数。计算累积贡献率,给出恰当的主成分个数。5 5、计算所选出的、计算所选出的k个主成分的得分。将原始数据的中个主成分的得分。将原始数据的中心化值心化值: : 代代入入前前k个个主主成成分分的的表表达达式式,分分别别计计算

16、算出出各各样样本本k个个主成分的得分。主成分的得分。6 6、对结果进行正确分析和合理解释对结果进行正确分析和合理解释. .2024/7/20江西理工大学理学院江西理工大学理学院v二、由相关矩阵求解主成分二、由相关矩阵求解主成分 当分析中所选择的经济变量具有不同的量纲,当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。的主成分分析。 量纲对于主成分分析的影响及消除方法量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的对数据进行标准化处理,以使每一个变量的均值均值为为0 0,方差为,方差为

17、1 1。 2024/7/20江西理工大学理学院江西理工大学理学院 数据标准化后数据标准化后, ,总体的协方差矩阵与总体的相总体的协方差矩阵与总体的相关系数相等关系数相等. .2024/7/20江西理工大学理学院江西理工大学理学院o主成分与原始变量的关系式为:主成分与原始变量的关系式为:2024/7/20江西理工大学理学院江西理工大学理学院o从相关系数矩阵出发求解主成分的步骤:从相关系数矩阵出发求解主成分的步骤:1 1、标准化各观测变量数据。、标准化各观测变量数据。2 2、求解标准化各观测变量的相关系数矩阵。、求解标准化各观测变量的相关系数矩阵。2 2、根据矩阵知识、根据矩阵知识 求解相关系数矩

18、阵的特征求解相关系数矩阵的特征根。根。3 3、求解各特征根对应的特征向量。、求解各特征根对应的特征向量。 其中最大特征根的特征向量对应第一主成分的系数向其中最大特征根的特征向量对应第一主成分的系数向量;第二大特征根对应的特征向量是第二大主成分的系量;第二大特征根对应的特征向量是第二大主成分的系数向量数向量2024/7/20江西理工大学理学院江西理工大学理学院v三、主成分性质三、主成分性质 1 1、主成分、主成分的协方差阵为对角阵的协方差阵为对角阵 2 2、p个随机变量的总方差为个随机变量的总方差为协方差矩阵协方差矩阵 的的所有所有 特征根之和特征根之和 说明主成分分析把说明主成分分析把p个随机

19、变量的总方差分解个随机变量的总方差分解成为成为p个不相关的随机变量的方差之和。个不相关的随机变量的方差之和。 当进行相关系数矩阵求解主成分,各变量标准化当进行相关系数矩阵求解主成分,各变量标准化后,则后,则p个主成分总的方差之和等于个主成分总的方差之和等于p 。 2024/7/20江西理工大学理学院江西理工大学理学院 3 3、贡献率:贡献率: 第第i i个主成分的方差在全部方差中所占比重个主成分的方差在全部方差中所占比重称为贡献率,反映了原来称为贡献率,反映了原来p个指标多大的信息,有多大个指标多大的信息,有多大的综合能力。的综合能力。 4 4、累积贡献率:、累积贡献率: 前前k个主成分共有多

20、大的综合能力,用这个主成分共有多大的综合能力,用这k个主成分个主成分的方差和在全部方差中所占比重的方差和在全部方差中所占比重来描述,称为累积贡献率。来描述,称为累积贡献率。2024/7/20江西理工大学理学院江西理工大学理学院 5.5.原始变量与主成分之间的相关系数(因子负荷量)原始变量与主成分之间的相关系数(因子负荷量) 和和 的相关密切程度与对应线性组合系数向量成的相关密切程度与对应线性组合系数向量成正比,与主成分标准差成正比,与原始变量的标正比,与主成分标准差成正比,与原始变量的标准差成反比。准差成反比。 当原始变量标准化后,标准化变量与主成分的相关当原始变量标准化后,标准化变量与主成分

21、的相关关系:关系:2024/7/20江西理工大学理学院江西理工大学理学院五、样本主成分求解五、样本主成分求解o变量变量Xo样本协方差为总体协方差的无偏估计样本协方差为总体协方差的无偏估计o相关矩阵相关矩阵R R为总体相关矩阵的估计为总体相关矩阵的估计2024/7/20江西理工大学理学院江西理工大学理学院若若X X已标准化,则可用相关矩阵代替协方差矩阵已标准化,则可用相关矩阵代替协方差矩阵2024/7/20江西理工大学理学院江西理工大学理学院2024/7/20江西理工大学理学院江西理工大学理学院为相关矩阵的为相关矩阵的特征值特征值2024/7/20江西理工大学理学院江西理工大学理学院o将将R R

22、的特征根依大小顺序排列的特征根依大小顺序排列o其对应的特征向量记为其对应的特征向量记为U1,U2,Un说明说明y1有最大方差,有最大方差,y2有次大方差有次大方差2024/7/20江西理工大学理学院江西理工大学理学院说明新的综合指标即主成分彼说明新的综合指标即主成分彼此不相关此不相关2024/7/20江西理工大学理学院江西理工大学理学院o样本主成分的性质:样本主成分的性质:1 1、第、第K K个主成分个主成分y yk k的系数向量是第的系数向量是第K K个特征根个特征根k k所对应所对应的标准化特征向量。的标准化特征向量。2 2、第、第K K个主成分的方差为第个主成分的方差为第K K个特征根个

23、特征根k k,且任意两且任意两个主成分都是不相关的,也就是个主成分都是不相关的,也就是y y1 1,y,y2 2,y,yp p的样本的样本协方差矩阵是对角矩阵协方差矩阵是对角矩阵3 3、样本主成分的总方差等于原变量样本的总方差,为、样本主成分的总方差等于原变量样本的总方差,为p p4 4、第第K K个样本主成分与第个样本主成分与第j j个变量样本之间的相关系数个变量样本之间的相关系数为:为: (因子载荷量)(因子载荷量)2024/7/20江西理工大学理学院江西理工大学理学院六、主成分个数的确定以及主成分分析的实现六、主成分个数的确定以及主成分分析的实现o一、主成分个数的选取一、主成分个数的选取

24、 1.1.累积贡献率达到累积贡献率达到85%85%以上以上 2. 2.根据特征根的变化来确定根据特征根的变化来确定数据标准化情况下:数据标准化情况下: 3. 3.作碎石图作碎石图描述特征值的贡献描述特征值的贡献2024/7/20江西理工大学理学院江西理工大学理学院o二、主成分分析的步骤二、主成分分析的步骤1 1、根据研究问题选取初始分析变量;、根据研究问题选取初始分析变量;2 2、根据初始变量特性判断用协方差矩阵求主成分还是用、根据初始变量特性判断用协方差矩阵求主成分还是用相关矩阵求主成分;(量纲不一致则将原始数据进行相关矩阵求主成分;(量纲不一致则将原始数据进行标准化处理用相关矩阵求主成分)

25、标准化处理用相关矩阵求主成分)3 3、求协方差矩阵或相关矩阵的特征根与相应的特征向量;、求协方差矩阵或相关矩阵的特征根与相应的特征向量;4 4、判断是否存在明显的多重共线性,若存在,返回至第、判断是否存在明显的多重共线性,若存在,返回至第1 1步;步;5 5、得到主成分表达式并确定主成分个数,依据方差贡献、得到主成分表达式并确定主成分个数,依据方差贡献率选取主成分;率选取主成分;6 6、对主成分作出合理解释,并结合其他研究法对研究问、对主成分作出合理解释,并结合其他研究法对研究问题进行深入分析。题进行深入分析。2024/7/20江西理工大学理学院江西理工大学理学院Matlab里的主成分分析函数

26、里的主成分分析函数1.princomp功能:主成分分析功能:主成分分析格式:格式:PC=princomp(X)PC,SCORE,latent,tsquare=princomp(X)说明:说明:PC,SCORE,latent,tsquare=princomp(X)对数据矩阵对数据矩阵X进行主成分分析,给出各主成分进行主成分分析,给出各主成分(PC)、所谓的所谓的Z-得分得分(SCORE)、X的方差矩阵的特征值的方差矩阵的特征值(latent)和每个数据点的和每个数据点的HotellingT2统计量统计量(tsquare)。 2024/7/20江西理工大学理学院江西理工大学理学院2.pcacov功

27、能:运用协方差矩阵进行主成分分析功能:运用协方差矩阵进行主成分分析格式:格式:PC=pcacov(X)PC,latent,explained=pcacov(X)说明:说明:PC,latent,explained=pcacov(X)通过协方差通过协方差矩阵矩阵X进行主成分分析,返回主成分进行主成分分析,返回主成分(PC)、协方差矩、协方差矩阵阵X的特征值的特征值(latent)和每个特征向量表征在观测量总和每个特征向量表征在观测量总方差中所占的百分数方差中所占的百分数(explained)。 3.pcares功能:主成分分析的残差功能:主成分分析的残差格式:格式:residuals=pcares

28、(X,ndim)说明:说明:pcares(X,ndim)返回保留返回保留X的的ndim个主成分所个主成分所获的残差。注意,获的残差。注意,ndim是一个标量,必须小于是一个标量,必须小于X的列的列数。而且,数。而且,X是数据矩阵,而不是协方差矩阵。是数据矩阵,而不是协方差矩阵。 2024/7/20江西理工大学理学院江西理工大学理学院4.barttest功能:主成分的巴特力特检验功能:主成分的巴特力特检验格式:格式:ndim=barttest(X,alpha)ndim,prob,chisquare=barttest(X,alpha)说明:巴特力特检验是一种等方差性检验。说明:巴特力特检验是一种等

29、方差性检验。ndim=barttest(X,alpha)是在显著性水平是在显著性水平alpha下,给下,给出满足数据矩阵出满足数据矩阵X的非随机变量的的非随机变量的n维模型,维模型,ndim即即模型维数,它由一系列假设检验所确定,模型维数,它由一系列假设检验所确定,ndim=1表表明数据明数据X对应于每个主成分的方差是相同的;对应于每个主成分的方差是相同的;ndim=2表明数据表明数据X对应于第二成分及其余成分的方差是相同对应于第二成分及其余成分的方差是相同的。的。 2024/7/20江西理工大学理学院江西理工大学理学院 例题例题2024/7/20江西理工大学理学院江西理工大学理学院2024/7/20

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号