主成分分析-幻灯片

上传人:F****n 文档编号:88133425 上传时间:2019-04-19 格式:PPT 页数:49 大小:609KB
返回 下载 相关 举报
主成分分析-幻灯片_第1页
第1页 / 共49页
主成分分析-幻灯片_第2页
第2页 / 共49页
主成分分析-幻灯片_第3页
第3页 / 共49页
主成分分析-幻灯片_第4页
第4页 / 共49页
主成分分析-幻灯片_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《主成分分析-幻灯片》由会员分享,可在线阅读,更多相关《主成分分析-幻灯片(49页珍藏版)》请在金锄头文库上搜索。

1、罗树生,主成分分析,x1,x2,C1,x1,x2,x3,主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,将多个具有较强相关性的实测变量综合成少量综合变量。,一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。,在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异

2、方面的信息。这些综合指标就称为主成分。,主成分分析的几何解释,平移、旋转坐标轴,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Cl和C2。Cl和C2是两个新变量。,根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在Cl轴方向上的离 散程度最大,即Cl的方差最大。变量Cl代表了原始数据的绝大 部分信息,在研究某问题时,即使不考虑变量C2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Cl轴上,对数据中包含的信息起到了浓缩作用。,Cl,C2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来

3、的虚假性。二维平面上的个点的方差大部分都归结在Cl轴上,而C2轴上的方差很小。Cl和C2称为原始变量x1和x2的综合变量。C简化了系统结构。,主成分分析的数学模型,通常情况下,所分析的多个变量具有不同量纲或均数/方差相差很大,不适于用协方差矩阵做主成分分析,而采用基于相关系数矩阵的主成分分析。 首先将原变量标准化。设有n个样本,x1,x2xp为p个原指标变量,经过标准化后得到标准化变量X1,X2Xp:,i=1,2,p,我们作如下定义: (1) 若C1=w11X1+w12X2+ +w1pXp, 且使 Var(C1)最大,则称C1为第一主成分; 但系数w若无限制可使Var(C1)无限大,故加约束条

4、件: w112+w122+ +w1p2=1 组合系数( w11, w12, w1p)可看作一个向量,代表p维空间中的一个方向,相当于全部n个个体在该方向上的一个投影。要求Var(C1)最大就是要找一个最“好”的方向,使得所有个体在该方向上的投影最为分散。,如果第一主成分不足以代表原所有p个变量,则考虑第二个主成分: C2=w21X1+w22X2+ +w2pXp, 要求使 Var(C2)最大; 约束条件: w212+w222+ +w2p2=1 Cov(C1,C2)=0 Cov(C1,C2)=0即第一、第二主成分的协方差(相关系数)为零,目的是为了使C1中已有的信息不在C2中出现。结果是在与第一个

5、向量垂直的所有方向中,找到一个使得所有个体在其上的投影与在其它方向上的投影相比最为分散。 同样的方法,可以继续寻找第三、第四主成分,至多有p个。,(全)主成分模型,主成分的性质 : 主成分C1,C2,Cp具有如下几个性质: (1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关系数Corr(Ci,Cj)=0 i j (2) 组合系数(wi1,wi2,wip)构成的向量为单位向量, wi12+wi22+ +wip2=1 (3) 各主成分的方差是依次递减的, 即 Var(C1)Var(C2)Var(Cp),(4) 总方差不增不减, 即 Var(C1)+Var(C2)+ +Var(Cp) =V

6、ar(x1)+Var(x2)+ +Var(xp) =p 这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种重组,主成分不增加总信息量,也不减少总信息量。 (5) 主成分和原变量的相关系数 Corr(Ci,xj)=wij,=wij,(6) 令X1,X2,Xp的相关矩阵为R, (wi1,wi2,wip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值i就是第i主成分的方差, 即 Var(Ci)= i 其中i为相关矩阵R的第i个特征值(eigenvalue) 12p0 (7)第i个主成分对所有原变量的贡献为:,(8)所有主成分对原变量xj的贡献为:,求主成分的步骤,1

7、.计算相关系数矩阵R,2.解特征方程|R-I |=0,求出相关阵R的特征根(eigenvalue)i,且按从大到小顺序排列: 1 2 p , 3.求矩阵R关于i的满足正规条件的特征向量(eigenvector): Li=(li1, li2,lip) 特征向量即为主成分系数。 当变量较多时,特征根的计算较复杂,需借助计算机软件实现。,一个简单例子,例1. 测得10名幼儿的身高,体重如下表,求主成分。,1.求相关系数矩阵R r11=r22=1, r12=r21=0.9547,2.求R的特征根,解方程:,即(1-)*(1-)-0.9547*0.9547=0 得两个根 1.9547和0.0453,记为

8、: 1=1.9547,2=0.0453,3.求特征向量Li 1=1.9547所对应的特征向量用下式解: l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1 得l11=0.7071, l12=0.7071, 第一主成分为: C1=0.7071X 1+0.7071X2 同样的方法,用2=0.0453可计算出第二主成分,此处略。,主成分的数目的选取 如前所述,p个随机变量,便有p个主成分。由于总方差不增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小。 一般来说,只有前几个综合变量才称得上主(要

9、)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。,保留多少个主成分主要考虑保留部分的累积方差在方差总和中所占百分比(即累积贡献率),它标志着前几个主成分概括信息之多寡。实践中,一般推荐达到80%的累积方差即可。常用的判断方法有: 1. 特征值准则:取特征值1的主成分。是SPSS软件默认的方法。 2. 累积方差比例原则:一般推荐累积方差比例达到80以上时,即可停止选择主成分。 3. 利用碎石图:将主成分按特征根从大到小排列,画出特征根随主成分个数变化的散点图,根据图的形状来判断保留主成分的个数。曲线开始变平的前一个点(拐点)认为是提取的最大主成分数。也就是根据特征根

10、的变化速率来确定。,例2:测得某地19-22岁年龄的部分城市男生身体形态指标:身高(x1,cm)、坐高(x2,cm)、体重(x3,kg)、胸围(x4、cm)、肩宽(x5,cm)、骨盆宽(x6,cm)。试进行主成分分析。,特征值、方差比例和累积贡献率,本例考虑保留3个主成分,累积贡献率可达90%。,主成分Ci表达式: SPSS软件不能直接给出主成分系数wij,经过FACTOR 过程产生的是因子负荷系数,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需将因子负荷系数输入数据编辑窗口,利用 “主成分相应特征根的平方根与特征向量乘积为因子负荷系数”的性质用TRANSFORMCOMPUTE 来

11、计算特征向量,得到主成分的线性表达式。,因子负荷系数转换为主成分系数(特征向量),主成分的应用,一、主成分综合评价 医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题: 1. 各指标量纲不同,不能直接相加; 2. 各指标间存在相关,直接相加产生信息重叠; 3.相加时需要考虑各指标的权重。 主成分分析可方便解决以上问题。,例3. 为评价31个地区的生殖健康状况,某研究者考察了此31个地区的4个有关生殖健康指标的得分,这4个指标的得分均是越高越好,它们各自反映了生殖健康的一个方面。对这31个地区进行综合评价。

12、,第一主成分贡献率达到82.66%,考虑只以第一主成分作为综合评价指标。 C1=0.4993X1+0.5189X2+0.5109X3+0.4695X 4 这里Xj为标准化值。,根据上述主成分得分计算公式,可得出31个地区各自的主成分得分。 根据得分的大小顺序可将这些地区分组。如需分为4个组,则可取第25分位数、中位数、第75分位数为分界点。分值最高的25%为生殖健康较优组。,二、主成分回归,当自变量间存在明显共线性时,回归方程的结果可能出现重大问题,以致无法解释。 主成分之间相关性为零,可解决原变量的共线性问题。 主成分回归指用原变量的主成分代替原自变量作回归分析。,主成分回归的步骤,1.求自

13、变量的主成分; 2. 舍去贡献率近于0的主成分; 3.将留下的主成分代替原变量,建立与应变量的回归方程; 4.将主成分的表达式代入回归方程,得到原自变量与应变量的回归方程。,例4. 有22例胎儿受精龄(Y,周)与胎儿外形测量指标:身高(X1,cm),头围(X2,cm),体重 (X3,g)的数据。试求由X1,X2,X3推算Y的回归方程。,用原始资料建立回归方程,得: y=11.0117+1.6927x1-2.1589x2+0.0075x3 这里x2的系数为负,意为头围与胎儿周龄成负相关,与实际情况不符。原因是3个自变量之间相关性较强:,最大条件指数=1/3=1184.7, 说明x1-x3存在严重

14、共线性。,进行主成分分析,得到特征值和特征向量: 1=2.9261, l1=( 0.58057 0.58107 0.57034) 2=0.0714, l2=(- 0.41852 -0.38789 0.82121) 3=0.00247, l3=( 0.69841 -0.71547 0.01799) 根据特征向量计算出主成分C1和C2,取这两个主成分与y作回归 C1=0.58057X1+0.58107X2+0.57034X3 C2= - 0.41852 X1+ -0.38789 X2+ 0.82121 X3 其中,Xi是原始变量xi标准化变换后的变量: X1=(x1-33.0455)/9.7102

15、, X2=(x2-23.2636)/6.8575 X3=(x3-936.9091)/690.3048,得到方程: y=23.7273+3.8822C1+3.0991C2 再将C1和C2与原变量x1-x3的关系代入上式即得出主成分回归方程: y=10.4369+0.09854x1+0.1537x2+0.0069x3 此结果用到C1和C2,累积贡献率为99.92%,即最终方程利用了原始资料99.92%的信息 注意:如果用全部3个主成分做回归,则最终结果与原变量直接做回归一样。,如果原有p个自变量X1,X2,Xp,那么,采用全部p个主成分所作回归完全等价于直接对原变量的回归;采用一部分主成分所作回归虽不完全等价于对原变量的回归,但往往能摆脱某些虚假信息,而出现较合理的结果。 以上思路也适用于判别分析,当自变量高度相关时,直接作判别分析同样有多重共线性问题,可先计算自变量的主成分,然后通过主成分估计判别函数。,谢 谢!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号