同济医学院-《医学多元统计》课件-主成份_因子分析1

上传人:wm****3 文档编号:51839136 上传时间:2018-08-16 格式:PPT 页数:29 大小:123.50KB
返回 下载 相关 举报
同济医学院-《医学多元统计》课件-主成份_因子分析1_第1页
第1页 / 共29页
同济医学院-《医学多元统计》课件-主成份_因子分析1_第2页
第2页 / 共29页
同济医学院-《医学多元统计》课件-主成份_因子分析1_第3页
第3页 / 共29页
同济医学院-《医学多元统计》课件-主成份_因子分析1_第4页
第4页 / 共29页
同济医学院-《医学多元统计》课件-主成份_因子分析1_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《同济医学院-《医学多元统计》课件-主成份_因子分析1》由会员分享,可在线阅读,更多相关《同济医学院-《医学多元统计》课件-主成份_因子分析1(29页珍藏版)》请在金锄头文库上搜索。

1、 主成份分析n主成份分析:对数据和变量结构进行分析处理的一种行之有效的多元统计分析方法,它可在不损失或尽量少损失原有指标信息的情况下,将多个具有相关性的指标转换成少数几个互相独立的综合指标,即主成份.如何去寻找主成份呢?n这可从“点集”的角度来讨论:在有P(2)个指标的P维空间中,抽取了 n个点(即n个观察对象),我们希望弄清这n个 点间的关系,显然在高维空间中点的关系不 直观,若把这些点“近似地”在较低维(如m维 ,mP)空间中表示出来,无疑对我们的研究 有帮助。这也就是主成分分析的基本思想和 目的。Y1X1 X2如何达到这个目的呢?Y(Y1,Y2,YP) 是由 X(X1,X2,XP) 经正

2、交变换得来的,即存在一个正交矩阵U,有:YUX正交变换n在所有形如上面的线性变换中,选取这样的线性变换,它使Y1具有最大方差, Y2次之, ,依此类推,即方差的大小顺序是V(Y1)V(Y2)V(YP),且Y1,Y2,YP彼此独立(互不相关)。 这样得到的Y1,Y2,YP分别叫做指标变量X的第一,第二,第P主成分(principel component)。n有P个原指标变量,相应的就应该有P个主成分,但只有前面的m个主成分具有实际的解释意义,将具体讨论m的确是方法。n由于Y是X的线性变换(即线性组合),所以Yi (i1,2,P)都是X的一个综合指标。主成分分析的计算步骤 n(1)计算各变量的相关

3、系数矩阵R(rij);n(2) 计算相关矩阵R的特征值,并按由大到小的顺序排列:1 2 p。n(3) 计算贡献率i 和累积贡献率m ,确定m的值(即主成分的个数)。n(4) 求出前m个特征值1 , 2 , ,m所对应的单位特征向量 主成分的贡献率与主成分的个数 n 1. 主成分的贡献率第i个主成分提取的信息占全部P个变量总信息的比,称为该主成分的贡献率,即:i为第i个主成分Yi的贡献率。如果是通过相关矩阵R求主成分,则主成分的贡献率的计算尤为简单:i =i / p 显然有 = 1,即全部主成分对X “总方差”的贡献率率为100。2. 累积贡献率把多个主成分的贡献率由大到小累加起来,就得到各主成

4、分的累积贡献率m :m 这就是前m个主成分Y1,Y2,Ym对X “总方差”的累积贡献率。m 愈大,表明前m个主成分的方差占全部总方差的比率愈大,反映X的总信息就越多。当 m 接近于1时,表明前m个主成分已基本上综合了原指标X的总信息。3. 主成分个数m的确定一般可有如下两种方法来确定主成分的个数(即m取值): 确定某个m使得m 70。 取m所有i中大于或近似于1的个数。(其中i为相关阵R的特征值)。因子分析 factor analysis1. 因子(factor) : 进行多指标变量(因素)研究 时,尽管各指标之间的关系错综复杂,但都可以概 括为两个方面。一方面是所有指标(变量)各自都表 现出

5、一定的相对独立性;另一方面,它们又表现出 一定的相互关联性。对于前者,可以看作为事物“ 个体特性”的反映;对于后者,则可认为是构成该 事物的所有特征的共性反映。共性的背后有一个共 同的东西在支配这些指标,使之表现为不同的方式 组合,体现出共同的作用。因子分析的概念n例如,人的收缩血压和舒张血压这两个指标一方面表现出各自的独立性,各自的测量值不同,意义不同。然而,收缩压与舒张压又总是密切相关的,其根本原因在于收缩压和舒张压二者都是受心脏血管系统支配的。心血管系统既要求收缩压和舒张压对心血管的正常活动分担不同的任务,同时又要求二者密切配合,共同为心血管系统的正常功能服务。反过来,假设我们还不知道收

6、缩压和舒张压是受心血管系统的控制。现在,通过医学研究,测得n个个体的收缩压和舒张压,得到了一系列研究数据。问题在于可否通过对这些数据的统计学分析,找出影响这两个血压的“共性”来,即我们称之为因子的东西。2. 因子分析因子分析就是寻找隐含在多变量数据中的、无法直接观察到的公共因子的一种多元统计分析方法。其目的就是要通过对多变量观察数据的分析,找出支配多个指标间相互关系的少数几个(小于原指标个数)共性因子(有时也称公共因子,下同),而且要求这些找出的公共因子彼此互相独立。尽管这些公共因子往往不能直接测定,但若以这些共性因子(新指标变量)代替原来观察测量的变量,却能够使原指标所包含信息总量损失很小。

7、 因子分析的数学模型设对于某一研究问题,观察了P个变量(X1,X2,XP),记为X=(X1,X2,XP)。变量Xi Xi的独立成分Xi 的共性成分若Xi 与其他的Xi 无任何相关性(即没有共性部分),则等式右边的公共成分部分就为零。由于支配(或影响)P个变量的共性因子往往不止一个,记为m个:f1,f2,fm(mp),则有: XAFCU 其中 A(aij)pxm F(f1,f2,fm) CU=(C1U1,C2U2,CPUP)若记Xi*ai1f1ai2f2aimfm,则Xi*为Xi的共性部分,系数aij则表示Xi在因子fj上的载荷(负荷),又叫做因子载荷。也有人把aij叫权重系数,其大小表明Xi依

8、赖fj的程度。而矩阵A(aij)pxm则称为因子载荷矩阵。Ui表示Xi的独立部分,又称为独立因子。Ci为Xi在Ui上的负荷。因子载荷所谓因子分析,就是从可以测量的变量(X1,X2,XP)的样本观察值,即研究获得的数据资料中,求出因子载荷矩阵A;再运用求出的因子和因子载荷矩阵来预测公因子(f1,f2,fm)。n在进行因子分析时,为了消去变量量纲的影响,常常将变量观察结果首先进行标准化处理。如果把标准化处理后的结果仍然记为(X1,X2,XP),则有E(Xi)0,V(Xi)1。如果运用标准化的数据进行分析,所得的结果包括共性因子和独立因子也都是标准化的了,即有E(fj)0,V(fj)=1,E(Ui)

9、0,V(Ui)=1。 n 进行因子分析有四个任务:估计出载荷矩阵A;确定共性因子个数m;确定有实际意义的载荷矩阵B;计算因子得分。 1. 因子载荷aij的意义Xiai1f1ai2f2aimfm CiUi 那么,第i个变量Xi与第j个因子fj的协方差便为:r xifiaij因子f1,f2,fm的系数ai1,ai2,aim是用来度量变量Xi可用f1,f2,fm线性组合表达的程度的。也就是说,因子载荷aij反映了Xi依赖fj 的程度,常常把aij叫做权重。几个统计量的意义2. 变量共同度的统计意义V(Xi)V(ai1f1ai2f2aimfm CiUi) V(fi)+V( CiUi)令Hi 2 V(a

10、i1f1ai2f2aimfm ), 则有:V(Xi) Hi 2 Ci 2又由于V(Xi) 1,故有Hi 2 Ci 2 = 1 为此,称Hi 2为指标变量Xi的共同度(communality)或共性方差(common vriance)。第i个变量的共同度实质上是载荷矩阵A的第i 行元素的平方和。n V(Xi)=共性方差Hi 2 剩余方差 Ci 2 n 显然Hi 2大则Ci 2必减少,故Hi 2的大小表明了Xi对于f1,f2,fm的共同依赖程度之大小,这是为什么我们称Hi 2为Xi的共同度的原因。3. 公因子fj方差贡献的统计意义n 在因子载荷阵A中,对A的各列元素求平方和,记为gj2 ngj2与

11、Hi 2统计意义恰好相反。 gj2表示的是第j个公因子fj对于(X1,X2,XP)的总影响,即gj2是同一公因子fj对于所有变量X所提供的方差的总和。显然gj2是衡量公因子间相对重要性的关键指标。 gj2愈大,表明第j个因子fj对X的“贡献”也愈大。若把因子载荷矩阵A的各列元素的平方和都计算出来,并按照计算结果的大小排序,即所有m个因子的相应的“贡献”满足 g12g22gm2,则可以以此为依据,提炼出相对影响较大的一些公因子,这是在因子分析时确定因子个数m的立足点。确定了因子的个数,那么,与g12 、g2、gm2相应的公因子f1,f2,fm便称为第一公因子,第二公因子,第m公因子。因子载荷矩阵

12、A的求法n 从上面一节的介绍不难看出,因 子分析的关键内容之一就是载荷矩阵A 的估计。只有估计出了A,其他的计算 才可能进行。1. 矩阵A的求法RAA若不考虑独立因子部分,即取 R*AAR (rij*) 则R*与相关阵R的区别仅在于主对角线上的元素。R*的主对角线上的元素依次为变量共同度Hi 2 (i1,2,p),而相关阵R的主对角线上的元素均为1,为此通常称R*为约相关矩阵。公因子个数m的估计n方法一:如果约相关矩阵R*非负定(即R*的特征根均是非负实数.m的确定与主成分分析相似。如果前m个特征根之和占全部特征根之和的70(或75)以上,那么,只须选取这前m个公因子就够了。n方法二:公因子的个数m应该等于R*的特征根中“明显”(由研究的需要自己确定标准)大于零的个数,即此时mR*的所有特征根中“明显”大于零的个数。方差最大正交旋转 首先要明确这里的“理想”是指什么意义?目前经典的理解是要使因子载荷系数(载荷矩阵)满足所谓“简单结构”原则:即要找一个这样的正交矩阵Q,以使矩阵AQ的每一列的所有元素的绝对值都向0或1两极分化(即其绝对值要么趋于0,要么趋于1)。实施这种“简单结构”原则后,新的因子负荷系数的绝对值大小,能够明确地表明某个变量主要受哪些因子的支配。 因子得分的估计 n FX B 因子分析的应用 n结构效度分析

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号