医学统计学主成分分析与因子分析(第20章)课件

上传人:大米 文档编号:567993568 上传时间:2024-07-23 格式:PPT 页数:70 大小:1.49MB
返回 下载 相关 举报
医学统计学主成分分析与因子分析(第20章)课件_第1页
第1页 / 共70页
医学统计学主成分分析与因子分析(第20章)课件_第2页
第2页 / 共70页
医学统计学主成分分析与因子分析(第20章)课件_第3页
第3页 / 共70页
医学统计学主成分分析与因子分析(第20章)课件_第4页
第4页 / 共70页
医学统计学主成分分析与因子分析(第20章)课件_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《医学统计学主成分分析与因子分析(第20章)课件》由会员分享,可在线阅读,更多相关《医学统计学主成分分析与因子分析(第20章)课件(70页珍藏版)》请在金锄头文库上搜索。

1、欢迎来到医学课堂欢迎来到医学课堂1主主 成成 分分 分分 析析与与 因因 子子 分分 析析 Principal Components Analysis & Factor Analysis第二军医大学卫生统计学教研室第二军医大学卫生统计学教研室 张罗漫张罗漫第第20章章2讲课内容:讲课内容:第一节第一节 主成分分析主成分分析第二节第二节 因子分析因子分析3第一节第一节 主成分分析主成分分析Principal Components Analysis4一、基本思想一、基本思想数据的降维、数据的解释数据的降维、数据的解释 将原来众多具有一定相关性的指标,组将原来众多具有一定相关性的指标,组 合成一组新

2、的合成一组新的相互无关的综合指标。相互无关的综合指标。 从中选取几个较少的综合指标尽可能多从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。的反映原来众多指标的信息。这种既减少了指标的数目又抓住了主要矛这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。盾的做法有利于问题的分析和处理。56 如何利用这些指标对每一儿童的生长发育如何利用这些指标对每一儿童的生长发育 作出正确评价?作出正确评价?仅用单一指标:仅用单一指标: 结论片面;结论片面; 没有充分利用原有数据信息。没有充分利用原有数据信息。利用所有指标:利用所有指标: 各指标评价的结论可能不一致,使综合各指标评

3、价的结论可能不一致,使综合 评价困难;评价困难; 工作量大。工作量大。7找出几个综合指标找出几个综合指标(长度、围度、特体长度、围度、特体),这,这些综合指标是原始指标的线性组合,既保留些综合指标是原始指标的线性组合,既保留了原始指标的信息,且互不相关。了原始指标的信息,且互不相关。各综合指标提供的各综合指标提供的“信息信息”量大小用其方差量大小用其方差来衡量。来衡量。衡量一个指标的好坏衡量一个指标的好坏除了正确性与精确性外,除了正确性与精确性外,还必须能充分反映个体间的变异,一还必须能充分反映个体间的变异,一 项指标在个体间的变异越大,提供的信息项指标在个体间的变异越大,提供的信息 量越多。

4、量越多。8二、数学模型及几何意义二、数学模型及几何意义9Z = A X10第一主成分第一主成分在所有在所有Zi中最大中最大11第二主成分第二主成分理论上主成分个数最多为理论上主成分个数最多为m个个(指标个数指标个数)实际工作中确定的主成分个数总是小于实际工作中确定的主成分个数总是小于m个个在所有在所有Zi中为第中为第2大。大。 无关,互相垂直:无关,互相垂直:12X1X2112- -2- -2- -1- -120相关相关变异变异13X1X2Z1Z2112- -2- -2- -2- -211- -1- -1- -1- -1222014Z1Z2- -2- -211- -1- -1220相关相关变异

5、变异15三、主成分的求法及性质三、主成分的求法及性质16(一)主成分的求法(一)主成分的求法 1. 1. 对各原始指标值进行标准对各原始指标值进行标准化化为了方便,仍用为了方便,仍用Xij表示表示Xij。17标准化后的数据矩阵标准化后的数据矩阵X =182. 求出求出X1 , X2 , , Xm 的的相关矩阵相关矩阵RR=Cov(X) =19Pearson 相关系数相关系数 标准化后的协方差标准化后的协方差协方差协方差203. 求出矩阵求出矩阵R的全部特征值的全部特征值(eigenvalue) i, 第第i个主成分的组合系数个主成分的组合系数ai1, ai2, , aim满满 足方程组足方程组

6、: : (r11 i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22 i) ai2+ + r2m aim=0 rm1 ai1+ rm2 ai2+ + (rmm i) aim =0 21 (r11 i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22 i) ai2+ + r2m aim=0 rm1 ai1+ rm2 ai2+ + (rmm i) aim =0 i为为矩阵矩阵R的第的第i个特征值,个特征值, 共有共有m个非个非负特征值,由大到小的顺序排列为:负特征值,由大到小的顺序排列为: 1 2 m0 i=Var(Zi)224

7、. 由以上方程组,求出相应于特征值由以上方程组,求出相应于特征值 i 的的 特征向量特征向量(eigenvector) (ai1 , ai2 , , aim)23(二)主成分的性质(二)主成分的性质 1.各主成分互不相关各主成分互不相关 242.主成分的贡献率与累积贡献率主成分的贡献率与累积贡献率 (原始指标值标准化原始指标值标准化)(指标个指标个数数)贡献率贡献率累积贡献率累积贡献率253.主主成分个数的选取成分个数的选取(1)前前k个主成分的累积贡献率个主成分的累积贡献率70%。(2)主成分主成分Zi的的特征值特征值 i 1。4.因子载荷因子载荷(第(第i主成分主成分Zi与第与第j原始指标

8、原始指标Xi间相关系数间相关系数) 265.样品的主成分得分样品的主成分得分27四、实例四、实例28293031 1.主成分个数的选取主成分个数的选取 3很接近于很接近于1 1; 3 与与 2的贡献率相差不大,为的贡献率相差不大,为25%左右,左右, 若舍去若舍去 3不合理。不合理。 取前三个主成分。取前三个主成分。322.列出主成分表达式列出主成分表达式Z1为急性炎症成分为急性炎症成分(X1转氨酶、转氨酶、X2肝大指数)肝大指数)Z2为慢性炎症成分为慢性炎症成分(X3硫酸锌浊度硫酸锌浊度 )Z3为癌变成分为癌变成分(X4甲胎球蛋白甲胎球蛋白 )333.求出因子载荷阵求出因子载荷阵344.主成

9、分得分主成分得分35p标准化指标主成分还原为标准化指标主成分还原为原始指标主成分原始指标主成分36p 将该肝病患者的四项肝功能指标代入将该肝病患者的四项肝功能指标代入 原始指标主成分原始指标主成分表达式:表达式: Z1=2.50865 Z2=1.06626 Z3=1.22943 该肝病患者可能为急性炎症该肝病患者可能为急性炎症。37五、主成分分析的应用五、主成分分析的应用 1.1.对原始指标进行综合对原始指标进行综合 以互不相关的较少个综合指标反应众多原以互不相关的较少个综合指标反应众多原 始指标提供的信息。始指标提供的信息。 主成分回归主成分回归(解决多元共线问题解决多元共线问题)。 2.进

10、行综合评价进行综合评价 383.进行进行探索性分析探索性分析 利用因子载荷阵,找出影响各综合指标利用因子载荷阵,找出影响各综合指标的的 主要原始指标。主要原始指标。 4.对样品进行分类对样品进行分类 利用主成分得分对样品进行分类:利用主成分得分对样品进行分类: Z1为急性炎症成分为急性炎症成分 Z2为慢性炎症成分为慢性炎症成分 Z3为癌变成分为癌变成分39第二节第二节 因子分析因子分析Factor Analysis40一、因子分析基本思想一、因子分析基本思想p从分析多个可观测的原始指标的相关关系从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个入手,找到支配这种相关关系的有

11、限个不可不可观测的潜在变量。观测的潜在变量。是多元分析中处理降维的是多元分析中处理降维的一种统计方法。一种统计方法。p如:脑部疾病患者的如:脑部疾病患者的意识清醒状态意识清醒状态可由语可由语言能力、辩识能力、记忆能力、理解能力与言能力、辩识能力、记忆能力、理解能力与思维逻辑能力等可观测的指标反映。思维逻辑能力等可观测的指标反映。41二、因子分析数学模型二、因子分析数学模型 X1: :收缩压收缩压X2: :舒张压舒张压X3: :心跳间隔心跳间隔X4: :呼吸间隔呼吸间隔X5: :舌下温度舌下温度F1: :交感神经交感神经F2: :副交感神经副交感神经 common factor42 specif

12、ic factor common factor43Xi:观测指标观测指标(标准化数据标准化数据) Fi:公因子公因子 ei:特殊因子特殊因子aij:因子载荷因子载荷(计算关键项计算关键项)44X = AF + e454647三、因子模型的性质三、因子模型的性质 矩阵矩阵A的统计意义的统计意义1.1.公共度公共度(共性方差共性方差 )48因子的共性方差因子的共性方差492.因子贡献与因子贡献率因子贡献与因子贡献率矩阵矩阵A第第j列元素列元素 反映了第反映了第j个公个公因子因子Fj对所有原始指标的影响对所有原始指标的影响; ;数据标准化后全部原始指标的总方差为指数据标准化后全部原始指标的总方差为指

13、标个数标个数m。Fj对原始指标对原始指标的方差贡献率的方差贡献率50各因子的贡献各因子的贡献513.因子载荷及因子载荷阵因子载荷及因子载荷阵A52四、因子载荷阵的求解及计算步骤四、因子载荷阵的求解及计算步骤 1. 收集原始数据并整理为下表收集原始数据并整理为下表 532.对各指标进行标准化对各指标进行标准化3.求指标间的相关系数矩阵求指标间的相关系数矩阵RX4.求指标间的约相关系数矩阵求指标间的约相关系数矩阵R* (1)R*的非对角线元素与相关矩阵的非对角线元素与相关矩阵RX的的 非对角线元素相等非对角线元素相等 (2)R*的对角线元素为共性方差的对角线元素为共性方差545. 求出约关系数矩阵

14、求出约关系数矩阵R*所有大于零的特所有大于零的特 征值及相应的特征向量征值及相应的特征向量6. 写出因子载荷阵写出因子载荷阵A,得出原始指标,得出原始指标X的的 公因子表达式公因子表达式55p要求:要求:1. 保留公因子个数保留公因子个数q小于指标个数小于指标个数m,原则:原则: j1 前前k个公因子累积贡献率个公因子累积贡献率70%2. 各共性方差各共性方差 接近于接近于1。3. 各原始指标在同一公因子各原始指标在同一公因子Fj上的因子载荷上的因子载荷 之间的差别应尽可能大。之间的差别应尽可能大。56五、实例五、实例571.主成分解主成分解585960主成分解:主成分解:除因子除因子1 1可

15、初步认定为综合因子外,其余可初步认定为综合因子外,其余3个因子的专业意义不明显。个因子的专业意义不明显。2.主因子解:主因子解:除因子除因子1 1可初步认定为综合因子外,其余可初步认定为综合因子外,其余3个因子的专业意义不明显。个因子的专业意义不明显。61六、因子旋转六、因子旋转当各公因子的专业意义难以解释时,可以当各公因子的专业意义难以解释时,可以 通过因子旋转来解决。通过因子旋转来解决。如求得的因子载荷阵如求得的因子载荷阵A不甚理想,可右乘不甚理想,可右乘 一个正交阵一个正交阵T,使,使AT有更好的实际意义,有更好的实际意义, 使各原始指标在同一公因子上使各原始指标在同一公因子上 之间之间

16、 差别尽可能增大。差别尽可能增大。称因子正交旋转。称因子正交旋转。正交旋转可保持各指标的共性方差不变;正交旋转可保持各指标的共性方差不变; 各公因子互不相关。各公因子互不相关。常用常用方差最大旋转法方差最大旋转法等。等。626364七、几点注意七、几点注意 1.因子分析的解不唯一因子分析的解不唯一(1)同一问题可以有不同的因子分析解:同一问题可以有不同的因子分析解: 主成分解、主因子解、极大似然解主成分解、主因子解、极大似然解(2)进行因子旋转以获得更为满意的解。进行因子旋转以获得更为满意的解。2.因子得分因子得分 不能直接进行计算,但可以估计。不能直接进行计算,但可以估计。 653.主成分分

17、析与因子分析间的关系主成分分析与因子分析间的关系(1)两者的分析重点不一致两者的分析重点不一致 Z=AX主成分为原始变量线性组合,主成分为原始变量线性组合,重点在综合重点在综合原始变量信息。原始变量信息。 X=AF+e原始变量为公因子与特殊因子线性组合,原始变量为公因子与特殊因子线性组合,公因子重点公因子重点反映支配原始变量的不可观测反映支配原始变量的不可观测的潜在因素。的潜在因素。重要重要66(2)两者之间有密切的关系两者之间有密切的关系因子分析完全能够替代主成分分析,并且因子分析完全能够替代主成分分析,并且 功能更为强大。功能更为强大。主成分分析是一种思想,是一种得到目的主成分分析是一种思想,是一种得到目的 的中间手段,是其它多元统计分析方法的中间手段,是其它多元统计分析方法的的 基础,如因子分析常用主成分法求解。基础,如因子分析常用主成分法求解。主成分分析单独应用有其独到之处,如应主成分分析单独应用有其独到之处,如应 用于综合评价与主成分回归时非常实用、用于综合评价与主成分回归时非常实用、 科学。科学。67讲课内容:讲课内容:第一节第一节 主成分分析主成分分析第二节第二节 因子分析因子分析68Thank you!6970

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 药学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号