主成份分析和医学应用:主成份 主成份分析和医学应用 10级GIS 班 沈娅男 100154022 在社会经济各方面的问题的研究中,问题的处理经常牵涉到很多层面和变量原因,各原因间往往会存在一定的相关关系变量原因太多,无疑会增加分析问题的难度和复杂性,所以,我们很轻易联想到在相关关系分析的基础上,用尽可能少的新变量来拟合替代原来较多的变量,而尽可能多的保留原来变量所反应的信息,这就是主成份分析方法 主成份分析方法反应了一个降维处理和分析的思维方法,在处理多种复杂问题时往往能起到意想不到的作用在这里,我着重想要表现主成份分析在医学研究中的应用首先是因为医学和人类的健康亲密相关,医学的发展关系到人类最根本的福祉;其次是因为医学具有巨大的实践价值,医学的研究结果能够发展生产力从而带动国民经济的发展多年来,因为统计学的发展和多种技术的进步,对数据进行多种定量分析已被广泛应用于医学研究中主成份分析方法也被广泛使用 在这里我选择了一个案例来说明主成份分析在医学研究中的作用分析的数据来自《中国关键年份儿童保健情况统计》 中国关键年份儿童保健情况统计 本例中有9个变量,分别是年份、出生体重小于两千五百克比重、围产儿童死亡率、新生儿破伤风发病率、新生儿破伤风死亡率、五岁以下儿童中重度营养不良比重、新生儿访视率、三岁以下儿童系统管理率、七岁以下儿童保健管理率。
然后按下列步骤计算: 、计算相关系数矩阵:我利用SPSS 软件求得了除年份以外的另外八个变量之间的相关系数矩阵,结果以下表,从表中能够看出,各变量之间含有一定的相关关系而且有些相关系数还比较大,靠近于1,因此本例很适合使用主成份分析 、计算各成份的特征值、方差贡献率和累积贡献率,结果以下: 由表可知,只有前两个变量原因的特征值大于1,所以选择前两个作为主成份,第一主成份的方差贡献率是%,前两个主成份的方差占全部成份方差的%,由此可见,前两个主成份已足够替代原来的变量,几乎涵盖原变量的全部信息 、计算主成份载荷,得到以下的成份矩阵: 成份矩阵 出生体重小于两千五百克比重 围产儿死亡率 新生儿破伤风发病率 新生儿破伤风死亡率 五岁以下儿童中重度营养不良比重 新生儿访视率 三岁以下儿童系统管理率 七岁以下儿童保健管理率 提取方法 :主成份 a. 已提取了 2 个成份 成份 F 1 F 2 a 从中能够得到两主成份的表示式,即: F1 = -*出生体重小于两千五百克比重+*围产儿死亡率+*新生儿破伤风发病率+*新生儿破伤风死亡率+*五岁以下儿童中重度营养不良比重-*新生儿访视率-*三岁以下儿童系统管理率-*七岁以下儿童保健管理率 同理可得F2的表示式。
、得出结论:在第一主成份中,除了出生体重小于两千五百克比重以外的变量的系数全部比较大;在第二主成份中变量出生体重小于两千五百克比重的系数比较大,能够看做是反应变量出生体重小于两千五百克比重的指标 这么,我们就用这两个主成份概括了全部的指标,描述了中国关键年份儿童的保健情况 从该案例中能够看出主成份分析含有化繁为简,简明清楚的优点,用最少的成份概括了原来纷杂的变量之间的联络该统计分析法不失为处理实际应用问题的一个有力工具。