11-使用SAS进行主成分分析

上传人:飞*** 文档编号:51433862 上传时间:2018-08-14 格式:PPT 页数:52 大小:485.50KB
返回 下载 相关 举报
11-使用SAS进行主成分分析_第1页
第1页 / 共52页
11-使用SAS进行主成分分析_第2页
第2页 / 共52页
11-使用SAS进行主成分分析_第3页
第3页 / 共52页
11-使用SAS进行主成分分析_第4页
第4页 / 共52页
11-使用SAS进行主成分分析_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《11-使用SAS进行主成分分析》由会员分享,可在线阅读,更多相关《11-使用SAS进行主成分分析(52页珍藏版)》请在金锄头文库上搜索。

1、 主成分分析主成分分析一、基本概念在医学研究的多指标(因素)分析中,指标 越少,分析越简单,如果这些指标互不相关,就 能单个进行分析,问题也比较简单。根据综合评价的要求,选择具有代表性的7个指标:病床使用率( )x1、周转次数(次)X2、平均住院日(天)X3、出院人数(人)X4、 病死率()X5、日均门诊人次(人)X6、出院者平均费用(元)x7, 组成评价指标体系。以2004年全国30个省市自治区为例。选取10个指标(x1X10)。 运用主成分来考察30个省市自治区的农村公共卫生情况, 其中X1 为饮用自来水人口占农村人口百分比(),X2为病床使用率(), X3为平均住院日(日),X4为卫生厕

2、所普及率 (%),X5为设置卫 生室的村占总村数的百分比(),X6为平均每千农业人口乡村医生 和卫生员(人),X7为粪便无害化处理率(),X8为平均每村医生 和卫生员数(个),X9为平均每村卫生室儿童疫苗接种人次数(人次) X10为平均每村卫生室孕产妇检查人次数(人次)。在第一主成分中,第一、四、七项指标系数较大,这3个指标起主要作用。反映了农村公共卫生中饮用自来水和卫生厕所的普及 情况: 在第二主成分中,第五、八项指标的影响大,可将之看成反映每 村卫生机构和卫生人员设置情况的综合指标。 第三主成分中,第九、十项指标影响最大远超过其他指标的影 响,反映了农村接种和妇幼保健情况主成分概念首先由

3、Karl Parson在1901年引进,当 时只对非随机变量来讨论的。1933年Hotelling将这个概 念推广到随机变量。在多数实际问题中,不同指标之间是有一定相关性 。由于指标较多及指标间有一定的相关性,势必增加分 析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新 的互相无关的几个综合指标来代替原来指标。同时根据 实际需要从中可取几个较少的综合指标尽可能多地反映 原来的指标的信息。主成分分析是考察多个数值变量间相关性 的一种多元统计方法,它是研究如何通过少 数几个主成分来解释多变量的方差协方差 结构。导出几个主成分,使它们尽可能多地保留 原始变量的信息,且彼此间不相关。多指标

4、的主成分分析是在不损失或很少损失 原有信息的前提下,将原来多个彼此相关的指标 转化成新的少数几个(最多等于原指标个数)彼 此独立(无相关关系)的综合指标的一种统计分 析方法。多指标的主成分分析在医学上常用于寻找判 断某种事物或现象(如生长发育情况、身体素质 情况、患病情况等)的综合指标。例如:评价儿童的生长发育情况,某研究者收集了12个指标,如身高、体重、胸围、肩宽、肺活量等资料。应 如何利用这12个指标进行评价?这些指标个数很多,且指标间往往是彼此相关的。如仅选用其中一个指标来评价,则:损失信息如分别应用每个指标,则:评价是孤立的,非综合性多指标的主成分分析就是要综合这些指标,从而找出多指标

5、的主成分分析就是要综合这些指标,从而找出反映青少年身体素质的反映青少年身体素质的少数几个彼此独立的综合指标少数几个彼此独立的综合指标。这这 些综合指标可能蕴藏着判断青少年身体素质的重要信息。些综合指标可能蕴藏着判断青少年身体素质的重要信息。除了多指标的主成分分析,还有多样品的主成分分析。多样品的主成分分析是从多个样品中寻 找少数几个彼此独立的综合样品,其原理和方法与 多指标的主成分分析相似,但在实际科研工作中用 得较少。二、 主成分分析与聚类分析的区别:主成分分析和聚类分析都可以减少指标(或样品)个 数,因此两者都可和其他统计分析方法(如判别分析、 回归分析等)结合使用。主成分分析的好坏关键在

6、于给综合指标所蕴藏的信 息以恰当的解释。两者都可减少原有指标(或样品)的个数两者都可减少原有指标(或样品)的个数主成分分析是从原有指标出发,主成分分析是从原有指标出发, 寻找几个综合指标寻找几个综合指标来减少指标个数来减少指标个数 聚类分析是先把原有指标(或样品)聚类分析是先把原有指标(或样品)聚成几类聚成几类, 再在每类指标(或样品)中挑选一个典型指标(或样品)再在每类指标(或样品)中挑选一个典型指标(或样品) 来减少指标(或样品)个数。来减少指标(或样品)个数。三、 主成分分析的基本原理:主成分分析是对多个指标的观察数据 降维压缩,对指标间的内部从属性作客观 评价的多元分析方法。例:对n个

7、儿童测量其身高(x1)、体重(x2)两个指标, 显然这两个指标是高度相关的,若以x1为横,以x2为 纵轴,用n个对象的数据作散点图。图图1 1 身高身高(x1)(x1)、体重、体重(x2)(x2)散点图散点图标准化转换水平距离垂直距离顺时针旋转的角度l x2 l 。 。 l 。l 。 l 。 。 。l 。l l 。 。l l l X1l 散 点 图即新指标y1、y 2是原指标的线性函数,yl、y2不相关。 统计上称yl为x1 、 x2的第一主成分(first principal component), 称y2为xl、x2的第二主成分(second principal component)。主成

8、分分析的基本原理寻找一个适当的线性或非线性变换,将若干个彼此相关的变量转变为彼此独立的新变量,然后根据新 变量的方差大小,选取几个方差最大的新变量替代原 变量,使得用较少的几个新变量就能综合反应原变量 中所包含的主要信息且又各自带有独特的专业含义。主成分分析的数学模型假设x1,x2,,xk为k个具有一定相关性的指标变量,经过标准化 后得到标准指标变量x1,x2 ,,xk:经下列线性转换:第i主成分在第j 个标准指标变 量Xj上的得分 系数。 描述了各个指 标变量对主成 分的影响作用将k个标准指标变量X1,X2,Xk转换成了k个新变 量z1;z2,zk,并且该线性变换满足以下三个条件:各zi互不

9、相关各zi是原指标的线性函数,且 它们相互垂直各zi提供原指标 所含的全部信息四、 主成分分析的方法步骤(一)、估计主成分(由样本资料求主成分的一般步骤)表1 原始数据表 观观察号指 标标 x1x2xk 1x11x12x1k 2x12x22x2k : nxn1xn2xnk1、标准化变换:消除不同观察指标量纲不同的影响2、计算各标准化指标变量间的相关系数,得到相关矩阵3、求相关矩阵的特征根并进行排序4、求矩阵关于特征根满足正规条件的特征向量举例:测得10名幼儿的身高(x2),体重(x1)如下表,求主成分。(1)标准化变换。(2)求相关系数矩阵R。(3)求R的特征根。得两个根1.9547和0.04

10、53。取其中较大的为1, 较小的为2 ,即1 1.9547, 2 0.0453(4)求特征向量Li及主成分Zi(i=1,2):解方程组得l11=0.7071,l120.707l,即矩阵R的、对应于1 1.9547、满 足正规条件的特征向量L1(0.707l 0.7071)相应的第1主成分 为Z10.707ly1+0.707ly2。第2主成分为Z2-0.707ly1+0.707ly2。主成分分析的目的之一是简化结构,用尽可能少的主成分Z1, , Z2,Z2,(m1确定主成分个数,又往往所取的主成分个数较少 。一般可将两者结合起来,即考虑了累计贡献率 ,又考虑了i 值的大小。(三)、解释主成分实际

11、意义主成分是标准化指标变量的一个线性组合,其组合 系数,即得分系数,描述了各个指标变量对主成分的影 响作用。绝对值大的指标变量与主成分的关系密切,或 者说对主成分的影响作用大,得分系数符号给出影响方 向。因此。主成分的实际意义可以根据得分系数的绝对 值、符号以及专业知识来解释。如10名幼儿身高、体重资料求主成分一例中,已求得111.9547, 220.0543, 11 22 2。第一主成分zl的贡献率 11 /(11 22)1.9547/297.7第二主成分z2的贡献率 22 /(11 22)0.0 543/22.3若以zl代替原来两个指标,仅损失2.3的信息。由表达式z10.707lyl+0

12、.70717y2, 可见y1、y2的系数均为正,且 绝对值相等,说明体重、身高实测值越大,Z1越大,且两者与Z1的 关系同样密切,故可认为z1综合反映幼儿体重和身高,是反映幼儿机体大小的综合指标。由表达式z2-0.707lyl十0.707ly 2,可见y1、y2的系数绝对值相等 ,符号相反,前者为负后者为正,说明前音(体重)愈大,第二主成 分的取值愈小,后者(身高)愈大,第二主成分的取值也愈大,即矮胖者第二主成分取值大,瘦高者第二主成分取值小,说朗第二主成 分描述的是幼儿的体型。(四)、计算主成分得分将每一个样本的k个指标变量以及它们的均值和标准差代 入上式,就可以得到每一个样本的s(k)个主

13、成分得分。由 所有样本的s个主成分得分构成的k个新变量就是原变量的s个 主成分得分变量。如果标准化指标变量x1,x2,xk的第i个主成分是:主成分分析的一般步骤1、 收集数据并建立数据库2、 对变量进行标准化处理3、 求主成分:(1) 求相关矩阵R(2) 求R的特征根:12.P(3) 求R的关于特征根i的满足正规条件的特征 向量 ai, (ai1,ai2 ,aip ) i=1,2,P则第i个成分:Ziai1y1ai2 y2aip yP (i=1,2,P)(4) 计算各主成分的贡献率和累计贡献率。 (5) 根据特征根大小和累计贡献率的大小确定主成分个数 (6) 解释主成分的实际意义。五、 主成分

14、分析的SAS程序主成分分析可应用SAS中的PRINCOMP过程来实现。 1.过程语句 PRINCOMP 选择项:VAR 变量表; 2.语句说明 proc princomp,对有关指标变量进行主成分分析, 常用选择项DATA=数据集名,指定要进行主成分分析的数据集 , 省略时为新建数据集。 语句VAR指定要进行主成分分析的指标变量。 3.实例解答某地区15所医院制剂厂的5项经济效益指标:资金利润率 (X1)、固定资产产值率(X2)、流动资金周转天数(X3)、万元产 值能耗(X4)和全员劳动生产率(X5),资料见表13.1。试用主成分分析综合评价各厂的经济效益。厂 号指 标标x1x21/ x31/

15、x4x5(%)(%)(天)(吨)(万元/人年)118.4053.250.01820.03471.75219.2059.820.01820.03112.87316.2446.780.01540.02401.5344.7634.390.01610.02551.63543.6875.320.01450.03752.14633.8766.460.02000.03042.60727.5668.180.01590.02792.43814.2156.130.01320.02801.75920.1759.250.01410.02561.831026.5252.470.01610.02851.731119.2355.760.01720.03321.521217.4361.190.01640.03051.601326

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号