《方差相关与回归分析SAS课件》由会员分享,可在线阅读,更多相关《方差相关与回归分析SAS课件(51页珍藏版)》请在金锄头文库上搜索。
1、方差、相关与回归分析方差相关与回归分析SAS课件主要内容l方差分析方差分析方差分析的过程方差分析的过程单因素方差分析单因素方差分析二因素方差分析二因素方差分析l相关分析相关分析相关分析的过程相关分析的过程l回归分析回归分析一元回归一元回归多元回归多元回归方差相关与回归分析SAS课件9.2 方差方析l方方差差分分析析是是检检验验两两个个或或两两个个以以上上样样本本均均数数间间差差异异是是否否显显著著的的方方法法。 在在比比较较几几个个组组时时,H H0 0假假设设通通常常是是设设各各组组平均值相等平均值相等。l检检验验两两个个均均数数间间差差别别的的显显著著性性可可以以用用t t检检验法,也可用
2、方差分析法。验法,也可用方差分析法。方差相关与回归分析SAS课件方差分析的基本概念l样本均数间所以有差别,可能有两样本均数间所以有差别,可能有两种原种原因造成:因造成:首先它们必须有抽样误差(个体间变异的影首先它们必须有抽样误差(个体间变异的影响;响;其次,如果各组所接受的不同处理方法是有其次,如果各组所接受的不同处理方法是有不同的作用的,那么,它也是由于处理不同不同的作用的,那么,它也是由于处理不同所造成的。所造成的。方差相关与回归分析SAS课件方差分析的基本概念如果处理是没有作用的,即各样本均数来自同如果处理是没有作用的,即各样本均数来自同一总体,那么用方差分析的方法可以算出个体间变一总体
3、,那么用方差分析的方法可以算出个体间变异异2的估的估计值组内均方(内均方(M.S组内内)。)。这时,由方,由方差分析法算出的差分析法算出的组间均方(均方(M.S组间),也是个体),也是个体间变异异2的估的估计值。如以。如以组内均方除内均方除组间均方,称之均方,称之为F值,即,即F=M.S组间/M.S组内内,则由于由于组间和和组内内均方都是个体均方都是个体间变异异2的估的估计值,因之,如无抽,因之,如无抽样误差差则F应该等于等于1。但由于。但由于组间和和组内均方都只是内均方都只是2的估的估计值,由于抽,由于抽样误差的关系,差的关系,组间均方和均方和组内均方都不正好等于内均方都不正好等于2,因之,
4、因之F也不正好等于也不正好等于1,而可以大于或小于而可以大于或小于1。方差相关与回归分析SAS课件方差分析的基本概念但由于但由于样本来自相同本来自相同总体,体,F值一般不会距一般不会距1很很远,其分布情况(,其分布情况(F分布)与分布)与组间和和组内自由内自由度有关。度有关。与此相反,如果与此相反,如果处理是确有作用的,即各理是确有作用的,即各样本均数不是取自相同本均数不是取自相同总体,体,这时用方差分析用方差分析计算算出来的出来的组内均方仍是个体内均方仍是个体间变异异2的估的估计值。但。但组间均方均方则不不仅是个体是个体变异所致,同异所致,同时也由于也由于处理的作用不同所致。理的作用不同所致
5、。方差相关与回归分析SAS课件9.2 方差方析l方方差差分分析析的的基基本本思思想想是是把把全全部部数数据据关关于于总总均均值值的的离离均均差差平平方方和和分分解解成成几几个个部部分分,每每一一部部分分表表示示某某因因素素或或交交互互作作用用所所产产生生的的效效应应,将将各各部部分分均均方方与与误误差差均均方方相相比比较较,从从而而确确认认或或否否认认某某些些因因素素或或交交互互作作用用的的重重要要性。性。方差相关与回归分析SAS课件方差分析公式概括为:方差分析公式概括为:l总变异组间变异组内变异总变异组间变异组内变异 其其中中:组组间间变变异异由由各各因因素素所所引引起起;组组内内变变异异由
6、由个个体体差差异异或或者者说说由由误误差差引起的引起的。方差相关与回归分析SAS课件 常用的方差分析法有以下种:l完完全全随随机机设设计计资资料料的的方方差差分分析析(单单因因素素方差分析)方差分析)l随随机机区区组组设设计计资资料料的的方方差差分分析析(两两因因素素方差分析)方差分析)l拉拉丁丁方方设设计计资资料料的的方方差差分分析析(三三因因素素方方差分析)差分析)lR*C析因设计资料的方差分析(有交互析因设计资料的方差分析(有交互因素的方差分析)因素的方差分析)方差相关与回归分析SAS课件lSAS系系统统中中,ANOVA过过程程可可以以处处理理以以上上情情形形的的方方差差分分析析,但但它
7、它要要求求每每个个分分类类因因子子的的组组合合观观察察数数相相等等,即即数数据据是是均均衡衡的的。若若不不均均衡,就要求用衡,就要求用GLM过程进行处理。过程进行处理。方差相关与回归分析SAS课件9.2.1 均衡数据的方差方析1.过程格式:过程格式:PROCANOVADATA=数据集数据集;CLASS变量;变量;MODEL因变量效应;因变量效应;MEANS效应效应/选择项选择项;方差相关与回归分析SAS课件2.说明说明(1)程程序序中中,CLASS语语句句和和MODEL语语句句是是必必需需的的,并并且且CLASS语语句句必必须须出出现现在在MODEL语句之前。语句之前。(2)CLASS语语句句
8、中中的的变变量量是是分分类类变变量量,可以是数值型,也可以是字符型。可以是数值型,也可以是字符型。方差相关与回归分析SAS课件(3)MODEL语语句句指指明明因因变变量量和和自自变变量量(因因子子变变量量)效效应应,其其效效应应可可以以是是主主效效应、交互效应、嵌套效应和混合效应。应、交互效应、嵌套效应和混合效应。方差相关与回归分析SAS课件常用常用MODEL语句效应模型如下语句效应模型如下:1)主效应模型)主效应模型MODELy=a;(单因素方差分析模型)(单因素方差分析模型)MODELy=ab;(二因素方差分析模型)(二因素方差分析模型)MODELy=abc;(三因素方差分析模型)(三因素
9、方差分析模型)模型中,模型中,a,b,c是主效应,是主效应,y是因变量。是因变量。方差相关与回归分析SAS课件2)交互效应模型)交互效应模型MDOELy=aba*bMDOELy=abca*ba*cb*ca*b*c;模模型型中中, a,b,c是是主主效效应应, a*b,a*c,b*c,a*b*c是交互效应,是交互效应,y是因变量。是因变量。方差相关与回归分析SAS课件(4) MEANS语语句句是是选选择择语语句句,计计算算并并输输出出所所列列的的效效应应对对应应的的因因变变量量均均数数,若若指指明明了了选选择择项项,则则将将进进行行主主效效应应均均数数间间的的检验。常用的选择项如下:检验。常用的
10、选择项如下:SNK(Q检验)均数间两两比较检验)均数间两两比较 DUNCAN 一组均数与其余各组比较一组均数与其余各组比较ALPHAp用用以以确确定定检检验验的的显显著著性性水水平平。缺省值是缺省值是0.05。方差相关与回归分析SAS课件3. 举例例例1完全随机设计资料的方差分析完全随机设计资料的方差分析(单因素方差分析)(单因素方差分析)某劳动卫生教研组研究棉布、府绸、某劳动卫生教研组研究棉布、府绸、的确凉、尼龙四种衣料内棉花吸附十硼氢的确凉、尼龙四种衣料内棉花吸附十硼氢量。每种衣料各做五次测量,所得数据如量。每种衣料各做五次测量,所得数据如表表9-4。试检验各种衣料间棉花吸附十硼氢。试检验
11、各种衣料间棉花吸附十硼氢量有没有显著差别量有没有显著差别?方差相关与回归分析SAS课件表9-4棉布棉布府绸府绸的确凉的确凉尼龙尼龙2.332.483.064.002.002.343.065.132.932.683.004.612.732.342.662.802.332.223.063.60方差相关与回归分析SAS课件程序如下:程序如下:DATA an; DROP i; DO i=1 TO 5; DO a=1 TO 4; INPUT x ; OUTPUT; END; END; CARDS; 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.0
12、0 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60方差相关与回归分析SAS课件PROC ANOVA; CLASS a; MODEL x=a;RUN;方差相关与回归分析SAS课件例2随机区组设计资料的方差分析(两因素方差分析)用用4种不同方法治疗种不同方法治疗8名患者,其血浆凝名患者,其血浆凝固时间的资料如表固时间的资料如表9-5,试作方差分析。,试作方差分析。数据步中,变量数据步中,变量a代表不同治疗方法,代表不同治疗方法,其水平数是其水平数是4,变量,变量b代表区组因素,其水代表区组因素,其水平数是平数是8。过程步中,用。过程步中,用CLASS语句指
13、明语句指明两个因素两个因素a和和b,用,用MODEL语句指明二因语句指明二因素的效果模型。素的效果模型。方差相关与回归分析SAS课件受试者编号受试者编号(区组)(区组)处理组处理组123418.49.49.812.2212.815.212.914.439.69.111.29.849.88.89.912.058.48.28.58.568.69.99.810.978.99.09.210.488.49.49.810.0方差相关与回归分析SAS课件DATA an; DO b=1 TO 8; DO a=1 TO 4; INPUT x ; OUTPUT; END; END;CARDS; 8.4 9.4 9
14、.8 12.2 12.8 15.2 12.9 14.4 9.6 9.1 11.2 9.8方差相关与回归分析SAS课件 9.8 8.8 9.9 12.0 8.4 8.2 8.5 8.5 8.6 9.9 9.8 10.9 8.9 9.0 9.2 10.4 7.9 8.1 8.2 10.0PROC ANOVA; CLASS a b; MODEL x=a b;RUN;方差相关与回归分析SAS课件 例用SNK法(Q检验)作均数间的两两比较研究酵解作用对血糖浓度的影响,我研究酵解作用对血糖浓度的影响,我们从们从8名健康人中抽取了血液并制备成血滤名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成
15、液。每一个受试者的血滤液又分成4份,然份,然后随机地把各份血滤液分别放置后随机地把各份血滤液分别放置0、45、90、135分钟后测定其中血糖浓度(资料分钟后测定其中血糖浓度(资料见表见表9-9)。试比较放置时间对血糖浓度有)。试比较放置时间对血糖浓度有无影响。无影响。方差相关与回归分析SAS课件受试者编号受试者编号(区组号)(区组号)放置时间(分)放置时间(分)0459513512345678959510698102112105959594105979811210392898897959710197908384909088948880方差相关与回归分析SAS课件 DATA an; DO a=1
16、 TO 8; DO b=0 TO 135 BY 45; INPUT x ; OUTPUT; END; END; CARDS; 方差相关与回归分析SAS课件 95 95 89 83 95 94 88 84 106 105 97 90 98 97 95 90 102 98 97 88 112 112 101 94 105 103 97 88 95 92 90 80 方差相关与回归分析SAS课件 PROC ANOVA; CLASS a b; MODEL x=a b; MEANS b/SNK; RUN;方差相关与回归分析SAS课件第十章 相关与回归在医学上人的身高与体重、体温与脉在医学上人的身高与体重
17、、体温与脉搏次数、年龄与血压、药物剂量与疗效等搏次数、年龄与血压、药物剂量与疗效等均有一定的联系。说明客观事物或现象相均有一定的联系。说明客观事物或现象相互关系的密切程度并用适当的统计指标表互关系的密切程度并用适当的统计指标表示出来,这是相关分析的任务。把客观事示出来,这是相关分析的任务。把客观事物或现象间的关系用函数形式表示出来,物或现象间的关系用函数形式表示出来,则是回归分析所要解决的问题。则是回归分析所要解决的问题。方差相关与回归分析SAS课件第十章 相关与回归CORR过程计算变量间的相关系数,包括PEARSON积矩相关系数等,同时给出单变量描述统计。 REG过程是SAS中通用的基本的回
18、归分析过程,它是用最小二乘法原理求解线性回归方程的有效过程。此外,因为逐步回归分析的方法在实际工作中应用甚广,故将其单独提出来介绍如何使用REG过程进行逐步回归分析。 方差相关与回归分析SAS课件10.1 CORR 过程10.1.1 相关分析相关分析相关是研究随机变量之间相互关系的统计分析方法,它研究随机变量之间相互关系的密切程度。 线性相关,又称简单相关。其统计指标是PEARSON 相关系数 r 。方差相关与回归分析SAS课件当研究多个随机变量之间的相互关系时,可对变量进行多元线性相关分析。多元线性相关的统计量是全相关系数R和各偏相关系数。在多元线性相关分析中,变量之间的关系是错综复杂的,两
19、个变量间的简单线性相关系数往往不能正确说明两者的真实关系,只有在其它变量固定,即扣除了其它变量的影响后,计算两变量间的偏相关系数才能反映此两变量的真实情况。方差相关与回归分析SAS课件当变量不服从正态分布时,例如当变量不服从正态分布时,例如按等级分类或相对数资料,这时需用按等级分类或相对数资料,这时需用非参数相关分析方法,如等级相关分非参数相关分析方法,如等级相关分析法等。析法等。方差相关与回归分析SAS课件10.1.2 语句说明1.过程格式过程格式PROCCORR选择项选择项;VAR变量表;变量表;WITH变量表;变量表;PARTIAL变量表;变量表;WEIGHT变量;变量;FREQ变量;变
20、量;BY变量表;变量表;方差相关与回归分析SAS课件2.说明说明(1)PROCCORR语句语句PROCCORR选择项选择项;PROCCORR语句的选择项主要有:语句的选择项主要有:PEARSON计算通常的计算通常的PEARSON积矩积矩相关,是缺省值。相关,是缺省值。KENDALL计算肯德尔计算肯德尔-b系数。系数。SPEARMAN计算斯皮尔曼等级相计算斯皮尔曼等级相关系数。关系数。方差相关与回归分析SAS课件HOEFFDING计算霍夫丁统计计算霍夫丁统计量。量。OUTP=dataset产生含有产生含有PEARSON相关的一个新数据集。相关的一个新数据集。NOMISS将带有某一变量缺项将带有某
21、一变量缺项值的观测值从所有计算中除去。值的观测值从所有计算中除去。NOSIMPLE抑制简单统计。抑制简单统计。方差相关与回归分析SAS课件(2)VAR语句语句(3)WITH语句语句WITH变量表;变量表;指明特别配对的变量名,指明特别配对的变量名,与与VAR语句语句配对使用,配对使用,VAR语句列出相关矩阵上部出语句列出相关矩阵上部出现的变量,现的变量,WITH语句列出左侧出现的变量。语句列出左侧出现的变量。(4)PARTIAL语句语句PARTIAL变量表;变量表;指明求偏相关系数时需要固定的偏变指明求偏相关系数时需要固定的偏变量名。量名。方差相关与回归分析SAS课件 DATA ABC; IN
22、FILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL; PROC CORR; VAR HEIGHT WEIGHT VITAL; PROC CORR NOSIMPLE; VAR HEIGHT WEIGHT; WITH VITAL; PROC CORR NOSIMPLE; VAR HEIGHT VITAL; PARTIAL WEIGHT; RUN;方差相关与回归分析SAS课件10.2 REG 过程10.2.1简介简介回归是研究随机变量和非随机变量之间的数量依存关系的统计分析方法。当自变量X与因变量Y之间呈直线关系时,称为直线回归。直线回归要求因变量
23、是服从正态分布的且方差相等。方差相关与回归分析SAS课件当自变量不只一个时,可进行多元线当自变量不只一个时,可进行多元线性回归分析。研究一个因变量与多个自变性回归分析。研究一个因变量与多个自变量之间的线性依存关系,称为多元线性回量之间的线性依存关系,称为多元线性回归。归。REG过程是用最小二乘法原理求过程是用最小二乘法原理求解线性回归方程的过程。解线性回归方程的过程。方差相关与回归分析SAS课件10.2.2 语句说明1.过程格式过程格式PROCREG选择项选择项;MODEL因变量因变量=自变量自变量/选择项选择项;VAR变量;变量;FREQ变量;变量;WEIGHT变量;变量;BY变量;变量;方
24、差相关与回归分析SAS课件(1)PROCREG语句语句PROCREG选择项选择项;(略)(2)MODEL语句语句MODEL因变量因变量=自变量表自变量表/选择项选择项;指明因变量和自变量,指明因变量和自变量,选择项是有关回选择项是有关回归计算、估计、预测值和残差,常用的归计算、估计、预测值和残差,常用的选择项有:选择项有:方差相关与回归分析SAS课件STB打印标准回归系数打印标准回归系数CORRB打印估计的相关矩阵打印估计的相关矩阵COLLINOINT请求进行自变量的共线请求进行自变量的共线性分析性分析P计算预测值及残差计算预测值及残差R请求分析残差请求分析残差CLM打印因变量均值打印因变量均
25、值95%的的置信界限的上下限置信界限的上下限CLI对各预测值打印对各预测值打印95%的的置信界限的上下限置信界限的上下限方差相关与回归分析SAS课件3. 举例(1)简单线性回归分析简单线性回归分析仍以上节相关分析资料为例,进行以仍以上节相关分析资料为例,进行以身高估计肺活量的线性回归分析,同时要身高估计肺活量的线性回归分析,同时要求打印出各观测点上因变量均值的求打印出各观测点上因变量均值的95%置置信区间。信区间。方差相关与回归分析SAS课件 DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL ; PROC REG;
26、MODEL VITAL=HEIGHT/CLM; RUN;方差相关与回归分析SAS课件(2)多元线性回归分析)多元线性回归分析仍以表仍以表10-1的资料为例,进行身高、的资料为例,进行身高、体重与肺活量的多元线性回归分析,程体重与肺活量的多元线性回归分析,程序如下:序如下:方差相关与回归分析SAS课件DATAABC;INFILEd:panyancorr.dat;INPUTNOHEIGHTWEIGHTVITAL;PROCREG;MODELVITAL=HEIGHTWEIGHT/COLLINOINT;RUN;方差相关与回归分析SAS课件10.3 逐步回归分析在进行逐步回归分析时,应用在进行逐步回归分析
27、时,应用MODEL语句中的语句中的SELECTION=name选择项,来选择项,来选择用于进行逐步回归分析时模型;选择用于进行逐步回归分析时模型;其中其中name可以是可以是FORWARD(或(或F););BACKWARD(或(或B););STEPWISE;MAXR;MINR;RSQUARE;ADJRSQ;CP;NONE(使用全回归模型)。缺(使用全回归模型)。缺省时使用省时使用NONE。方差相关与回归分析SAS课件10.3.3举例举例有一个有一个29例儿童的血红蛋白与微量元例儿童的血红蛋白与微量元素的实测资料如表素的实测资料如表10-3所示,试以钙、镁、所示,试以钙、镁、铁、铜为自变量对因变量血红蛋白作逐步铁、铜为自变量对因变量血红蛋白作逐步回归分析。假设此资料已经被建立在回归分析。假设此资料已经被建立在A:BLOOD.DAT中,则可编制程序如下,结中,则可编制程序如下,结果如图果如图10-4所示。所示。方差相关与回归分析SAS课件DATA BLOOD; INFILE D:PANYANBLOOD.DAT; INPUT NO Y X1 X2 X3 X4;PROC REG; MODEL Y=X1 X2 X3 X4/ SELECTION=SETPWISE;RUN;方差相关与回归分析SAS课件