最新医用SAS统计分析二ppt课件

资源描述

《最新医用SAS统计分析二ppt课件》由会员分享，可在线阅读，更多相关《最新医用SAS统计分析二ppt课件（55页珍藏版）》请在金锄头文库上搜索。

1、医用医用SASSAS统计分析统计分析( (二二) )一、单变量的统计描述一、单变量的统计描述q统计分析内容回顾v统计描述：集中趋势、离散趋势v统计推断：l参数估计：总体参数估计（可信区间）l假设检验q资料类型v计量资料-数值变量v计数资料-分类变量q资料的分布正态分布和偏态分布7/31/20247/31/20242 2详细统计描述详细统计描述-UNIVARIATE过程过程Univariate过程可对数值变量进行详细的统计描述。除了提供means过程所有的统计描述外，还可以给出了变量的峰度、偏度、众数、中位数及四分位数等更详尽的统计描述，同时还可进行正态性检验，以及几个描述分布的图。7/31/2

2、0247/31/20249 9PROC UNIVARIATE PROC UNIVARIATE 操作选项操作选项 ; ; VAR VAR ; 指定分析的变量名列表,缺省为所有数值变量 BY BY ; 按变量名列分组按变量名列分组统计,要求排序 FREQ FREQ ; 表明该变量为分析变量的频数OUTPUT OUTPUT OUT= 关关键键字字= = ; ; /*/*指指定定统统计计量的输出数据集名和统计量对应的新变量名量的输出数据集名和统计量对应的新变量名*/*/Run;Run;proc univariate 语句的操作选项； data= 指定要分析的数据集名 noprint 禁止统计结果在ou

3、tput窗输出 freq 详细的频数表 normal 进行正态性检验 plot 生成统计图：茎叶图，盒状图，正态概率图 7/31/20247/31/20241010例4程序3-2dataunil;inputx;cards;39865573108104;procunivariatenormalplot;run;7/31/20247/31/20241111 Moments N（样本含量） 12 Sum Wgts（总权重） 12 Mean（均数） 6.5 Sum（合计） 78 Std Dev（标准差） 2.54058 Variance（方差） 6.454545 Skewness（偏度 g1） 0 K

4、urtosis（峰度 g2） -1.39044 USS（平方和） 578 CSS（离均差平方和） 71 CV（变异系数） 39.08584 Std Mean（标准误） 0.733402 T:Mean=0（均数是否为0的检验）8.862804 Pr|T|（t值对应的p值） 0.0001 Num = 0（不等于0的样本数） 12 Num 0（大于0的样本数） 12 M(Sign)（符号检验） 6 Pr=|M|（符号检验的p值）0.0005 Sgn Rank（符号秩和检验） 39 Pr=|S|（符号秩和检验的p值）.0005 W:Normal（正态性检验W检验）0.932772 PrW（正态性检验的

5、p值） 0.38437/31/20247/31/20241212Quantiles(Def=5)100%Max1099%1075%Q38.595%1050%Med6.590%1025%Q14.510%30%Min35%31%3Range7Q3-Q14Mode37/31/20247/31/20241313ExtremesLowestObsHighestObs3(8)8(3)3(1)8(10)4(12)9(2)5(6)10(9)5(5)10(11)StemLeaf#Boxplot10002|901|8002+-+701|601*-+-*5002|401+-+3002|-+-+-+-+7/31/20

6、247/31/20241414NormalProbabilityPlot10.5+*+*+|*+|*+|*+|*+|*+*+|+*+3.5+*+*+-+-+-+-+-+-+-+-+-+-+-2-10+1+27/31/20247/31/20241515频数分布表数据的输入例5程序3-5datauni2;inputxf;cards;6536756987111732575247710797816830851;procunivariate;varx;freqf;run;7/31/20247/31/20241616频数表的编制方法1：语句格式：procunivariatefreq；例6王洁贞主编DATA

7、SG;INFILEd:sassas2psb.txt;INPUTX;PROCMEANSmeanstdMINMAX;RUN;DATAFSH;SETSG;IFX164THENY=163;IFX=164THENY=165;IFX=166THENY=167;IFX=168THENY=169;IFX=170THENY=171;IFX=172THENY=173;IFX=174THENY=175;IFX=176THENY=177;IFX=178THENY=179;IFX=180THENY=181;IFX=182THENY=183;PROCUNIVARIATEFREQ;VARY;RUN;7/31/20247/3

8、1/20241717AnalysisVariable:XMeanStdDevMinimumMaximum-172.67100004.0756308162.9000000183.5000000-univariate过程略FrequencyTablePercentsPercentsValueCountCellCumValueCountCellCum16311.01.01751515.081.016544.05.017788.089.016777.012.017977.096.01691212.024.018133.099.01711818.042.018311.0100.01732424.066.

9、07/31/20247/31/20241818方法2：语句格式：procfreq;tables变量名；说明：该语句是根据定义的变量产生频数分布表。例7：上例资料DATApsb1;INFILEd:sassas2psb.txt;INPUTX;L=162;/*定义第一组的下限值*/i=2;/*定义组距*/z=(x-mod(x-L,i)+(i/2);/*z值就是将原始变量转化成该数据所在组段的组中值*/procfreq;/*根据z值产生频数分布表*/tablesz;procunivariatenormalplot;varz;RUN;vmod(x,y)为算术函数，求x/y的余数。如mod(10,3)=1

10、,mod(6,2)=07/31/20247/31/20241919CumulativeCumulativeZFrequencyPercentFrequencyPercent-16311.011.016544.055.016777.01212.01691212.02424.01711818.04242.01732424.06666.01751515.08181.017788.08989.017977.09696.018133.09999.018311.0100100.07/31/20247/31/20242020UnivariateProcedureVariable=ZMomentsQuanti

11、les(Def=5)N100SumWgts100100%Max18399%182Mean172.7Sum1727075%Q317595%179StdDev4.013865Variance16.1111150%Med17390%179Skewness0.102995Kurtosis-0.1005625%Q117110%167USS2984124CSS15950%Min1635%166CV2.324183StdMean0.4013861%164T:Mean=0430.2586Pr|T|0.0001Range20Num=0100Num0100Q3-Q14M(Sign)50Pr=|M|0.0001Mo

12、de173SgnRank2525Pr=|S|0.0001W:Normal0.9671Pr|T|-6.80000005.2042717-1.30661890.2237-程序中如无vard;TheSASSystemVariableMeanStdErrorTProb|T|-X1125.90000005.162794224.38601930.0001X2132.70000003.415812938.84873200.0001D-6.80000005.2042717-1.30661890.2237-7/31/20247/31/20242727成成组组t检验检验原理：原理：H0：SAS程序：程序：proc

13、ttest;proc ttest;proc ttest; /* 过程名 */class class ; /* 分组变量名 */var var ; /* 分析变量名 */run;run;7/31/20247/31/20242828 例9：程序4-3data ttest3; do c=1 to 2; /* c循环开始，循环次数为2 */ input n; /* 输入n值 */ do i=1 to n; /* i循环开始，循环次数为n */ input x ; /* 输入x 值,注意的合理使用*/ output; /* output将x输出,循环语句中必须使用。 */ end; /* i循环结束 *

14、/ end; /* c循环结束 */ cards; 5 279 334 303 338 198 3 229 274 310 ;proc print; proc ttest; class c; var x; run;7/31/20247/31/20242929/*循环的结果*/OBSCNIX11512792152334315330341543385155198623122972322748233310TTESTPROCEDUREVariable:XCNMeanStdDevStdError-15290.4000000056.9938593225.4884287523271.0000000040.5

15、832477823.43074903VariancesTDFProb|T|-Unequal0.56035.60.5971Equal0.50996.00.6284ForH0:Variancesareequal,F=1.97DF=(4,2)ProbF=0.72727/31/20247/31/20243030两样本含量相等时，可去除inputn；例10：data t； do c=1 to 2; do i=1 to 5; input x ; output; end; end; cards; 279 334 303 338 198 229 274 310 345 344 ; proc print; pr

16、oc ttest; class c; var x; run;7/31/20247/31/20243131OBSCIX1112792123343133034143385151986212297222748233109243451025344TTESTPROCEDUREVariable:XCNMeanStdDevStdError-15290.4000000056.9938593225.4884287525300.4000000049.4398624622.11017865VariancesTDFProb|T|-Unequal-0.29647.80.7747Equal-0.29648.00.7745

17、ForH0:Variancesareequal,F=1.33DF=(4,4)ProbF=0.78967/31/20247/31/20243232两样本几何均数的比较在data语句中进行对数变换：x=log10(x)例11：王洁贞主编data G;do c=1 to 2; input n; do i=1 to n; input x ; x=log10(x); output; end; end; cards; 11 100 200 400 400 400 400 800 1600 1600 1600 32009 100 100 100 200 200 200 200 400 1600 ;proc

18、ttest; class c; var x; run;7/31/20247/31/20243333TTESTPROCEDUREVariable:XCNMeanStdDevStdError-1112.793624530.452000870.13628339292.334477770.382096020.127365343VariancesTDFProb|T|4-5Unequal2.461518.00.02426Equal2.418618.00.02647ForH0:Variancesareequal,F=1.40DF=(10,8)8ProbF=0.64707/31/20247/31/202434

19、34三、方差分析（一）统计回顾统计回顾l应用：应用：两个或两个以上均数的比较l条件：条件：样本来自正态总体;方差齐;相互独立的随机样本l基本原理：基本原理：变异分解SS总=SS组内+SS组间；自由度分解总=组间+组内组内均方MS组内=SS组内/v组内组间均方MS组间=SS组间/v组间F=MS组间/MS组内当FF（1，2），则P，拒绝H0,接受H1当F，接受H0,。7/31/20247/31/20243535q方差分析-基本语句Proc anova data=Proc anova data=; Class Class 分组变量分组变量; ;/* 指明分组变量, 必须放在model语句前 */M

20、odel Model 因因变变量量= =分分组组变变量量；/* 规定按分组变量对因变量作方差分析 */means means 分分组组变变量量 / / 多多重重比比较较的的方方法法; /* 计算每个分组变量所对应的因变量均值，对分组变量进行多重比较，其方法可用snk(q检验）、dunnett、LSD法等。该语句可多次使用 */means means 分分组组变变量量 /hovtest=/hovtest=方方法法； /* 进行方差齐性检验(homogeneity of variance test)，常用方法为Bartlett和Levenes法 ,默认为Levenes法 *

21、/freq freq 变量名；变量名； /*规定频数变量*/ 7/31/20247/31/20243636分分组组变变量量：把要考察的处理因素做为分组变量。它的取值即为分组变量的水平，可以是数值型，也可是字符型。例5-1中，衣料就是分类变量，其取值有四个水平。因因变变量量：也称响应变量，为连续的数值型变量。例5-1中，因变量为十硼氢的吸附量效应：效应：方差分析模型中规定的各分组变量组合代表其相应的效应。l主主效效应应：由分组变量本身引起，不考虑其他因素的影响，可以用分组变量本身表示。例5-1中，只有一个效应，即衣料的效应。如果对某一因变量，它的研究因素为A、B两个，主效应就是由A、B两个分组

22、变量引起的，不考虑A对B的作用。在model 语句中表示为 A B 。q方差分析-几个概念7/31/20247/31/20243737l 交交叉叉效效应应：即交互作用。用*连接两个变量以表示它们之间的交互作用。在model语句中可用 A*B表示。检验在A因素的各个水平B因素的效应是否相同，即一个因素的效应是否依赖于交叉项里其他因素。 l 相应的模型有主效应模型（完全随机、随机区组、拉丁方等）和含交互作用项的模型(析因设计、正交设计) 7/31/20247/31/20243838q完全随机设计资料的方差分析例12：程序5-1dataanova1;doc=1to4;doi=1to5;inputx;

23、output;end;end;cards;2.332.002.932.732.332.482.342.682.342.223.063.063.002.663.064.005.134.612.803.60;procanova;classc;/*分组变量为c*/modelx=c;/*按变量c分组对因变量X进行方差分析*/meansc/snk;/*对变量c的各水平用snk法作均数的多重比较*/Meansc/hovtest/*进行方差齐性检验*/run;7/31/20247/31/20243939方差分析结果 Class Level Information Class Levels Values C

24、4 1 2 3 4Number of observations in data set = 20 在class语句中规定的分组变量名分组变量的水平数分组变量的取值Dependent Variable: X Source DF Sum of Squares Mean Square F Value Pr F 变异来源自由度离均差平方和均方 F值 P值模型 Model 3 8.43376000 2.81125333 11.16 0.0003误差 Error 16 4.02916000 0.25182250总变异 Corrected Total 19 12.46292000R-Square

25、C.V. Root MSE X Mean 变异系数因变量的均值0.676708 16.90765 0.50181919 2.96800000 决定系数R2，反映了在总变异中由模型解释的变异所占的比例，越接近1，表明模型对这批数据拟合越好。误差均方的平方根,剩余标准差Source DF Anova SS Mean Square F Value Pr FC 3 8.43376000 2.81125333 11.16 0.00037/31/20247/31/20244040 SNK法两两比较结果: Student-Newman-Keuls test for variable: XNOTE: Th

26、is test controls the type I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses. Alpha= 0.05 df= 16 MSE= 0.251823 误差的均方Number of Means 2 3 4 均数间相隔组数Critical Range 0.672812 0.8189412 0.9080258 相差有无意义的临界值Means with the same letter are not significantly di

27、fferent. SNK Grouping Mean N C SNK分组标志均数样本数分类变量值（水平数） A 4.0280 5 4 B 2.9680 5 3 B 2.4640 5 1 B 2.4120 5 2 SNK分组标志：相同字母代表组间差别无统计学意义。如c=3和c=1以及c=2组的标志均为B，表明这三组的均数无差别；而c=4组的标志为A，因此它与其它三组的差别均有统计学意义。7/31/20247/31/20244141LevenesTestforEqualityofXVarianceANOVAofSquaredDeviationsfromGroupMeansSumofMeanS

28、ourceDFSquaresSquareFValuePrFC31.35850.45283.93390.0280Error161.84180.1151AnalysisofVarianceProcedureLevelof-X-CNMeanSD152.464000000.36712396252.412000000.17584084352.968000000.17412639454.028000000.900705287/31/20247/31/20244242例13：程序5-3样本含量不等时方差分析dataanova3;doc=1to3;inputn;doi=1ton;inputx;output;e

29、nd;end;cards;527933430333819832292743103210285117;procanova;classc;modelx=c;run;7/31/20247/31/20244343q随机区组设计资料的方差分析dataanova4;doa=1to4;dob=1to8;inputx;output;end;end;cards;5.275.275.885.445.666.225.835.275.275.225.835.385.446.225.725.114.944.885.385.275.385.615.385.004.614.665.005.004.885.224.884.4

30、4;procanova;classab;modelx=ab;meansa/snk;run;例14程序5-47/31/20247/31/20244444方差分析结果AnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesA41234B812345678Numberofobservationsindataset=327/31/20247/31/20244545AnalysisofVarianceProcedureDependentVariable:XSourceDFSumofSquaresMeanSquareFValuePr

31、FModel105.402375000.5402375043.140.0001Error210.262975000.01252262Total315.66535000R-SquareC.V.RootMSEXMean0.9535822.1119040.111904515.29875000SourceDFAnovaSSMeanSquareFValuePrFA32.904375000.9681250077.310.0001B72.498000000.3568571428.500.00017/31/20247/31/20244646AnalysisofVarianceProcedureStudent-

32、Newman-Keulstestforvariable:XNOTE:ThistestcontrolsthetypeIexperimentwiseerrorrateunderthecompletenullhypothesisbutnotunderpartialnullhypotheses.Alpha=0.05df=21MSE=0.012523NumberofMeans234CriticalRange0.11635920.14103160.1559574Meanswiththesameletterarenotsignificantlydifferent.SNKGroupingMeanNAA5.60

33、50081A5.5237582B5.2300083C4.83625847/31/20247/31/20244747q拉丁方设计资料的方差分析拉丁方设计的方差分析主要适用于：三个处理水平数相同且无交互作用。亦称三因素方差分析。利用拉丁方阵安排试验，拉丁方阵亦称r阶拉丁方，是用r个拉丁字母排成r行r列的方阵，每个字母在每行每列中只出现一次。如55拉丁方：ABCDEBCDEACDEABDEABCEABCD7/31/20247/31/20244848如例5-5，5种防护服(cloth)，有5个人(person)个在不同的5天(date)中穿着，测定脉搏数。如表5.5所示。试验就5种防护服对脉搏数有无作

34、用。表5可见，5种防护服在5个不同的日期和5个不同的受试者各出现一次；在同一日期和不同受试者5种防护服各不相同。7/31/20247/31/20244949例15程序5-5dataanova5;dodate=1to5;doperson=1to5;inputcloth$x;output;end;end;cards;A129.8B116.2C114.8D104.0E100.6B144.4C119.2D113.2E132.8A115.2C143.0D118.0E115.8A123.0B103.8D133.4E110.8A114.0B98.0C110.6E142.8A110.6B105.8C120.0

35、D109.8;procanova;classdatepersoncloth;modelx=datepersoncloth;run;7/31/20247/31/20245050SAS分析结果AnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesDATE512345PERSON512345CLOTH5ABCDENumberofobservationsindataset=257/31/20247/31/20245151AnalysisofVarianceProcedureDependentVariable:XSourceDF

36、SumofSquaresMeanSquareFValuePrFModel123579.77280000298.314400006.800.0011Error12526.1408000043.84506667Total244105.91360000R-SquareC.V.RootMSEXMean0.8718585.6122536.62156074117.98400000SourceDFAnovaSSMeanSquareFValuePrFDATE4508.07360000127.018400002.900.0684PERSON42853.67360000713.4184000016.270.000

37、1CLOTH4218.0256000054.506400001.240.34457/31/20247/31/20245252例16王洁贞主编医学统计学例9.10dataanova6;dodose=1to4;dotumor=1to4;inputdrug$x;output;end;end;cards;C0.37B0.80A0.74D0.48B0.48A0.56D0.18C0.22A0.32D0.44C0.16B0.42D0.30C0.30B0.22A0.25;procanova;classtumordosedrug;modelx=tumordosedrug;run;7/31/20247/31/20

38、245353AnalysisofVarianceProcedureDependentVariable:XSourceDFSumofSquaresMeanSquareFValuePrFModel90.476650000.052961115.450.0259Error60.058350000.00972500Total150.53500000R-SquareC.V.RootMSEXMean0.89093525.286000.098615410.39000000SourceDFAnovaSSMeanSquareFValuePrFTUMOR30.100850000.033616673.460.0916DOSE30.247950000.082650008.500.0140DRUG30.127850000.042616674.380.05887/31/20247/31/20245454

展开阅读全文

最新医用SAS统计分析二ppt课件

最新文档