SAS软件应用之方差分析

资源描述

《SAS软件应用之方差分析》由会员分享，可在线阅读，更多相关《SAS软件应用之方差分析（87页珍藏版）》请在金锄头文库上搜索。

1、第8章方差分析学习目标v掌握方差分析基本思想、应用条件以及计算方法；v掌握完全随机设计资料的特征以及SAS分析程序；v掌握随机区组设计资料的特征及其SAS分析程序；v掌握拉丁方设计资料的特征及其SAS分析程序；v掌握析因设计资料的特征及其SAS分析程序；v掌握正交试验设计资料的特征及其SAS分析程序；v掌握重复测量资料的特征及其SAS分析程序；v掌握协方差分析治疗的特征及其SAS分析程序；方差分析概述vt检验和u检验适用于两个样本均数的比较，对于k个样本均数的比较，如果仍用t检验或 u检验，犯第一类错误的概率就会增加。v因而t检验和u检验不适用于多个样本均数的比较。用方差分析比较

2、多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家 R.A.Fisher首先提出，以F命名其统计量，故方差分析又称F检验。方差分析概述v下面结合单个处理因素的情况介绍方差分析的基本统计思想。将N个受试对象随机分为 k（k2）组，分别接受不同的处理，第i组的样本量为ni，第i处理组的第j个测量值用 Xij表示。方差分析的目的就是在H0:成立的条件下，通过分析各处理组均数之间差别大小，推断k个总体均数间有无差别，从而说明处理因素的效果是否存在。总离均差平方和及自由度v总变异的离均差平方和为各变量值与总均数差值的平

3、方和，离均差平方和和自由度为v v总自由度=N-1 组间离均差平方和、自由度和均方v组间离均差平方和为各组样本均数与总均数差值的平方和组内离均差平方和、自由度和均方v组内离均差平方和为各处理组内部观察值与其均数差值的平方和之和 v数理统计证明，总离均差平方和等于各部分离均差平方和之和三种变异的关系总自由度= N-1= 三种变异的关系v可见，完全随机设计的单因素方差分析时，总的离均差平方和（SS总）可分解为组间离均差平方和（SS组间）与组内离均差平方和（SS组内）两部分；相应的总自由度也分解为组间自由度和组内自由度两部分。v方差分析的统计量方差分析应用v方差分析的应用条件为：

4、各样本须是相互独立的随机样本；各样本来自正态分布总体；各总体方差相等，即方差齐性。v方差分析的用途很广，包括：两个或多个样本均数间的比较；分析两个或多个因素间的交互作用；回归方程的线性假设检验；多元线性回归分析中偏回归系数的假设检验；两样本的方差齐性检验等。方差分析的基本思想 v根据研究目的和设计类型，将总变异中的离均差平方和及其自由度分别分解成相应的若干部分，然后求各相应部分的变异；再用各部分的变异与组内（或误差）变异进行比较，得出统计量F值；最后根据F值的大小确定P值，作出统计推断。完全随机设计资料的方差分析 v单因子方差分析介绍变异来源自由度SSMSF总变异N-

5、1组间g-1组内N-g方差分析的SAS程序 v方差分析解决问题的思路是：从所有观测值的总变差中分析出系统误差和随机误差，并用数量表示。在一定意义下比较系统误差和随机误差。两者差别不大，说明试验条件的变化(因素水平的不同)对试验结果影响不大；如果两者相差较大，且系统误差大的多，说明系统条件变化引出的误差不可忽视。方差分析的SAS程序v在SAS系统中一般利用PROC ANOVA过程和 PROC GLM过程进行方差分析。而PROC ANOVA过程一般只能用于平衡数据的方差分析。所谓平衡数据指的是所有效应因子的交叉水平上，样本数相同，否则称为非平衡数据。它比 PROC GLM过程的运行

6、速度要快，要求的存贮空间也要小一些。PROC GLM过程可用于平衡和非平衡数据的各种方差分析、协方差分析以及广义线性模型分析。现对两个过程分别予以介绍。PROC ANOVA vPROC ANOVA过程的格式为：PROC ANOVA ;CLASS variables ;MODEL dependents=effects ; BY variables ;MEANS effects ;TEST E=effect ; REPEATED effects;PROC ANOVAvCLASS语句指定分类变量，指定模型中的效应因子变量；vMODEL定义拟合模型，给出模型中的因变量和效应变量的模型结构，并

7、且通过特定的表达式规定自变量的作用方式；如果没有指定任何自变量，则模型中仅包含常数项，此时检验的内容是应变量的均数是否为零；MODEL语句中指定的自变量必须是CLASS语句中声明过的分类变量，ANOVA 过程不允许自变量中有连续型变量（数值变量），而应变量则必须是数值型变量。vBY语句指定分组变量；PROC ANOVAvMEANS语句计算和比较均值，指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值，或几个效应变量交叉水平对应的因变量的均值，并且可以检验比较各个水平对应的均值之间的两两差异；vTEST语句指定效应平方和和误差项，构建检验，裂区设计数据处理时需

8、要；vREPEATED语句指定模型中的重复测量因子（MODEL语句中存在有相同试验单位的重复测量的独立变量时），已检验相关因子效应，其中的变量名代表重复测量因素（如测量时间等），其后水平数代表重复测量的次数，如果需指定重复测量各次的具体标识，可在其后按顺序列出，并用圆括号括起来。PROC GLMvPROC GLM过程的格式为：PROC GLM ;CLASS variables ;MODEL dependents=effects ; BY variables ;MEANS effects ;LSMEANS effects ;CONTRAST effects ;ESTIMATE effe

9、cts ;TEST E=effect ; REPEATED effects; PROC GLMvCLASS语句指定分类变量，指定模型中的效应因子变量；vMODEL定义拟合模型，给出模型中的因变量和效应变量的模型结构；vBY语句指定分组变量；vMEANS语句计算和比较均值，指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值，或几个效应变量交叉水平对应的因变量的均值，并且可以检验比较各个水平对应的均值之间的两两差异；PROC GLMvLSMEANS语句是GLM过程步特有的语句，它的功能和MEANS语句类似，指令系统输出这个语句中给出的每一个效应变量各个水平对应的

10、因变量的均值，或几个效应变量交叉水平对应的因变量的均值，并且可以检验比较各个水平对应的均值之间的两两差异，但LSMEANS语句输出的均值不是算术均值，而是最小二乘均值；PROC GLMvCONTRAST语句使你可以用自定义的方式进行假设检验，它必须出现在MODEL语句之后，如果用到MANOVA语句、REPEATED语句、RANDOM 语句或TEST语句，CONTRAST语句必须出现在这些语句之前；标记用来标识所进行的检验，用以标识的文字或符号需用单引号括起来；效应表达式用以指定假设检验的因素（组合），这些因素（组合）必须是MODEL语句中出现过的；效应表达式后的常数向量用

11、以指定相应因素（组合）各水平的值，在指定各水平的情况下进行相关因素的分析；PROC GLMvESTIMATE语句可实现对线性方程的估计，它也必须出现在MODEL语句之后，使用的规则和 CONTRAST语句基本相同。其中的语句元素的含义和用法也与CONTRAST语句相同。vTEST语句指定效应平方和和误差项，构建检验，裂区设计数据处理时需要；vREPEATED语句指定模型中的重复测量因子（ MODEL语句中存在有相同试验单位的重复测量的独立变量时），已检验相关因子效应。随机区组设计资料的方差分析 v随机区组设计是根据“局部控制”和“随机排列 ”原理进行的，将试验地按肥力程度等性质不

12、同划分为等于重复次数的区组，使区组内环境差异最小而区组间环境允许存在差异，每个区组即为一次完整的重复，区组内各处理都独立地随机排列。这是随机排列设计中最常用、最基本的设计。随机区组设计资料的方差分析v随机区组设计的优点是：设计简单，容易掌握；富于伸缩性，单因素、复因素以及综合试验等都可应用；能提供无偏的误差估计，在大区域试验中能有效地降低非处理因素等试验条件的单向差异，降低误差；对试验地的地形要求不严，只对每个区组内的非处理因素等试验条件要求尽量一致。因此，不同区组可分散设置在不同地段上。缺点是：这种设计方法不允许处理数太多。因为处理多，区组必然增大，局部控制的效率降低

13、，所以，处理数一般不要超过20个，最好在10个左右。随机区组设计资料的方差分析v随机区组设计考虑了个体差异的影响，可分析处理因素和个体差异对实验效应的影响，所以又称两因素实验设计，比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组（如动物实验时，可按同窝别、同性别、体重相近进行配伍），每个配伍组有三个或三个以上受试对象，再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。随机区组设计资料的方差分析表变异来源离均差平方和SS自由度均方差 MSF总变异N-1处理间k-1区组间b-1误差拉丁方设计资料的方差分析 v完全随机设计只涉及到一个处理因素。随机

14、区组设计涉及一个处理因素、一个区组因素（或称为配伍因素）。倘若实验研究涉及一个处理因素和两个控制因素，每个因素的类别数或水平数相等，此时可采用拉丁方设计来安排实验，将两个控制因素分别安排在拉丁方设计的行和列上。拉丁方设计资料的方差分析v将k个不同符号排成k列，使得每一个符号在每一行、每一列都只出现一次的方阵，叫做kk拉丁方。应用拉丁方设计（latin square design）就是将处理从纵横二个方向排列为区组(或重复)，使每个处理在每一列和每一行中出现的次数相等（通常一次），即在行和列两个方向都进行局部控制。所以它是比随机区组多一个方向局部控制的随机排列的设计，因而具

15、有较高的精确性。v拉丁方设计的特点是处理数、重复数、行数、列数都相等。它的每一行和每一列都是一个区组或一次重复，而每一个处理在每一行或每一列都只出现一次，因此，它的处理数、重复数、行数、列数都相等。析因设计资料的方差分析 v前四节介绍的单因素方差分析只涉及一个处理因素，该因素至少有两个水平，只是根据实验对象的属性和控制实验误差的需要，采用的实验设计方法有所不同。如比较注射 4种不同剂量的雌激素对白鼠子宫体重增加量的影响，处理因素是注射不同剂量的雌激素，有4个水平。完全随机设计是将n只白鼠随机分4组，随机区组设计是将n只白鼠按出生体重相近的原则，4只一组配成区组后，每个区组内随

16、机分配处理（注射4种不同剂量的雌激素）。拉丁方设计则是在随机区组设计基础上增加了一个列区组，如白鼠有甲、乙、丙、丁四个种系（行区组），每个种系的4 只白鼠按体重大小分、4个级别（列区组），A、B、C、D4个拉丁字母代表处理（不同剂量的雌激素）。拉丁方设计资料的方差分析v可以看出，完全随机设计、随机区组设计和拉丁方设计的处理因素没有变化，都是比较注射4种不同剂量的雌激素的差别，只是改变了设计方法。在同样的实验条件下，通过改进实验设计方法可以大大提高实验效率。如上述实验，白鼠按体重配成区组后再施加处理（随机区组设计），试验的误差均方通常小于完全随机分组设计。拉丁方设计资料的方差分析v在此之前介绍的各种试验设计方法，严格地说，它们仅适用于只有1个试验(或处理)因素的试验问题之中，其他因素都属于区组因数,即与试验因素无交互作用。如果试验所涉及的处理因素的个数 2，当各因素在试验中所处的地位基本平等，而且因素之间存在1级(即2因素之间)、2级(即3因素之间)乃至更复杂的交互作用时，需选用析因设计。本节介绍

展开阅读全文

SAS软件应用之方差分析

最新文档