山东大学sas课程第7章ppt

资源描述

《山东大学sas课程第7章ppt》由会员分享，可在线阅读，更多相关《山东大学sas课程第7章ppt（62页珍藏版）》请在金锄头文库上搜索。

1、第7章单变量检验问题 1 简介 1. 问题的提出有时我们会遇到对某变量在两样本之间进行比较的问题。例如：男律师比女律师收入高吗？即律师的性别的不同是否引起收入有统计意义上的差异？戒烟以后人的体重会减轻吗？即戒烟前和戒烟后的体重之间是否存在显著差异？同一家庭中夫妻二人对某一问题的看法是否有差异？ 2. 问题的分类独立组与成对组区别：两样本数据相互独立还是相关。 2.1 独立组独立组（Independent groups）：包含对两组独立样本的量测。分析目的：比较两组数据的总体均值是否相同。两总体均值的差异是否显著？两样本均值的差异是由抽样误差引起的还是由总体均

2、值的差异引起的？ 2.2 成对组成对组（Paired groups）：包含对两组相关样本的量测。例如：同一受试对象接受处理前后的量测；同一受试对象接受两种不同的处理的量测；两个同质受试对象分别接受两种不同的处理的量测；分析目的：判断成对量测的总体均值是否相同。样本中变量均值的差异是由抽样误差引起的还是由“处理”或两个受试对象的不同引起的？ 3. 假设检验 3.1 独立组的检验：两独立总体均值的检验假设有两个总体，总体均值分别是1 和2 。我们得到两个样本，分别来自上述两个总体，我们要对 1 和2 的大小进行检验。对两总体均值1 和2 可做如下假设检验： 1H0 : 1 =

3、 2 H1 : 1 2 2H0 : 1 2 H1 : 1 2 3.2 成对组的检验：设成对量测数据分别用变量 A 和 B 表示，其总体均值分别用A 和B 表示。我们得到一个样本，来自上述总体，我们要对A 和B 的大小进行检验。对两总体均值A 和B 可做如下假设检验： 1H0 : A = B H1 : A B 2H0 : A B H1 : A B 4. 检验方法参数检验与非参数检验参数检验：依赖于某种确定的分布假设，非参数检验：并不做任何严格的分布假设。组的类型检验的类型独立组成对组参数检验两样本 t 检验成对差值 t 检验非参数检验 Wilcoxon秩和检验Wilc

4、oxon符号秩检验 2 两样本 t 检验 1. 问题及假设两样本 t 检验实现的是两独立组均值的参数检验。假设有两个总体，总体均值分别是1 和2 ，总体方差分别是和。假设我们得到两个样本，分别来自上述两个总体，两样本的容量分别为 n1 和 n2 ，样本均值分别为和，样本方差分别为和。 1 X 2 1 S 2 X 2 2 S 2 1 2 2 对1 和2 做如下假设检验： 1H0 : 1 = 2 H1 : 1 2 2H0 : 1 2 H1 : 1 2 2. 检验方法及相关统计量 2.1 u 检验（不属于 t 检验，较难实现）（1）适用情况：和已知，有时也适用于和

5、未知但样本容量足够大的情况。（2）检验统计量： u N(0,1) （3）拒绝域 1|u| z1-/2 2u z1- 其中如 z 是 N(0,1) 的分位数。 2 1 2 2 2 1 2 2 12 22 12 12 XX u nn = + 2.2 t 检验（1）适用情况：和未知，但的情况。（2）检验统计量：t 服从于自由度为n1 + n2 - 2的 t 分布令合并方差则（3）拒绝域 1| t | t1-/2 (n1 + n2 - 2) 2t t1- (n1 + n2 - 2) 其中如 t (df )是自由度为 df 的 t 分布的分位数。 2 1 2 2 22 12 = 12

6、 12 11 XX t S nn = + ()() 222 1122 12 1 11 2 SnSnS nn =+ + 2.3 t检验（1）适用情况：和未知时。（2）Satterthwaite近似方法检验统计量：近似的t 统计量t服从于自由度为 df 的 t 分布其中拒绝域 1| t| t1-/2 (df ) 2t t1- (df ) 其中如 t (df ) 是自由度为 df 的 t 分布的分位数，df 为最接近 l 的整数，l 的计算公式如下 2 1 2 2 12 12 XX t ww = + () ()() 2 12 22 1122 11 ww l wnwn + = + 22

7、 111222 ,wSnwSn= （3）Cochran和Cox方法检验统计量：近似的 t 统计量 t服从于自由度为 df 的 t 分布其中 t1 和t2 分别是相应于显著水平和样本量为n1 和n2 的t分布的临界值。拒绝域 1| t| t1-/2 (df ) 2t t1- (df ) 其中如 t (df ) 是自由度为 df 的 t 分布的分位数，df 在n1 -1和n2 -1 之间。 22 111222 ,wSnwSn= 1 12 2 12 wtw t t ww = + 2.4 检验两总体方差相等的统计量假设：统计量：F 统计量的折叠（folded）形式 F。 F是双边 F 检验统

8、计量。p 值给出了零假设下得到更大 F 值的概率。 2222 012112 :HH= 22 12 22 12 max(,) min(,) SS F SS = 2.5 实现 t 检验和 t检验可通过过程步TTEST实现 TTEST过程步中 t 检验对数据的假设 1观测是独立的； 2样本来自于服从正态分布的总体； 3两样本的方差相等。 3 成对差值 t 检验 1. 问题及假设当关于两组数据相互独立的假设不一定成立，同时数据中存在着自然的成对的情况，则适用于成对组的分析。设成对量测数据分别用变量 A 和 B 表示，其总体均值分别用A 和B 表示。我们将成对数据放在一个样本的变量 A 和

9、B 中，样本均值分别为和，对A 和B 做如下假设检验： 1H0 : A = B H1 : A B 2H0 : A B H1 : A B A X B X 2. 检验方法及相关统计量 2.1 用TTEST 过程步实现对假设 H0 : A = B H1 : A B 检验。 2.2 将问题转化为：检验两变量差值的均值是否为零。（1）前提：2个假设 1每对观测与其它对观测独立； 2差值来自正态总体。（2）方法： 1构造差值变量：diff = A - B 2对diff 做如下假设检验： H0 : diff = 0 H1 : diff 0 H0 : diff 0 H1 : diff 0 4 T

10、TEST 过程步与t检验的实现 1. TTEST 过程步 1.1 一般格式 PROC TTEST ; RUN; PROC TTEST ; RUN; 1.2 TTEST 过程简介 TTEST过程可执行单样本、两样本（独立组）和成对组的 t 检验。对于单样本的 t 检验，首先计算变量的样本均值，然后在样本均值和给定常数之间进行比较。对于两样本的 t 检验，首先计算两组变量的样本均值，然后对关于两样本均值的假设进行检验。对于成对组的 t 检验，可以对一个样本中的关于两个成对变量的假设进行检验。 t 检验的基本假设：所给出的是随机样本，且来自于服从正态分布的总体；此假设可用UNIVA

11、RIATE过程检验。若正态分布的条件不满足，可NPAR1WAY过程检验。特别的，对于独立组的 t 检验，要求进行样本比较的两个总体相互独立； 1.3 语句说明（1）PROC TTEST语句 PROC TTEST ; 用于调用 TTEST过程。选项如下： 1 DATA=数据集名：指定存放分析数据的数据集，缺省情况下，系统默认为最近建立的数据集。 2COCHRAN：在方差不等的情况下，要求用Cochran 和Cox方法计算近似 t 统计量，缺省情况下，系统默认用Satterthwaite近似方法计算近似 t 统计量。 3CI=EQUAL|UMPU|NONE：指定是否显示的置信区间，

12、以及置信区间的形式（如果显示的话）。 4H0=m：在关于位置的假设中，以m取代0。默认值 m=0。（2）CLASS语句 CLASS 变量变量 ; 用于指定分类变量，同时指明此TTEST过程用于对两独立组（样本）进行 t 检验。此时的零假设为：两独立组均值相等。一个TTEST过程中只能指定一个分类变量。分类变量必须且只能有2个取值水平。用于把数据集中的观测分成2个组。分类变量可以是数值型或字符型。（3）VAR语句 VAR 变量序列变量序列 ; 指定要分析的变量名。可与CLASS语句协同使用，而不能与PAIRED语句协同使用。如无CLASS语句，则对VAR语句中的变量进行单样

13、本的比较；如有CLASS语句，则对VAR语句中的变量进行两样本的比较。缺省时，系统默认分析输入数据集中的所有数值型变量（除CLASS、BY、FREQ、WEIGHT语句中的变量之外）。（4）PAIRED语句 PAIRED 变量变量对列表列表; 指定成对组中成对比较的变量名。变量对列表的形式：由一到多个变量对组成。变量对：以“*”或“:”连接的变量或变量列表， * 左端列表中的变量依次与右端列表中的变量任意组合进行比较； : 左端列表中的变量依次与右端列表中同一位置的变量进行比较；例： PAIRED语句不能与CLASS和VAR语句同时使用。 PAIRED语句成对比较变量 PAIRE

14、D A*BA-B PAIRED A*B C*DA-B、C-D PAIRED (A B)*(C D)A-C、A-D、B-C、B-D PAIRED (A B)*(C B)A-C、A-B、B-C PAIRED (A1-A2)*(B1-B2)A1-B1、A1-B2、A2-B1、A2-B2 PAIRED (A1-A3):(B1-B3)A1-B1、A2-B2、A3-B3 （5）BY语句 BY 变量序列变量序列 ; 指定分组变量，将数据集中的观测先分组，在分别进行检验。要求数据集事先按分组变量排序。缺省此语句时，系统默认不分组。（6）FREQ语句 FREQ 变量变量 ; 指定频数变量，缺省此语句时，

15、系统默认各观测频数为1。（7）WEIGHT语句 WEIGHT 变量变量 ; 指定权重变量，缺省此语句时，系统默认各观测权重为1。 2. TTEST 过程应用举例 2.1 两样本的 t 检验（1）数据组织我们通常将待分析的两样本数据放在同一数据集中。数据集中设置一个“分组变量分组变量”，此变量只有2个取值水平。通过在此变量的取值不同，就可以将数据集中的观测分为2组，即两样本。（2）实现方法在CLASS语句中指定分组变量；在VAR语句中指定要分析的变量；此时不允许出现PAIRED语句。（3）结果首先检验两组的方差相等的显著性概率；若方差相等，观察 t 统计量，及其统计的显著程度；若方差不相等，观察近似的 t 统计量，及其统计的显著程度；（4）例1：两样本的 t 检验1 数据集scores中存储的是体育课得分的数据，包括变量 gender（性别）和score（得分）

展开阅读全文