山东大学sas课程第7章ppt

上传人:luoxia****01803 文档编号:65798252 上传时间:2019-01-02 格式:PDF 页数:62 大小:297.73KB
返回 下载 相关 举报
山东大学sas课程第7章ppt_第1页
第1页 / 共62页
山东大学sas课程第7章ppt_第2页
第2页 / 共62页
山东大学sas课程第7章ppt_第3页
第3页 / 共62页
山东大学sas课程第7章ppt_第4页
第4页 / 共62页
山东大学sas课程第7章ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《山东大学sas课程第7章ppt》由会员分享,可在线阅读,更多相关《山东大学sas课程第7章ppt(62页珍藏版)》请在金锄头文库上搜索。

1、第7章 单变量检验问题 1 简介 1. 问题的提出 有时我们会遇到对某变量在两样本之间进行比 较的问题。 例如: 男律师比女律师收入高吗?即律师的性别的不同是 否引起收入有统计意义上的差异? 戒烟以后人的体重会减轻吗?即戒烟前和戒烟后的 体重之间是否存在显著差异? 同一家庭中夫妻二人对某一问题的看法是否有差 异? 2. 问题的分类 独立组与成对组 区别:两样本数据相互独立还是相关。 2.1 独立组 独立组(Independent groups):包含对两组独立样本 的量测。 分析目的:比较两组数据的总体均值是否相同。 两总体均值的差异是否显著? 两样本均值的差异是由抽样误差引起的还是由总体均

2、值的差异引起的? 2.2 成对组 成对组(Paired groups):包含对两组相关样本的量测。 例如: 同一受试对象接受处理前后的量测; 同一受试对象接受两种不同的处理的量测; 两个同质受试对象分别接受两种不同的处理的量测; 分析目的:判断成对量测的总体均值是否相同。 样本中变量均值的差异是由抽样误差引起的还是由“处 理”或两个受试对象的不同引起的? 3. 假设检验 3.1 独立组的检验:两独立总体均值的检验 假设有两个总体,总体均值分别是1 和2 。我们 得到两个样本,分别来自上述两个总体,我们要对 1 和2 的大小进行检验。 对两总体均值1 和2 可做如下假设检验: 1H0 : 1 =

3、 2 H1 : 1 2 2H0 : 1 2 H1 : 1 2 3.2 成对组的检验: 设成对量测数据分别用变量 A 和 B 表示,其总体均值 分别用A 和B 表示。我们得到一个样本,来自上述总 体,我们要对A 和B 的大小进行检验。 对两总体均值A 和B 可做如下假设检验: 1H0 : A = B H1 : A B 2H0 : A B H1 : A B 4. 检验方法 参数检验与非参数检验 参数检验:依赖于某种确定的分布假设, 非参数检验:并不做任何严格的分布假设。 组的类型 检验 的 类型 独立组成对组 参数检验两样本 t 检验成对差值 t 检验 非参数检验 Wilcoxon秩和检验Wilc

4、oxon符号秩检验 2 两样本 t 检验 1. 问题及假设 两样本 t 检验实现的是两独立组均值的参数检 验。 假设有两个总体,总体均值分别是1 和2 , 总体方差分别是 和 。 假设我们得到两个样本,分别来自上述两个总 体,两样本的容量分别为 n1 和 n2 ,样本均值 分别为 和 ,样本方差分别为 和 。 1 X 2 1 S 2 X 2 2 S 2 1 2 2 对1 和2 做如下假设检验: 1H0 : 1 = 2 H1 : 1 2 2H0 : 1 2 H1 : 1 2 2. 检验方法及相关统计量 2.1 u 检验(不属于 t 检验,较难实现) (1)适用情况: 和 已知, 有时也适用于 和

5、 未知但样本容量足够大的情况。 (2)检验统计量: u N(0,1) (3)拒绝域 1|u| z1-/2 2u z1- 其中如 z 是 N(0,1) 的分位数。 2 1 2 2 2 1 2 2 12 22 12 12 XX u nn = + 2.2 t 检验 (1)适用情况: 和 未知,但 的情况。 (2)检验统计量:t 服从于自由度为n1 + n2 - 2的 t 分布 令合并方差 则 (3)拒绝域 1| t | t1-/2 (n1 + n2 - 2) 2t t1- (n1 + n2 - 2) 其中如 t (df )是自由度为 df 的 t 分布的分位数。 2 1 2 2 22 12 = 12

6、 12 11 XX t S nn = + ()() 222 1122 12 1 11 2 SnSnS nn =+ + 2.3 t检验 (1)适用情况: 和 未知时。 (2)Satterthwaite近似方法 检验统计量:近似的t 统计量t服从于自由度为 df 的 t 分布 其中 拒绝域 1| t| t1-/2 (df ) 2t t1- (df ) 其中如 t (df ) 是自由度为 df 的 t 分布的分位数,df 为最接 近 l 的整数,l 的计算公式如下 2 1 2 2 12 12 XX t ww = + () ()() 2 12 22 1122 11 ww l wnwn + = + 22

7、 111222 ,wSnwSn= (3)Cochran和Cox方法 检验统计量:近似的 t 统计量 t服从于自由度为 df 的 t 分布 其中 t1 和t2 分别是相应于显著水平和样本量为n1 和n2 的t分布的临界值。 拒绝域 1| t| t1-/2 (df ) 2t t1- (df ) 其中如 t (df ) 是自由度为 df 的 t 分布的分位数,df 在n1 -1和n2 -1 之间。 22 111222 ,wSnwSn= 1 12 2 12 wtw t t ww = + 2.4 检验两总体方差相等的统计量 假设: 统计量:F 统计量的折叠(folded)形式 F。 F是双边 F 检验统

8、计量。p 值给出了零假设下得到更大 F 值的概率。 2222 012112 :HH= 22 12 22 12 max(,) min(,) SS F SS = 2.5 实现 t 检验和 t检验可通过过程步TTEST实现 TTEST过程步中 t 检验对数据的假设 1观测是独立的; 2样本来自于服从正态分布的总体; 3两样本的方差相等。 3 成对差值 t 检验 1. 问题及假设 当关于两组数据相互独立的假设不一定成立,同时数 据中存在着自然的成对的情况,则适用于成对组的分 析。 设成对量测数据分别用变量 A 和 B 表示,其总体均值 分别用A 和B 表示。我们将成对数据放在一个样本的 变量 A 和

9、B 中,样本均值分别为 和 , 对A 和B 做如下假设检验: 1H0 : A = B H1 : A B 2H0 : A B H1 : A B A X B X 2. 检验方法及相关统计量 2.1 用TTEST 过程步实现对假设 H0 : A = B H1 : A B 检验。 2.2 将问题转化为:检验两变量差值的均值是 否为零。 (1) 前提:2个假设 1每对观测与其它对观测独立; 2差值来自正态总体。 (2)方法: 1构造差值变量:diff = A - B 2对diff 做如下假设检验: H0 : diff = 0 H1 : diff 0 H0 : diff 0 H1 : diff 0 4 T

10、TEST 过程步与t检验的实现 1. TTEST 过程步 1.1 一般格式 PROC TTEST ; RUN; PROC TTEST ; RUN; 1.2 TTEST 过程简介 TTEST过程可执行单样本、两样本(独立组)和成对组 的 t 检验。 对于单样本的 t 检验,首先计算变量的样本均值,然后在 样本均值和给定常数之间进行比较。 对于两样本的 t 检验,首先计算两组变量的样本均值,然 后对关于两样本均值的假设进行检验。 对于成对组的 t 检验,可以对一个样本中的关于两个成对 变量的假设进行检验。 t 检验的基本假设: 所给出的是随机样本,且来自于服从正态分布的总体; 此假设可用UNIVA

11、RIATE过程检验。若正态分布的条件 不满足,可NPAR1WAY过程检验。 特别的,对于独立组的 t 检验,要求进行样本比较的两个 总体相互独立; 1.3 语句说明 (1)PROC TTEST语句 PROC TTEST ; 用于调用 TTEST过程。选项如下: 1 DATA=数据集名:指定存放分析数据的数据集, 缺省情况下,系统默认为最近建立的数据集。 2COCHRAN:在方差不等的情况下,要求用Cochran 和Cox方法计算近似 t 统计量, 缺省情况下,系统默认用Satterthwaite近似方法计算近 似 t 统计量。 3CI=EQUAL|UMPU|NONE:指定是否显示的置信区 间,

12、以及置信区间的形式(如果显示的话)。 4H0=m:在关于位置的假设中,以m取代0。默认值 m=0。 (2)CLASS语句 CLASS 变量变量 ; 用于指定分类变量,同时指明此TTEST过程用于对两独立组 (样本)进行 t 检验。 此时的零假设为:两独立组均值相等。 一个TTEST过程中只能指定一个分类变量。 分类变量必须且只能有2个取值水平。用于把数据集中的观 测分成2个组。 分类变量可以是数值型或字符型。 (3)VAR语句 VAR 变量序列变量序列 ; 指定要分析的变量名。 可与CLASS语句协同使用,而不能与PAIRED语句协同使 用。 如无CLASS语句,则对VAR语句中的变量进行单样

13、本的比 较;如有CLASS语句,则对VAR语句中的变量进行两样本 的比较。 缺省时,系统默认分析输入数据集中的所有数值型变量 (除CLASS、BY、FREQ、WEIGHT语句中的变量之外)。 (4)PAIRED语句 PAIRED 变量变量对列表列表; 指定成对组中成对比较的变量名。 变量对列表的形式:由一到多个变量对组成。 变量对:以“*”或“:”连接的变量或变量列表, * 左端列表中的变量依次与右端列表中的变量任意组合进行比较; : 左端列表中的变量依次与右端列表中同一位置的变量进行比较; 例: PAIRED语句不能与CLASS和VAR语句同时使用。 PAIRED语句成对比较变量 PAIRE

14、D A*BA-B PAIRED A*B C*DA-B、C-D PAIRED (A B)*(C D)A-C、A-D、B-C、B-D PAIRED (A B)*(C B)A-C、A-B、B-C PAIRED (A1-A2)*(B1-B2)A1-B1、A1-B2、A2-B1、A2-B2 PAIRED (A1-A3):(B1-B3)A1-B1、A2-B2、A3-B3 (5)BY语句 BY 变量序列变量序列 ; 指定分组变量,将数据集中的观测先分组,在分别进行检 验。 要求数据集事先按分组变量排序。 缺省此语句时,系统默认不分组。 (6)FREQ语句 FREQ 变量变量 ; 指定频数变量,缺省此语句时,

15、系统默认各观测频数为1。 (7)WEIGHT语句 WEIGHT 变量变量 ; 指定权重变量,缺省此语句时,系统默认各观测权重为1。 2. TTEST 过程应用举例 2.1 两样本的 t 检验 (1)数据组织 我们通常将待分析的两样本数据放在同一数据集中。 数据集中设置一个“分组变量分组变量”,此变量只有2个取值 水平。通过在此变量的取值不同,就可以将数据集中 的观测分为2组,即两样本。 (2)实现方法 在CLASS语句中指定分组变量; 在VAR语句中指定要分析的变量; 此时不允许出现PAIRED语句。 (3)结果 首先检验两组的方差相等的显著性概率; 若方差相等,观察 t 统计量,及其统计的显著程度; 若方差不相等,观察近似的 t 统计量,及其统计的显著程 度; (4)例1:两样本的 t 检验1 数据集scores中存储的是体育课得分的数据,包括变量 gender(性别)和score(得分)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号