SAS假设检验(公选)－金锄头文库

资源描述

《SAS假设检验(公选)》由会员分享，可在线阅读，更多相关《SAS假设检验(公选)（80页珍藏版）》请在金锄头文库上搜索。

1、第4章假设检验 4 1参数估计与假设检验的基本概念 4 1 14 1 1 参数估计参数估计 4 1 24 1 2 假设检验假设检验 4 1 1参数估计从总体中抽取样本以样本统计量即样本数字特征作为未知总体参数即总体数字特征的估计量并通过对样本观察值分析来估计和推断即根据样本来推断总体分布的未知参数称为参数估计 parameter estimation 参数估计有两种基本形式点估计和区间估计 1 点估计点估计是用样本统计量估计总体分布中所含的未知参数因为样本统计量为数轴上某一点估计的结果也以一个点的数值表示所以称为点估计通常它们是总体的某个特征值如均值

2、方差和相关系数等点估计问题就是要构造一个只依赖于样本的量作为未知参数或未知参数的函数的估计值 2 区间估计区间估计是通过从总体中抽取的样本根据一定的正确度与精确度的要求以一定可靠程度推断总体参数所在的区间范围作为总体分布的未知参数或参数的函数的真值所在范围的估计区间估计是从点估计值和抽样标准误出发按给定的概率值建立包含待估计参数的区间其中这个给定的概率值称为置信度或置信水平 confidence level 指总体参数值落在样本统计值某一区内的概率这个建立起来的包含待估计参数的区间称为置信区间 confidence interval 表示总体参数的可能

3、范围置信区间是指在某一置信水平下样本统计值与总体参数值间误差范围置信区间双侧置信区间置信下限置信上限置信水平或置信度称为显著性水平单侧或置信区间置信区间正态分布 Normal Distribution 实践中许多频率分布形状如此中间高两侧低对称计算中心正态分布的实例如果数据来自正态分布总体则 68 的值落在距均值1个标准差的范围之内 95 的值落在距均值2个标准差的范围之内 99 的值落在距均值3个标准差的范围之内例如由12岁女孩体重组成一个总体这个总体服从均值为39公斤标准差4 5公斤则 68 的值落在34 5 43 5公斤之间 95

4、的值落在30 48公斤之间 99 的值落在25 5 52 5公斤之间正态分布描述落入不同范围的概率例如近似地有 3 原则 68 的数据落入以均值为中心一倍标准差的范围内 95 的数据落入以均值为中心两倍标准差的范围内 99 的数据落入以均值为中心三倍标准差的范围内若样本均值的分布为正态的当构造置信区间时就可用正态分布给定的概率这一概率对应于置信水平所以构造一个95 的置信区间这个置信区间就有95 的概率包括总体均值 95 就为置信水平小概率事件的含义小概率事件的含义发生概率一般不超过5 的事件即事件在一次试验中几乎不可能发生区间取值概率 68 3

5、 2 2 95 4 3 3 99 7 4 1 2假设检验假设检验是抽样推断中的一项重要内容是一种基本的统计推断形式用来判断样本与样本样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法其基本原理是先依据原资料对总体的参数或分布作出某种假设然后再利用样本对总体提供的信息用适当的统计方法计算出有关检验的统计量依据一定的概率原则以较小的风险来对假设作出应该拒绝或不拒绝推断对总体参数进行假设检验时首先要给定一个原假设H0 H0是关于总体参数的表述与此同时存在一个与H0相对立的备择假设H1 H0与H1有且仅有一个成立经过一次抽样若发生了小概率事

6、件通常把概率小于0 05的事件称为小概率事件可以依据小概率事件在一次实验中几乎不可能发生的理由怀疑原假设不真作出拒绝原假设H0 接受H1的决定反之若小概率事件没有发生就没有理由拒绝H0 从而应作出拒绝H1的决定 1 假设检验的基本思想根据问题确立原假设H0和备择假设H1 确定一个显著性水平它是衡量稀有性小概率事件的标准常取为0 05 选定合适的检验用统计量W 通常在原假设中相等成立时 W的分布是已知的根据 W的分布及的值确定H0的拒绝域由样本观测值计算出统计量W的观测值W0 如果W0落入H0的拒绝域则拒绝H0 否则不能拒绝原假设H0 2 假设

7、检验的基本步骤概率p值是SAS系统根据样本分布和样本数据自动计算一个实际的显著性水平在SAS系统中进行假设检验 p值提供了一个直观的判断依据当p 说明实际计算的显著性水平比理论的显著性水平更小小概率事件在一次实验中发生的几率更小比理论设定的概率还小此时在p值的显著性水平条件下如果还能够观测到小概率事件发生则说明假设更加不可靠应拒绝原假设当p 在p值的显著性水平条件下如果能够观测到小概率事件发生则说明假设可能没有任何问题因为观测一个概率比较大的事件其发生的可能性本来就比较大故不能对假设做出否定的判断 3 假设检验的数学模型 T检验是用于两组数据均

8、数间差异的显著性检验亦称学生T检验 Student s t test 主要用于样本含量较小例如n 30 总体标准差未知的正态分布资料 T检验是用于小样本样本容量小于 30 的两个平均值差异程度的检验方法它是用T 分布理论来推断差异发生的概率从而判定两个平均数的差异是否显著 1 单样本T检验单样本T检验所采用的方法是抽取一组数据作为一个样本对样本均数与理论上的总体均数的差别作显著性检验检验所测得的一组连续资料是否抽样于均数已知的总体根据大量实验调查的结果或一般规律可以得到某一事物的平均数以此作总体均数看待 t统计量的计算公式如下如果用程序方法作单样本T

9、检验可在SAS系统中采用MEANS过程计算出观察与总体均数的差值再对该差值的均数进行T 检验 2 两配对样本的T检验两配对样本T检验包括两种情况即配对资料差异的显著性检验配对比较检验和同一组对象实验前后差异的显著性检验自身对照比较 t统计量的计算公式如下 SAS系统中采用MEANS过程计算出两样本观察的差值如服药前后实验数据的差值再对该差值的均数进行T检验 3 两独立样本的T检验两独立样本的t检验是指对两样本均数的差异作显著性检验作为两样本均数差异比较的两组数据它是分别取自两个独立样本没有成对关系两组的数据个数可以相等也可以不一样 t统计

10、量的计算公式如下方差齐时方差不齐时方差齐性检验用F检验 F统计量的计算公式如下 SAS系统中采用TTEST过程先作方差齐性检验 f 检验当方差齐性时 f应接近于1 f特大或特小都是极端情况同时f的分布不依赖未知参数统计上称它为自由度 n1 1 n2 1 的分布 n1 n2 分别对应独立样本的两个样本个数利用f分布对统计量f的观测值可以得到它的p值并由此对原假设作出判断然后根据方差齐 equal 和方差不齐 unequal 输出t值和p值以及基本统计量 4 TTEST过程 T过程是专门进行T检验的SAS过程它可以做单样本均值的T检验两配对样本均值的T检验和两独立

11、样本均值的T检验其语句格式为 PROC TTEST CLASS 分组变量名 PAIRED 变量名列表 BY 分组变量名 VAR 分析变量名列表 FREQ 变量名列表 WEIGHT 变量名列表 RUN 语句说明 1 PROC TTEST语句后可跟的选项及其表示的含义如表4 1所示选项代表的含义 data 等号后为SAS数据集名指定TTEST过程所要处理的数据集默认值为最近处理的数据集 alpha 等号后为0 1之间的任何值指定置信水平默认为0 05 ci 等号后为 equal umpu none 中的一个表示标准差的置信区间的显示形式默认为ci equal cochran

12、有此选项时 TTEST过程对方差不齐时的近似t检验增加 cochran近似法 h0 等号后为任意实数表示检验假设中对两均值差值的设定默认值为0 2 CLASS语句所指定的分组变量是用来进行组间比较的 3 PAIRED语句用来指定配对t检验中要进行比较的变量对其后所带的变量名列表一般形式及其产生的效果如表4 2所示变量名列表形式产生的效果 a ba b a b c da b c d a b c d a c a d b c b d a b c b a c a b b c 4 BY语句所指定的分组变量是用来将数据分为若干个更小的样本以便SAS分别在各小样本内进行各自独立的处理

13、 5 VAR语句引导要检验的所有变量列表 SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验 6 FREQ指定作为频数的变量 7 WEIGHT指定作为权数的变量 4 2单样本正态总体的参数估计与假设检验 4 2 14 2 1单样本的参数估计单样本的参数估计 4 2 24 2 2单样本的假设检验单样本的假设检验 4 2 1单样本正态总体的参数估计 1 单样本正态总体均值的置信区间 2 单样本正态总体比例的置信区间 3 单样本正态总体方差的置信区间 1 单样本正态总体均值的置信区间例4 1 某小学要对各年级的学生健康状况进行评测其中一项评测需要对五年级男生的平均体重进行

14、估计五年级男生体重的总体方差未知现随机抽取20名男生的体重数据如表4 3所示假定男生体重数据存放在数据集mylib boy w中重量变量名为weight 求该校五年级男生的平均体重在95 置信水平下的置信区间 32383428352938413133 38393744303639503631 1 INSIGHT模块求单样本正态总体均值的置信区间其步骤如下打开数据集mylib boy w 选择菜单分析分布命令在分布对话框中选择变量weight作为分析变量填入 Y 框中单击输出按钮打开输出结果控制对话框在描述性统计量选项中选择基本置信区间单击确定按

15、钮返回到分布对话框再次单击确定按钮得到置信区间的输出结果如图4 3 所示图中显示了在95 的置信水平下分别对均值标准偏差和方差这3个总体参数进行参数估计的结果估计值是对总体参数的点估计置信下限和置信上限是对总体参数的区间估计因此结果表明该校五年级男生平均体重在95 置信水平下的置信区间为33 4435kg 38 4565kg 此外在结果输出窗口中还可以选择表菜单重新设置不同的置信水平 2 用分析家模块求单样本正态总体均值的置信区间其步骤如下在分析家模块中打开数据集mylib boy w 选择菜单统计假设检验均值的单样本t 检验

16、命令在 One Sample t test for a Mean 对话框中选择变量weight作为分析变量单击 tests 按钮在对话框的 Confidence Intervals 选项卡中可以设置置信区间类型和置信水平单击 OK 按钮返回到 One Sample t test for a Mean 对话框再次单击 OK 按钮得到置信区间的输出结果如图4 8所示结果表明单样本均值的95 置信区间的下限是 33 44 上限是38 46 因此该校五年级男生平均体重在95 置信水平下的置信区间为 33 44kg 38 46kg 3 用TTEST过程步求单样本正态总体均值的置信区间程序如下 proc ttest data mylib boy w alpha 0 05 alpha 0 05用于指定显著性水平为0 05 var weight run 2 单样本正态总体比例的置信区间例4 2 某大学要对其1000名在校学生的月支出进行调查随机抽取16名学生调查后结果如表4 4所示设月支出数据存放于数据集mylib outgo中其中月支出变量名为exp 在95

展开阅读全文