SAS假设检验(公选)

上传人:灯火****19 文档编号:125155018 上传时间:2020-03-16 格式:PPT 页数:80 大小:3.76MB
返回 下载 相关 举报
SAS假设检验(公选)_第1页
第1页 / 共80页
SAS假设检验(公选)_第2页
第2页 / 共80页
SAS假设检验(公选)_第3页
第3页 / 共80页
SAS假设检验(公选)_第4页
第4页 / 共80页
SAS假设检验(公选)_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《SAS假设检验(公选)》由会员分享,可在线阅读,更多相关《SAS假设检验(公选)(80页珍藏版)》请在金锄头文库上搜索。

1、第4章 假设检验 4 1参数估计与假设检验的基本概念 4 1 14 1 1 参数估计参数估计 4 1 24 1 2 假设检验假设检验 4 1 1参数估计 从总体中抽取样本 以样本统计量 即样本数字特征 作为未知总体参数 即总体数字特征 的估计量 并 通过对样本观察值分析来估计和推断 即根据样本 来推断总体分布的未知参数 称为参数估计 parameter estimation 参数估计有两种基本形式 点估计和区间估计 1 点估计 点估计是用样本统计量估计总体分布中所含的未知 参数 因为样本统计量为数轴上某一点 估计的结 果也以一个点的数值表示 所以称为点估计 通常 它们是总体的某个特征值 如均值

2、 方差和相关系 数等 点估计问题就是要构造一个只依赖于样本的 量 作为未知参数或未知参数的函数的估计值 2 区间估计 区间估计是通过从总体中抽取的样本 根据一定的 正确度与精确度的要求 以一定可靠程度推断总体 参数所在的区间范围 作为总体分布的未知参数或 参数的函数的真值所在范围的估计 区间估计是从点估计值和抽样标准误出发 按给定 的概率值建立包含待估计参数的区间 其中这个给 定的概率值称为置信度或置信水平 confidence level 指总体参数值落在样本统计值某一区内的 概率 这个建立起来的包含待估计参数的区间称为 置信区间 confidence interval 表示总体参数 的可能

3、范围 置信区间是指在某一置信水平下 样 本统计值与总体参数值间误差范围 置信区间 双侧 置信区间 置信下限 置信上限 置信水平或置信度 称为显著性水平 单侧 或 置信区间置信区间 正态分布 Normal Distribution 实践中 许多频率分布形状如此 中间高 两侧低 对称 计算中心 正态分布的实例 如果数据来自正态分布总体 则 68 的值落在距均值1个标准差的范围之内 95 的值落在距均值2个标准差的范围之内 99 的值落在距均值3个标准差的范围之内 例如 由12岁女孩体重组成一个总体 这个总体 服从均值为39公斤 标准差4 5公斤 则 68 的值落在34 5 43 5公斤之间 95

4、的值落在30 48公斤之间 99 的值落在25 5 52 5公斤之间 正态分布描述落入不同范围的概率 例如 近似地 有 3 原则 68 的数据落入以均值为中心一倍标准差的范 围内 95 的数据落入以均值为中心两倍标准差的范 围内 99 的数据落入以均值为中心三倍标准差的范 围内 若样本均值的分布为正态的 当构造置信区间时 就可用正态分布给定的概率 这一概率对应于置信 水平 所以 构造一个95 的置信区间 这个置信区 间就有95 的概率包括总体均值 95 就为置信水 平 小概率事件的含义 小概率事件的含义 发生概率一般不超过5 的事件 即事件在一次试验中几 乎不可能发生 区 间取值概率 68 3

5、 2 2 95 4 3 3 99 7 4 1 2假设检验 假设检验是抽样推断中的一项重要内容 是一种基 本的统计推断形式 用来判断样本与样本 样本与 总体的差异是由抽样误差引起还是本质差别造成的 统计推断方法 其基本原理是先依据原资料对总体 的参数或分布作出某种假设 然后再利用样本对总 体提供的信息 用适当的统计方法计算出有关检验 的统计量 依据一定的概率原则 以较小的风险来 对假设作出应该拒绝或不拒绝推断 对总体参数进行假设检验时 首先要给定一个原 假设H0 H0是关于总体参数的表述 与此同时存 在一个与H0相对立的备择假设H1 H0与H1有且 仅有一个成立 经过一次抽样 若发生了小概率 事

6、件 通常把概率小于0 05的事件称为小概率事 件 可以依据 小概率事件在一次实验中几乎 不可能发生 的理由 怀疑原假设不真 作出拒 绝原假设H0 接受H1的决定 反之 若小概率事 件没有发生 就没有理由拒绝H0 从而应作出拒 绝H1的决定 1 假设检验的基本思想 根据问题确立原假设H0和备择假设H1 确定一个显著性水平 它是衡量稀有性 小概率事件 的标准 常取为0 05 选定合适的检验用统计量W 通常在原假设 中相等成立时 W的分布是已知的 根据 W的分布及 的值 确定H0的拒绝域 由样本观测值计算出统计量W的观测值W0 如果W0落入H0的拒绝域 则拒绝H0 否则 不能拒绝原假设H0 2 假设

7、检验的基本步骤 概率p值是SAS系统根据样本分布和样本数据自动计 算一个实际的显著性水平 在SAS系统中进行假设 检验 p值提供了一个直观的判断依据 当p 说明实际计算的显著性水平比理论的显 著性水平更小 小概率事件在一次实验中发生的几 率更小 比理论设定的概率还小 此时在p值的 显著性水平条件下 如果还能够观测到小概率事件 发生 则说明假设更加不可靠 应拒绝原假设 当p 在p值的显著性水平条件下 如果能够 观测到小概率事件发生 则说明假设可能没有任何 问题 因为观测一个概率比较大的事件 其发生的 可能性本来就比较大 故不能对假设做出否定的判 断 3 假设检验的数学模型 T检验是用于两组数据均

8、数间差异的显著性检验 亦称学生T检验 Student s t test 主要用于样 本含量较小 例如n 30 总体标准差 未知的正 态分布资料 T检验是用于小样本 样本容量小于 30 的两个平均值差异程度的检验方法 它是用T 分布理论来推断差异发生的概率 从而判定两个平 均数的差异是否显著 1 单样本T检验 单样本T检验所采用的方法是 抽取一组数据作为 一个样本 对样本均数与理论上的总体均数的差别 作显著性检验 检验所测得的一组连续资料是否抽 样于均数已知的总体 根据大量实验调查的结果或 一般规律 可以得到某一事物的平均数 以此作总 体均数看待 t统计量的计算公式如下 如果用程序方法作单样本T

9、检验 可在SAS系统中采 用MEANS过程 计算出观察与总体均数的差值 再 对该差值的均数进行T 检验 2 两配对样本的T检验 两配对样本T检验包括两种情况 即配对资料差异 的显著性检验 配对比较检验 和同一组对象实验 前后差异的显著性检验 自身对照比较 t统计量 的计算公式如下 SAS系统中采用MEANS过程 计算出两样本观察的 差值 如服药前 后实验数据的差值 再对该差 值的均数进行T检验 3 两独立样本的T检验 两独立样本的t检验是指对两样本均数的差异作显著 性检验 作为两样本均数差异比较的两组数据 它 是分别取自两个独立样本 没有成对关系 两组的 数据个数可以相等 也可以不一样 t统计

10、量的计算公式如下 方差齐时 方差不齐时 方差齐性检验用F检验 F统计量的计算公式如下 SAS系统中采用TTEST过程 先作方差齐性检验 f 检验 当方差齐性时 f应接近于1 f特大或特小 都是极端情况 同时f的分布不依赖未知参数 统计 上称它为自由度 n1 1 n2 1 的分布 n1 n2 分别对应独立样本的两个样本个数 利用f分布 对 统计量f的观测值可以得到它的p值并由此对原假设 作出判断 然后根据方差齐 equal 和方差不齐 unequal 输出t值和p值以及基本统计量 4 TTEST过程 T过程是专门进行T检验的SAS过程 它可以做单样 本均值的T检验 两配对样本均值的T检验和两独立

11、 样本均值的T检验 其语句格式为 PROC TTEST CLASS 分组变量名 PAIRED 变量名列表 BY 分组变量名 VAR 分析变量名列表 FREQ 变量名列表 WEIGHT 变量名列表 RUN 语句说明 1 PROC TTEST语句后可跟的选项及其表示的 含义如表4 1所示 选项代表的含义 data 等号后为SAS数据集名 指定TTEST过程所要处理的数据 集 默认值为最近处理的数据集 alpha 等号后为0 1之间的任何值 指定置信水平 默认为0 05 ci 等号后为 equal umpu none 中的一个 表示标准差的 置信区间的显示形式 默认为ci equal cochran

12、 有此选项时 TTEST过程对方差不齐时的近似t检验增加 cochran近似法 h0 等号后为任意实数 表示检验假设中对两均值差值的设 定 默认值为0 2 CLASS语句所指定的分组变量是用来进行组 间比较的 3 PAIRED语句用来指定配对t检验中要进行比 较的变量对 其后所带的变量名列表一般形式及其 产生的效果如表4 2所示 变量名列表形式产生的效果 a ba b a b c da b c d a b c d a c a d b c b d a b c b a c a b b c 4 BY语句所指定的分组变量是用来将数据分为 若干个更小的样本 以便SAS分别在各小样本内进 行各自独立的处理

13、 5 VAR语句引导要检验的所有变量列表 SAS将 对VAR语句所引导的所有变量分别进行组间均值比 较的t检验 6 FREQ指定作为频数的变量 7 WEIGHT指定作为权数的变量 4 2单样本正态总体的参数估计与 假设检验 4 2 14 2 1单样本的参数估计单样本的参数估计 4 2 24 2 2单样本的假设检验单样本的假设检验 4 2 1单样本正态总体的参数估计 1 单样本正态总体均值的置信区间 2 单样本正态总体比例的置信区间 3 单样本正态总体方差的置信区间 1 单样本正态总体均值的置信区间 例4 1 某小学要对各年级的学生健康状况进 行评测 其中一项评测需要对五年级男生的平均 体重进行

14、估计 五年级男生体重的总体方差未知 现随机抽取20名男生的体重数据如表4 3所示 假定男生体重数据存放在数据集mylib boy w中 重量变量名为weight 求该校五年级男生的平 均体重在95 置信水平下的置信区间 32383428352938413133 38393744303639503631 1 INSIGHT模块求单样本正态总体均值的置信区间 其步骤如下 打开数据集mylib boy w 选择菜单 分析 分布 命令 在 分布 对话框中选择变量weight作为分析变量填 入 Y 框中 单击 输出 按钮 打开输出结果控制对话框 在 描述性统计量 选项中选择 基本置信区间 单击 确定 按

15、钮 返回到 分布 对话框 再次单 击 确定 按钮 得到置信区间的输出结果如图4 3 所示 图中显示了在95 的置信水平下 分别对均值 标 准偏差和方差这3个总体参数进行参数估计的结果 估计值是对总体参数的点估计 置信下限和置信 上限是对总体参数的区间估计 因此结果表明 该 校五年级男生平均体重在95 置信水平下的置信区 间为33 4435kg 38 4565kg 此外 在结果输出窗口中 还可以选择 表 菜单 重新设置不同的置信水平 2 用分析家模块求单样本正态总体均值的置信 区间 其步骤如下 在 分析家 模块中打开数据集mylib boy w 选择菜单 统计 假设检验 均值的单样 本t 检验

16、命令 在 One Sample t test for a Mean 对话框中 选择变量weight作为分析变量 单击 tests 按钮 在对话框的 Confidence Intervals 选项卡中可以设置置信区间类型和置信 水平 单击 OK 按钮 返回到 One Sample t test for a Mean 对话框 再次单击 OK 按钮 得到置 信区间的输出结果如图4 8所示 结果表明 单样本均值的95 置信区间的下限是 33 44 上限是38 46 因此该校五年级男生平均 体重在95 置信水平下的置信区间为 33 44kg 38 46kg 3 用TTEST过程步求单样本正态总体均值的置 信区间 程序如下 proc ttest data mylib boy w alpha 0 05 alpha 0 05用于指定显著性水平为0 05 var weight run 2 单样本正态总体比例的置信区间 例4 2 某大学要对其1000名在校学生的月支 出进行调查 随机抽取16名学生调查后结果如表4 4所示 设月支出数据存放于数据集mylib outgo中 其中 月支出变量名为exp 在95

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号