T-Test_T检验讲义

上传人:豆浆 文档编号:48311342 上传时间:2018-07-13 格式:PPT 页数:114 大小:1.34MB
返回 下载 相关 举报
T-Test_T检验讲义_第1页
第1页 / 共114页
T-Test_T检验讲义_第2页
第2页 / 共114页
T-Test_T检验讲义_第3页
第3页 / 共114页
T-Test_T检验讲义_第4页
第4页 / 共114页
T-Test_T检验讲义_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《T-Test_T检验讲义》由会员分享,可在线阅读,更多相关《T-Test_T检验讲义(114页珍藏版)》请在金锄头文库上搜索。

1、第五章 t检验统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假设检验 ( test of hypothesis) 和参数估计(parametric estimation)二个内容。下一张 主 页 退 出 上一张 假 设 检 验 又叫 显著性 检验 (test of significance)。显著性检验的方法很多 ,常用的有t检验、F检验和2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来阐明显著检验的原理, 介绍 几种t检验的方法,然 后 介 绍 总 体 参 数 的 区 间 估计(interval es

2、timation)。 下一张 主 页 退 出 上一张 第一节 显著性检验的基本 原理一、显著性检验的意义随机抽测10头长白猪和10头大白猪经产母猪的产 仔数,资料如下:长白:11,11,9,12,10,13,13,8,10,13大白: 8, 11,12,10,9, 8 ,8, 9,10,7经计算,得长白猪 10头经产母猪产仔平均数 =11头,标准差S1=1.76头;大白猪10头经产母猪 产仔平均数 =9.2头, 标 准 差S2=1.549头。 下一张 主 页 退 出 上一张 能否仅凭这两个平均数的差值 - =1.8 头,立即得出长白与大白两品种经产母猪产仔数 不同的结论呢?统计学认为,这样得出

3、的结论是 不可靠的 。这是因为如果 我们再分别随机抽测 10 头长白猪和10头大白猪经产母猪的产仔数, 又可得到两个样本资料 。由于 抽样误差的 随机 性,两样本平均数就不一定是11头和9.2头,其 差值也不一定是1.8头 。造成这种差异可能有两 种原因,一是品种造成的差异,即是长白猪与大 白猪本质不同所致,另一可能是试验误差(或抽 样误差)。 下一张 主 页 退 出 上一张 对两个样本进行比较时 ,必须判断样本间 差异是抽样误差造成的,还是本质不同引起的。 如何区分两类性质的差异?怎样通过样本来推断 总体?这正是显著性检验要解决的问题。两个总体间的差异如何比较?一种方法是研 究整个总体,即由

4、总体中的所有个体数据计算出 总体参数进行比较。这种研究整个总体的方法是 很准确的,但常常是不可能进行的,因为总体往 往是无限总体 ,或者 是 包含个体很多的有限总 体。因此 ,不得不采用另一种方法 ,即研究样下一张 主 页 退 出 上一张 样本,通过样本研究其所代表的总体。例如,设 长白猪经产母猪产仔数的总体平均数为 , 大 白猪经产母猪产仔数的总体平均数为 ,试 验 研究的目的,就是要给 、 是否相同 做出推 断。由于总体平均数 、 未知 ,在进行显著性 检验时只能以样本平均数 、 作为检验对象, 更确切地说,是以( - )作为检验对象。为什么以样本平均数作为检验对象呢? 这是 因为样本平均

5、数具有下述特征: 1、离均差的平方和( - )2最小。说 明样本平均数与样本各个观测值最接均数 是资料的代表数。下一张 主 页 退 出 上一张 2、样本平均数 是 总体平均数的 无偏估计 值 ,即E( )=。3、根据统计学中心极限定理,样本平均数服从或逼近正态分布。所以,以样本平均数作为检验对象,由两个 样本平均数差异的大小去推断样本所属总体平均 数是否相同是有其依据的。由上所述,一方面我们有依据由 样本平均 数 和 的差异来推断总体平均数 、 相 同 与否,另一方面又不能仅据样本平均数表面 上的差异直接作出结论,其根本原因在于 试 验 误差(或抽样误差)的不可避免性。下一张 主 页 退 出

6、上一张 通过试验测定得到的每个观测值 ,既由被 测个体所属总体的特征决定,又受个体差异和诸 多无法控制的随机因素的影响。所以观测值 由 两部分组成,即= +总体平均数 反映了总体特征,表示误差。若 样本含量 为n ,则 可 得 到 n 个 观 测 值: , , , 。于是样本平均数 下一张 主 页 退 出 上一张 说明样本平均数并非总体平均数,它还包含试验误差的成分。对于接受不同处理的两个样本来说,则有:= + , = + 这说明两个样本平均数之差( - )也包括了两部分:一部分是两个总体平均数的差( - ),叫 做 试 验 的 处 理 效 应 (treatment effect);另一部分是

7、试验误差( - )。下一张 主 页 退 出 上一张 也就是说样本平均数的差( - )包含有试验误差,它只是试验的表面效应。因此,仅凭( - )就对总体平均数 、 是否相同 下结论是不可靠的。只有 通过 显著性检验 才能从( - )中提取结论。 对( - )进行显著性检验就是要分析:试验的表面效应( - )主要由处理效应( - )引起的 ,还 是 主要 由试验误差所造成。下一张 主 页 退 出 上一张 虽然处理效应( - )未知,但试验的表面效应是可以计算的,借助数理统计方法可以对试验误差作出估计。所以,可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是否存在,这就是显著性检验的基本思

8、想。二、显著性检验的基本步骤(一)首先对试验样本所在的总体作假设 下一张 主 页 退 出 上一张 这里假设 = 或 - =0,即假设长白 猪和大白猪两品种经产母猪产仔数的总体平均数 相等,其意义是试验的表面效应: - =1.8 头是试验误差,处理无效,这种假设称为无效假 设(null hypothesis), 记作 : = 或。 无效假设是被检验的假设,通过检验可能被 接受,也可能被否定。提出 : = 或 - =0 的同时,相应地提出一对应假设,称为备择假设 (alternative hypothesis),记作 。备 择假设是在无效假设被否定时准备接受的假设。下一张 主 页 退 出 上一张

9、本例的备择假设是 : 或 - 0,即假设长白猪与大白猪两品种经产母猪产仔数的总体平均数 与 不相等或 与 之差不等于零,亦即存在处理效应,其意义是指试验的表面效应,除包含试验误差外,还含有处理效应在内。 (二)在无效假设成立的前提下,构造合适的统计量,并研究试验所得统计量的抽样分布,计算无效假设正确的概率 下一张 主 页 退 出 上一张 对于上述例子,研究在无效假设 : = 成立的前提下,统计量( - )的抽样分布。经统计学研究,得到一个统计量t:其中 = 叫做均数差异标准误;n1、n2为两样本的含量。 下一张 主 页 退 出 上一张 所得的统计量 t服从自由度 df =(n1-1 )+(n2

10、-1)的t分布。根据两个样本的数据,计算得: - =11- 9.2=1.8;下一张 主 页 退 出 上一张 我们需进一步估计出|t|2.426的两尾概 率,即估计P(|t|2.426)是多少?查附表3,在 df =(n1-1)+ (n2-1) = (10-1)+(10-1)=18时,两尾概率为 0.05的临界值: =2.101,两尾概率为 0.01的临界t值: =2.878,即:P(|t|2.101)= P(t2.101)+ P(t 2.878)= P(t2.878)+ P(t0.05,即表面效应属于试验误差的可能性大,不能否定 : = ,统计学上把这一检验结果表述为:“两个总体平均数 与 差

11、异不显著”,在计算所得的t值的右上方标记“ns”或不标记符号; 下一张 主 页 退 出 上一张 若t0.05|t| ), 它们构成的抽样分布相叠加 。 有 时 我 们 从 抽样总体抽取一个( - )恰恰 在 成立时的接受域内(如图中横线阴影部分 ),这样,实际是从 总体抽的样本, 经显著性检验却不能否定 ,因而犯了型错 误。犯型错误的概率用 表示 。 型下一张 主 页 退 出 上一张 错误概率 值的大小较难确切估计, 它只有与特定的 结合起来才有意义。一般与显著水平、原总体的标准差、样本含量n、 以及相互比较的两样本所属总体平均数之差 - 等因素有关。在其它因素确定时,值越小, 值越大;反之,

12、值越大, 值越小; 样本含量及 - 越大、越小, 值越小。 下一张 主 页 退 出 上一张 由于 值的大小与值的大小有关,所以在选用检验的显著水平时应考虑到犯、型错误所产生后果严重性的大小,还应考虑到试验的难易及试验结果的重要程度。 若一个试验耗费大,可靠性要求高,不允许反复,那么值应取小些; 下一张 主 页 退 出 上一张 当一个试验结论的使用事关重大, 容易产生严重后果,如药物的毒性试验,值亦应取小些。 对于一些试验条件不易控制, 试验误差较大的试验,可将值放宽到 0.1, 甚至放宽到0.25。下一张 主 页 退 出 上一张 在提高显著水平,即减小值时,为了减小犯型错误的概率,可 适 当

13、增 大 样 本 含 量 。因为 增 大 样 本 含 量 可 使 ( )分 布 的 方 差 2(1/n1+1/n2)变小, 使图 5-2左右两曲线变得比较“高”、“瘦”,叠加部分减少,即 值变小。我们 的 愿 望 是 值不越过某个给定值, 比如=0.05或 0.01的前提下, 值越小越好 。 因 为 在 具 体 问 题 中 和相对不变,所以 值的大小主要取决于样本含量的大小。 下一张 主 页 退 出 上一张 表5-1 两类错误的关系 两类错误的关系可归纳如下:两类错误的关系可归纳如下:四、双侧检验与单侧检验在上述显著性检验中,无效假设 与备择假设 。此时 ,备择假设中包括了 或 两种可能。 这个

14、假设的目的在于判断与有无差异, 而 不考虑 谁大谁小。 如比较长白猪与大白猪两品种猪经产母猪的产仔数,长白猪可能高于大白猪, 也可能低于大白猪。 下一张 主 页 退 出 上一张 此时,在 平上 否 定 域 为 和 ,对称地分配在 t分布曲线的两侧尾部,每侧的概率为/2,如图5-3所示。这种利用两尾概率进行的检验叫 双侧检验 (two-sided test),也叫双尾检验(two-tailed test), 为双侧检验的临界t值。 下一张 主 页 退 出 上一张 但在有些情况下, 双侧检验不一定符合实际情况。如采用某种新的配套技术措施以期提高鸡的产蛋量,已知此种配套技术的实施不会降低产蛋量。此时,若进行新技术与常规技术的比较试验,则无效假设应为 ,即假设新技术与常规技术产蛋量是相同的 ,备 择 假设应为 ,即 新配套 技术的实施使产蛋下一张 主 页 退 出 上一张 量有所提高。检验的目的在于推断实施新技术是否提高了产蛋量,这时H0的否定域在 t分布曲线的右尾。在水平上否定域为 ,右侧的概率为,如图5

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号