抽样分布与统计推断原理课件

上传人:桔**** 文档编号:567552518 上传时间:2024-07-21 格式:PPT 页数:101 大小:5.47MB
返回 下载 相关 举报
抽样分布与统计推断原理课件_第1页
第1页 / 共101页
抽样分布与统计推断原理课件_第2页
第2页 / 共101页
抽样分布与统计推断原理课件_第3页
第3页 / 共101页
抽样分布与统计推断原理课件_第4页
第4页 / 共101页
抽样分布与统计推断原理课件_第5页
第5页 / 共101页
点击查看更多>>
资源描述

《抽样分布与统计推断原理课件》由会员分享,可在线阅读,更多相关《抽样分布与统计推断原理课件(101页珍藏版)》请在金锄头文库上搜索。

1、第三章第三章 分布与抽样分布分布与抽样分布 第二节第二节 抽样分布抽样分布 第一节第一节 概率与概率分布概率与概率分布 第三节第三节 统计推断统计推断 抽样分布与统计推断原理第一节第一节 概率与概率分布概率与概率分布统计学CertainCertainImpossibleImpossible0.501抽样分布与统计推断原理一一 概率概率(一)概率的统计定义(一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统的可能性大小,以揭示这些事件的内在的

2、统计规律性,从而指导实践。这就要求有一个计规律性,从而指导实践。这就要求有一个能够能够刻划事件发生可能性大小的数量指标刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们的主观意志而改变,人们称之为概率称之为概率(probability)。)。事件事件A的概率记为的概率记为P(A)。)。抽样分布与统计推断原理 概率的统计定义概率的统计定义 在相同条件下进行在相同条件下进行n次重复试验,如次重复试验,如果随机事件果随机事件A发生的次数为发生的次数为m,那么那么m/n称为随机事件称为随机事件A的的频率频率(freque

3、ncy););当试验重复数当试验重复数n逐渐增大时,随机逐渐增大时,随机事件事件A的频率越来越稳定地接近某一数值的频率越来越稳定地接近某一数值 p , 那么那么 就就 把把 p称为随机事件称为随机事件A的的概率概率。 这这 样样 定定 义义 的的 概概 率率 称称 为为 统统 计计 概概 率(率(statistics probability),),或者称后验概率(或者称后验概率(posterior probability)抽样分布与统计推断原理表表3-1 抛掷一枚硬币发生正面朝上的试验记录抛掷一枚硬币发生正面朝上的试验记录 抽样分布与统计推断原理 从表从表3-1可看出,随着实验次数的增多,正面

4、朝上可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近这个事件发生的频率越来越稳定地接近0.5,我们就把,我们就把0.5作为这个事件的概率。作为这个事件的概率。 在一般情况下,随机事件的概率在一般情况下,随机事件的概率p是不可能准确是不可能准确得到的。通常以试验次数得到的。通常以试验次数n充分大时随机事件充分大时随机事件A的频率的频率作为该随机事件概率的近似值。作为该随机事件概率的近似值。 即即 P(A)=pm/n (n充分大)充分大)抽样分布与统计推断原理(二(二)概率的性质概率的性质 1、对于任何事件、对于任何事件A,有有0P(A)1; 2、必然事件的概率为必然事件的概

5、率为1,即,即P()=1; 3、不可能事件的概率为不可能事件的概率为0,即,即P()=0。抽样分布与统计推断原理一个总体是由一个随机变量的所有可能取值来构成的,而样本只一个总体是由一个随机变量的所有可能取值来构成的,而样本只是这些所有可能取值的一部分是这些所有可能取值的一部分 随机变量中某一个值出现的概率,只是随机变量一个侧面的反映,随机变量中某一个值出现的概率,只是随机变量一个侧面的反映,若要全面了解随机变量则必须知道若要全面了解随机变量则必须知道随机变量的全部值随机变量的全部值和和各个值出各个值出现的概率现的概率,即随机变量的概率分布,即随机变量的概率分布 概率和概率分布是生命科学研究中由

6、样本推断总体的理论基础概率和概率分布是生命科学研究中由样本推断总体的理论基础 随机变量的种类很多,每一种随机变量都有其特定的概率分布。随机变量的种类很多,每一种随机变量都有其特定的概率分布。 连续型随机变量连续型随机变量 离散型随机变量离散型随机变量 在一定范围内可连续取值的变量。在一定范围内可连续取值的变量。在一定范围内只取有限种可能的值的变量。在一定范围内只取有限种可能的值的变量。正态分布正态分布 二项分布、泊松分布二项分布、泊松分布 二二 概率分布概率分布抽样分布与统计推断原理1. 正态分布正态分布 正态分布(正态分布(normal distribution)的概念是由德国数学家和天文学

7、家的概念是由德国数学家和天文学家Moivre于于1733年首次提出的,由德国数学家年首次提出的,由德国数学家Gauss率先将其应用于天文学研究,故正率先将其应用于天文学研究,故正态分布又称为态分布又称为Gauss分布(分布(Gaussian distribution)。)。许多生物学领域(许多生物学领域(如身高、体重、脉搏、血红蛋白、血清总胆固醇等如身高、体重、脉搏、血红蛋白、血清总胆固醇等)的随机变量都服)的随机变量都服从或者近似服从正态分布或通过某种转换后服从正态分布,许多其他类型分从或者近似服从正态分布或通过某种转换后服从正态分布,许多其他类型分布基本上都与正态分布有关,它们的极限就是正

8、态分布。布基本上都与正态分布有关,它们的极限就是正态分布。1.1 正态分布的定义正态分布的定义 在日常工作中所遇到的变量大多是连续型随机变量,当这一类随机变量呈线在日常工作中所遇到的变量大多是连续型随机变量,当这一类随机变量呈线性时,往往服从正态分布性时,往往服从正态分布 抽样分布与统计推断原理连续型随机变量的概率分布抽样分布与统计推断原理频数分布表:下面我们以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。抽样分布与统计推断原理频数分布图(又称直方图) 从频数表及频数分布图上可得知: 该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布。所以我们通俗地认为该资料

9、服从正态分布。 抽样分布与统计推断原理频数分布图二抽样分布与统计推断原理频数分布图三抽样分布与统计推断原理正态分布图四抽样分布与统计推断原理和正态分布相对应的曲线称为正态分布密度曲线,简称为和正态分布相对应的曲线称为正态分布密度曲线,简称为正态曲线。正态曲线。 用来描述正态曲线的函数称为正态分布密度函数用来描述正态曲线的函数称为正态分布密度函数 总体平均数 2 总体方差 圆周率3.14 总体标准差 任何一个正态分布均由参数任何一个正态分布均由参数和和所决定所决定如果一个随机变量如果一个随机变量x服从平均数为服从平均数为、方差为方差为2的正态分布,可的正态分布,可记为记为xN(,2)。)。e 自

10、然对数的底,2.71828抽样分布与统计推断原理1.2 正态分布的特点正态分布的特点 (1)正态分布曲线以直线)正态分布曲线以直线x =为对称轴,左右完全对称为对称轴,左右完全对称(3)正态分布曲线有两个拐点,拐点座标分别为(正态分布曲线有两个拐点,拐点座标分别为(-,f(-)和(和(+,f(+),),在这两个拐点处曲线改变方向,在这两个拐点处曲线改变方向,即曲线在(即曲线在(-,-)和(和(+,+) 区间上是下凹的,在区间上是下凹的,在-,+区间内是上凸的区间内是上凸的(2)在在x =处,处,f(x)有最大值有最大值 抽样分布与统计推断原理(4)正态分布密度曲线的位置由正态分布密度曲线的位置

11、由决定(决定(为位置参数),形状为位置参数),形状由由决定(决定(为形状参数)为形状参数)(5)正态分布曲线向两边无限延伸,以正态分布曲线向两边无限延伸,以x轴为渐进线,分布从轴为渐进线,分布从-到到+ 的大小决定了曲线在的大小决定了曲线在x轴上的位置轴上的位置的大小则决定了曲线的胖瘦程度的大小则决定了曲线的胖瘦程度当当恒定时,恒定时,愈大,则曲线沿愈大,则曲线沿x轴愈向右轴愈向右移动移动愈小,曲线沿愈小,曲线沿x轴愈向左移动轴愈向左移动越大表示数据越分散,曲线越胖越大表示数据越分散,曲线越胖越小表示数据越集中,曲线越瘦越小表示数据越集中,曲线越瘦抽样分布与统计推断原理1.3 标准正态分布标准

12、正态分布正态分布由正态分布由和和所决定,不同的所决定,不同的、值就决定了不同的正态分值就决定了不同的正态分布密度函数,因此在实际计算中很不方便的。需将一般的布密度函数,因此在实际计算中很不方便的。需将一般的N(,2 2 )转换为转换为=0, 2 2 =1的正态分布。我们称的正态分布。我们称=0, 2 2 =1的正态分布为的正态分布为标准正态分布标准正态分布(standard normal distribution) 可见,由正态分布密度函数得到标准正态分布密度函数:抽样分布与统计推断原理1.4 正态分布的概率计算正态分布的概率计算 根据概率论原理,可知随机变量根据概率论原理,可知随机变量x在区

13、间(在区间(a,b)内取值的概率是一块面积:内取值的概率是一块面积: 面积由面积由曲线曲线 所围成的曲边梯形所组成:所围成的曲边梯形所组成: 随机变量随机变量x在(在(-,+)间取值的概率为)间取值的概率为1 ,即:,即: 求随机变量x在某一区段内取值的概率就转化成了求由该区段与相应曲线所围成的曲边梯形的面积。 抽样分布与统计推断原理由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,而这些由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,而这些计算在动物科学研究和生产实践中又经常会用到。计算在动物科学研究和生产实践中又经常会用到。 最好的解决办法:将正态分布最好的解决办法:将正

14、态分布转化为转化为标准正态分布,然后根据标准正态分标准正态分布,然后根据标准正态分布表(附表布表(附表1)直接查出概率值。)直接查出概率值。 (1) 标准正态分布的概率计算标准正态分布的概率计算 附表附表1列出了在标准正态分布随机变量列出了在标准正态分布随机变量u在区间在区间(,u内取值的概率:内取值的概率: 抽样分布与统计推断原理标准正态分布的概率计算通式标准正态分布的概率计算通式 抽样分布与统计推断原理标准正态分布函数表标准正态分布函数表 抽样分布与统计推断原理例例1:若u N(0,1),),求: (1)(2)(3)解:解:(1)(2)(3)抽样分布与统计推断原理关于标准正态分布,以下几种

15、概率应当熟记:关于标准正态分布,以下几种概率应当熟记:P(-1u1)=0.6826P(-2u2)=0.9545P(-3u3)=0.9973P(-1.96u1.96)=0.95P(-2.58u2.58)=0.99P(u1) u变量在上述区间以外取值的概率,变量在上述区间以外取值的概率, 即两尾概率:即两尾概率:= 1- P(-1u1) = 1-0.6826 = 0.3174 P(u2)=1- P(-2u2)= 0.0455P(u3)= 1-0.9973 = 0.0027P(u1.96)= 1-0.95 = 0.05P(u2.58)= 1-0.99 = 0.01抽样分布与统计推断原理(2) 正态分

16、布的概率计算正态分布的概率计算 对于服从任意正态分布对于服从任意正态分布N(,2)的随机变量,欲求其在某个区间的取值概率,需的随机变量,欲求其在某个区间的取值概率,需先将它标准化为标准正态分布先将它标准化为标准正态分布N(0,1)的随机变量,然后查表即可。的随机变量,然后查表即可。抽样分布与统计推断原理抽样分布与统计推断原理抽样分布与统计推断原理实质:实质:为了能使正态分布应用起来更方便一些,可以将为了能使正态分布应用起来更方便一些,可以将x作一变换,令:作一变换,令:变换后的正态分布密度函数为:变换后的正态分布密度函数为:标准正态分布均具有标准正态分布均具有=0,2=1的特性的特性如果随机变

17、量如果随机变量u服从标准正态分布,可记为:服从标准正态分布,可记为:uN(0,1) u变换变换这个变换称为标准化或这个变换称为标准化或u变换变换, ,由于由于x是随机变量,因此是随机变量,因此u也是随机变量,也是随机变量,所得到的随机变量所得到的随机变量U也服从正也服从正态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为u分布。可见:分布。可见:抽样分布与统计推断原理数学期望与方差的运算数学期望与方差的运算 抽样分布与统计推断原理抽样分布与统计推断原理随机变量的数学期望就是指它们的理论均数,其

18、统计学意义就是对随机变量进行长期观测所得数据的平均数,因而,数学期望只对长期或大量观测值才有意义,对于个别观测或试验无意义。抽样分布与统计推断原理例2:设 x N(30,102)试求x 40的概率。解:解: 首先将正态分布首先将正态分布 转化为标准正态分布,令转化为标准正态分布,令:则则u服从标准正态分布,故服从标准正态分布,故:抽样分布与统计推断原理例3:设x服从=30.26, 2 2 =5.102的正态分布,试求P(21.64x32.98)。 解:解: 令令则则则则u u服从标准正态分布,故服从标准正态分布,故服从标准正态分布,故服从标准正态分布,故 = =P P(-1.69(-1.69u

19、 u0.53)0.53) =(0.53)-(-1.69) =(0.53)-(-1.69) =0.7019-0.04551 =0.7019-0.04551 =0.6564 =0.6564抽样分布与统计推断原理关于一般正态分布,经常用到以下几个概率:关于一般正态分布,经常用到以下几个概率:P(-x+)= 0.6826P(-2x+2) = 0.9545P(-3x+3) =0.9973P(-1.96x+1.96) = 0.95P(-2.58x+2.58) = 0.99把随机变量把随机变量x落在平均数落在平均数加减不同加减不同倍数标准差倍数标准差区间之外的概率称为两区间之外的概率称为两尾概率(双侧概率)

20、,记作尾概率(双侧概率),记作。对应于两尾概率可以求得随机变量对应于两尾概率可以求得随机变量x小于小于-k或大于或大于+k的概率,称为的概率,称为一尾概率(单侧概率),记作一尾概率(单侧概率),记作2。0.3173 0.0455 0.0027 0.05 0.01 /2抽样分布与统计推断原理附表2: 给出了满足给出了满足两尾临界值两尾临界值u 因此,可以根据两尾概率因此,可以根据两尾概率,由附表由附表2查出相应的临界值查出相应的临界值u。 例4:已知 u N(0,1),),试求u: (1)(2)解:解:(1)(2)抽样分布与统计推断原理2. 二项分布二项分布 二项分布(二项分布(binomial

21、 distribution)是一种最常见的、典型的离散型随机变是一种最常见的、典型的离散型随机变量的概率分布。量的概率分布。有些试验只有非此即彼两种结果,这种由非此即彼的事件构成的总体,称有些试验只有非此即彼两种结果,这种由非此即彼的事件构成的总体,称为二项总体。为二项总体。 结果结果“此此”用变量用变量1表示,表示, 概率为概率为 p 结果结果“彼彼”用变量用变量0表示,表示, 概率为概率为 q 对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与A-中之一,在每次试验中出现A的概率是p(0p5,np、nq较接近时,接近正态较接近时,接近正态分布,分布,n时服从正态分布,即二项分布的

22、极限是正态分布时服从正态分布,即二项分布的极限是正态分布 (5)二项分布的平均数为:)二项分布的平均数为: 方差为:方差为:标准差为:抽样分布与统计推断原理例4:某奶牛场情期受胎率为0.6,该场对30头发情母牛配种,使24头母牛一次配种受胎的概率为多少?解:解:2.3 二项分布的概率计算二项分布的概率计算抽样分布与统计推断原理课堂练习:用某种常规药物治疗猪瘟的治愈率为0.7,对20头患猪瘟的肥育猪进行治疗,问20头猪中16头猪治愈的概率是多少? 解:解:抽样分布与统计推断原理3. 泊松分布泊松分布 当二项分布中的当二项分布中的n,p0时,二项分布趋向于一种新的分布时,二项分布趋向于一种新的分布

23、 泊松分布(普哇松分布)泊松分布(普哇松分布) (Poissons distribution)当试验次数(或称观测次数)很大,而某事件出现的概率很小,当试验次数(或称观测次数)很大,而某事件出现的概率很小,则离散型随机变量则离散型随机变量x服从于泊松分布。服从于泊松分布。 3.1 泊松分布的定义泊松分布的定义 若随机变量若随机变量x(x = m)只取零和正整数值只取零和正整数值0,1,2,且其概,且其概率分布为:率分布为: 其中:其中: = np,是一个常量,且是一个常量,且 则称则称x服从参数为服从参数为的泊松分布,的泊松分布,记为记为x P() 抽样分布与统计推断原理n 泊松分布主要是用来

24、描述小概率事件发生的概率泊松分布主要是用来描述小概率事件发生的概率 单位空间中某些野单位空间中某些野生动物数生动物数 畜群中的畸形畜群中的畸形个体数个体数 畜群中某些遗传性畜群中某些遗传性疾病的患病数疾病的患病数 n 泊松分布不是用来描述几乎不可能发生的事件的概率泊松分布不是用来描述几乎不可能发生的事件的概率 山无棱,天地合山无棱,天地合南京六月飞雪南京六月飞雪抽样分布与统计推断原理(1)泊松分布只有一个参数)泊松分布只有一个参数,= np。 3.2 泊松分布的特点泊松分布的特点 既是泊松分布的平均值既是泊松分布的平均值,又是方差又是方差2,即:即: (2)泊松分布的图形决定于)泊松分布的图形

25、决定于,值愈小分布愈偏倚,随着值愈小分布愈偏倚,随着的增大,分布的增大,分布趋于对称。趋于对称。 当当=20时分布接近于正态分布;当时分布接近于正态分布;当=50时,可以认为泊松分布呈正态分布。时,可以认为泊松分布呈正态分布。 抽样分布与统计推断原理3.3 泊松分布的概率计算泊松分布的概率计算 例5:某大型猪场因某种疾病死亡的猪数呈泊松分布。已知该场平均每年因这种疾病死亡的猪数为9.5头,问2007年该场因这种疾病死亡的猪数为15头的概率是多少?解:解:根据泊松分布的性质可知:根据泊松分布的性质可知: 2007年该场因这种疾病死亡的猪数为15头的概率是2.65%。抽样分布与统计推断原理第二节第

26、二节 抽样分布抽样分布抽样分布与统计推断原理统计学的主要任务就是研究总体和样本的关系:统计学的主要任务就是研究总体和样本的关系: 从样本到总体从样本到总体 从总体到样本从总体到样本 目的就是通过样本来推断总体。目的就是通过样本来推断总体。 目的就是研究样本统计量的分布及其与原目的就是研究样本统计量的分布及其与原总体的关系总体的关系从特殊到一般,从特殊到一般, 从一般到特殊,从一般到特殊, 统计推断统计推断 抽样分布抽样分布 抽样分布是统计推断的基础,研究抽样分布的目的就是为了更好地进行统计推断,并能正确地理解统计推断的结论。 抽样分布与统计推断原理1. 抽样分布的概念抽样分布的概念样本平均数样

27、本平均数 和样本方差和样本方差S2是描述样本特征的两个最重要的统计量是描述样本特征的两个最重要的统计量总体平均数总体平均数和总体方差和总体方差2是描述总体特征的两个最重要的参数是描述总体特征的两个最重要的参数 因此,研究总体和样本的关系,实际就是研究:因此,研究总体和样本的关系,实际就是研究: S2 2 就总体而言,就总体而言,和和2都是常量都是常量 从从总体中随机地抽取若干个体所体中随机地抽取若干个体所组成的成的样本,即使每次抽取的本,即使每次抽取的样本容量都相等,本容量都相等,每一个每一个样本所得到的本所得到的样本平均数本平均数也不可能都相等,同时也不可能就等于总体平均也不可能都相等,同时

28、也不可能就等于总体平均数数 样本统计量将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布 样本统计量的概率分布称为抽样分布(样本统计量的概率分布称为抽样分布(sampling distribution) 样本统计量与总体参数之间的差异称为抽样误差样本统计量与总体参数之间的差异称为抽样误差 (sampling error) 抽样分布与统计推断原理从总体中抽取样本的过程称为抽样(从总体中抽取样本的过程称为抽样(sampling) 抽样分为复置抽样和不复置抽样两种:抽样分为复置抽样和不复置抽样两种: 复置抽样指每次抽出一个个体后,这个个体应返回原总体复置抽样指每次抽出一个个体后,这

29、个个体应返回原总体 不复置抽样指每次抽出的个体不返回原总体不复置抽样指每次抽出的个体不返回原总体 对于无限总体,或者样本容量对于无限总体,或者样本容量n与总体容量与总体容量N相比很小时,返回与否都相比很小时,返回与否都可保证每个个体被抽到的机会相等,复置抽样等同于不复置抽样可保证每个个体被抽到的机会相等,复置抽样等同于不复置抽样 对于有限总体,应该采取复置抽样,否则各个体被抽到的机会就不相等对于有限总体,应该采取复置抽样,否则各个体被抽到的机会就不相等在实际操作中,均为不复置抽样在实际操作中,均为不复置抽样 在理论研究中则以复置抽样为主在理论研究中则以复置抽样为主 抽样分布与统计推断原理2.

30、样本平均数的抽样分布(样本平均数的抽样分布(p47)2.1 样本平均数抽样分布的概念样本平均数抽样分布的概念从总体容量为从总体容量为N的总体中进行抽样,如果每个样本的样本容量均为的总体中进行抽样,如果每个样本的样本容量均为n,将所有将所有这样的样本都抽出来,并计算出每一个样本的平均数这样的样本都抽出来,并计算出每一个样本的平均数原来的那个总体,称为原总体原来的那个总体,称为原总体 由样本平均数组成的分布称为样本平均数的抽样分布由样本平均数组成的分布称为样本平均数的抽样分布 如果原总体的平均数为如果原总体的平均数为,标准差为标准差为,那么样本平均数抽样总体:那么样本平均数抽样总体:平均数为:平均

31、数为:标准差为:标准差为:称为样本平均数抽样总体的标准误差称为样本平均数抽样总体的标准误差 简称为标准误(简称为标准误(standard error) 由这些样本平均数组成的新总体,就称为样本平均数抽样总体。由这些样本平均数组成的新总体,就称为样本平均数抽样总体。 抽样分布与统计推断原理标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度。离散程度。 标准差表示的是原总体中原始数据与原总体平均数的关系标准差表示的是原总体中原始数据与原总体平均数的关系 标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样

32、总体平均标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样总体平均数的关系数的关系 研究总体与样本的关系就转化成了讨论原总体与样本平均数抽样总体的关系:例6:设有一总体,总体容量为N=3,观测值分别为2、4、6,以样本容量n=2对该总体进行复置抽样,证明: (1)(2)抽样分布与统计推断原理原总体的总体平均数为:原总体的总体平均数为:(1)以样本容量以样本容量n = 2对该总体进行复置抽对该总体进行复置抽样,则样本平均数抽样总体为:样,则样本平均数抽样总体为: 样本平均数抽样总体的总体容量样本平均数抽样总体的总体容量为:为: 样本平均数抽样总体的总体平均样本平均数抽样总体的总体平均数为:

33、数为: 抽样分布与统计推断原理(2)原总体的总体标准差为:原总体的总体标准差为:样本平均数抽样总体的总体标准差为:样本平均数抽样总体的总体标准差为: 抽样分布与统计推断原理2.2 样本平均数抽样分布的特点样本平均数抽样分布的特点(1)样本平均数抽样总体的总体平均数与原总体的总体平均数相等,)样本平均数抽样总体的总体平均数与原总体的总体平均数相等,因此,可用因此,可用代替代替(2)样本平均数抽样总体的方差与原总体的方差的关系为)样本平均数抽样总体的方差与原总体的方差的关系为 (3)当随机变量)当随机变量xN(,2)时,样本平均数时,样本平均数 当随机变量当随机变量x不呈正态分布或分布未知时,只要

34、样本容量不呈正态分布或分布未知时,只要样本容量n不断增大(或不断增大(或足够大),则样本平均数的分布逐渐趋向于正态分布,且平均数为足够大),则样本平均数的分布逐渐趋向于正态分布,且平均数为,方差为方差为中心极限定理中心极限定理样本平均值样本平均值 服从或近似服从正态分服从或近似服从正态分布布抽样分布与统计推断原理2.3 与与 的关系的关系(1) (2)表示原总体中各观测值的离散程度表示原总体中各观测值的离散程度 表示样本平均数抽样总体中各样本平均数的离散程度表示样本平均数抽样总体中各样本平均数的离散程度(3)是总体中各观测值变异程度的度量值是总体中各观测值变异程度的度量值 是样本平均数抽样误差

35、的度量值是样本平均数抽样误差的度量值是用来衡量样本平均数代表总体平均数的代表程度的是用来衡量样本平均数代表总体平均数的代表程度的(4)称为标准差,用称为标准差,用Sd表示表示 称为标准误,用称为标准误,用Se表示表示 抽样分布与统计推断原理3. 标准误的作用标准误的作用(1)衡量样本平均数间的变异程度)衡量样本平均数间的变异程度(2)推断总体平均数的可能范围)推断总体平均数的可能范围 标准误大,说明样本平均数间的变异程度大标准误大,说明样本平均数间的变异程度大 标准误大,用样本平均数来估计总体平均数的效果差,样本平均数的代表性弱标准误大,用样本平均数来估计总体平均数的效果差,样本平均数的代表性

36、弱 在通常情况下,可以用样本标准误来估计在通常情况下,可以用样本标准误来估计抽抽样总体标准误样总体标准误 可用样本平均数可用样本平均数标准误来估计总体平均数标准误来估计总体平均数的可能范围的可能范围表示原始数据的变异程度的表示原始数据的变异程度的 是用样本平均数来估计总体平均数的可能范围是用样本平均数来估计总体平均数的可能范围(3)抽样分布与统计推断原理4. t-分布分布4.1 t-分布的定义分布的定义设有服从正态分布的随机变量设有服从正态分布的随机变量x,正正态分布的分布的标准化公式准化公式为: 对于总体方差对于总体方差2已知的总体,已知的总体,根据公式可以计算出随机变量根据公式可以计算出随

37、机变量x在某一区间在某一区间内出现的概率:内出现的概率: 对于总体方差对于总体方差2已知的总体,根据公式可以知道已知的总体,根据公式可以知道样本平均数样本平均数样本平均数样本平均数在某一区间内在某一区间内出现的概率,公式为:出现的概率,公式为: 服从标准正态分布服从标准正态分布附:附:服从标准正态分布服从标准正态分布抽样分布与统计推断原理假如假如2未知,而且样本容量又比较小(未知,而且样本容量又比较小(n30)时:时: 标准化公式可变换为:标准化公式可变换为:t统计量组成的分布,就称为统计量组成的分布,就称为t分布(分布(t distribution) 不再服从标准正态分布不再服从标准正态分布

38、t分布是一组曲线,自由度不同,曲线不同,但均以分布是一组曲线,自由度不同,曲线不同,但均以y轴为对称轴为对称 t分布只有一个参数,即自由度分布只有一个参数,即自由度 dft分布的平均数和标准差为:分布的平均数和标准差为: 0 (df 1) (df 2)服从服从t-分布分布抽样分布与统计推断原理4.2 t-分布的特点分布的特点(1)t分布为对称分布,关于分布为对称分布,关于t = 0对称;只有一个峰,峰值在对称;只有一个峰,峰值在t = 0处;与标准正态分布曲线相比,处;与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高分布曲线顶部略低,两尾部稍高而平而平 (2)t分布曲线受自由度分布曲线受

39、自由度df 的影响,自由度越小,离散程度越大的影响,自由度越小,离散程度越大(3) t分布的极限是正态分分布的极限是正态分布。布。df越大,越大,t分布越趋近于分布越趋近于标准正态分布标准正态分布 当当n 30时,时,t分布与标准正态分布与标准正态分布的区别很小;分布的区别很小;n 100时,时,t分布基本与标准正态分布相分布基本与标准正态分布相同;同;n时,时,t 分布与标准分布与标准正态分布完全一致正态分布完全一致抽样分布与统计推断原理4.3 t-分布的概率计算分布的概率计算附表附表4 4给出了给出了t t分布的两尾临界值分布的两尾临界值 当左尾和右尾的概率之和为当左尾和右尾的概率之和为

40、(每(每侧为侧为 /2)时,)时,t分布在横坐标上分布在横坐标上的临界值的绝对值,记为的临界值的绝对值,记为t 例7:根据附表4查出相应的临界 t值 :(1)df =9,=0.05; (2)df =9,=0.01抽样分布与统计推断原理从一个平均数为从一个平均数为,方差为方差为2的正态总体中,进行独立地抽样,的正态总体中,进行独立地抽样,可获得随机变量可获得随机变量x,则其标准离差:则其标准离差: N(0,1)如果连续进行如果连续进行n次独立抽样,可得次独立抽样,可得n个标准正态离差个标准正态离差ui,对这对这n个独立的标准正态离差个独立的标准正态离差ui进行平方求和就得到一个新的统计量进行平方

41、求和就得到一个新的统计量2:5. 2-分布分布5.1 2-分布的定义分布的定义抽样分布与统计推断原理如果用样本进行计算:如果用样本进行计算:由这些由这些2值所组成的一个分布,就称之为值所组成的一个分布,就称之为2分布(分布(2 distribution)抽样分布与统计推断原理5.2 2-分布的特点分布的特点(1)2分布的取值范围为分布的取值范围为0,+),无负值),无负值(2)2分布的平均数为:分布的平均数为: 方差为:方差为: (3)2分布的形状决定于自由度分布的形状决定于自由度df 当当df =1时,曲线呈反时,曲线呈反 J 形形 随着随着df 的增大,曲线渐趋对称的增大,曲线渐趋对称 当

42、当df 30时,向正态分布渐近时,向正态分布渐近 (4)2还可以定义为理论次数与观察次数间的符合程度还可以定义为理论次数与观察次数间的符合程度 (离散型变量)(离散型变量)O 观察次数 E 理论次数 抽样分布与统计推断原理5.3 2-分布的概率计算分布的概率计算附表附表3 3给出了给出了2 2分布的右尾临界值分布的右尾临界值 当右尾概率为当右尾概率为 时,时,2分布在横坐标分布在横坐标上的临界值的绝对值,记为上的临界值的绝对值,记为例8:根据附表3查出相应的右尾临界2值 : (1)df =9,=0.05;(2)df =9,=0.01如果计算左尾概率为如果计算左尾概率为 时时 2分布分布的临界值

43、,只需查右尾概率为的临界值,只需查右尾概率为1- 的右尾临界值即可。的右尾临界值即可。抽样分布与统计推断原理6. F-分布分布6.1 F-分布的定义分布的定义从一个方差从一个方差2的正态总体中独立地抽取样本容量分别为的正态总体中独立地抽取样本容量分别为n1、n2的两个样本,的两个样本,这两个样本的方差分别为:这两个样本的方差分别为:则有:则有:这两个这两个2变量除以各自的自由度后的比值为:变量除以各自的自由度后的比值为:由一系列由一系列F值所构成的分布称为值所构成的分布称为F分布(分布(F distribution) F F(df1,df2) 已计算:已计算:抽样分布与统计推断原理6.2 F-

44、分布的特点分布的特点(1)F分布密度曲线是随自由度分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线的变化而变化的一簇偏态曲线 其形状随着其形状随着df1、df2的增大逐渐趋于对称;的增大逐渐趋于对称;(2)F分布的取分布的取值范范围是(是(0,+),其平均数:),其平均数:抽样分布与统计推断原理6.3 F-分布的概率计算分布的概率计算附表附表5 5给出了给出了F F分布的右尾临界值分布的右尾临界值 当右尾概率为当右尾概率为 时,时,2分布在横坐分布在横坐标上的临界值的绝对值,记为标上的临界值的绝对值,记为F 例9:根据附表5查出相应的右尾临界F值 : (1)df1 =4, df2

45、 =20,=0.05;(2) df1 =4, df2 =20,=0.01F0.01(4,20) = 4.43 F0.05(4,20) = 2.87 抽样分布与统计推断原理第三节 统计推断 假设检验假设检验参数估计参数估计统计学抽样分布与统计推断原理统计推断在统计方法中的地位统计推断在统计方法中的地位抽样分布与统计推断原理1.统计推断:根据样本的观察结果以及样统计推断:根据样本的观察结果以及样本统计量的抽样分布,对总体的数量特征本统计量的抽样分布,对总体的数量特征作出具有一定可靠程度的作出具有一定可靠程度的估计和判断估计和判断。2.统计推断的基本内容有两个:统计推断的基本内容有两个:(1)参数估

46、计)参数估计(利用样本指标来推断估计(利用样本指标来推断估计未知的总体指标。)未知的总体指标。)(2)假设检验)假设检验(先对总体参数做一个假设,(先对总体参数做一个假设,然后利用样本资料检验这个假设是否成立。)然后利用样本资料检验这个假设是否成立。)统计推断概述统计推断概述抽样分布与统计推断原理假设你正在研究平均一个美国人一生中要得到多少交通罚单,报告研究结果的方法有以假设你正在研究平均一个美国人一生中要得到多少交通罚单,报告研究结果的方法有以下两种:下两种:“10”或者或者“8到到12之间之间”一、参数估计一、参数估计抽样分布与统计推断原理Gudmund R. Iversen抽样分布与统计

47、推断原理1、点估计、点估计1.用样本的估计量直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用样本方差直接作为总体方差的估计2.没有给出估计值接近总体参数程度的信息7/21/202473抽样分布与统计推断原理2、区间估计、区间估计1.在点估计的基础上,给出总体参数估计的一个区区间间范范围围,该区间由样本统计量加减抽样误差而得到的2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量n比如,某班级平均分数在7585之间,置信水平是95% 样本统计量样本统计量样本统计量样本统计量 ( (点估计点估计点估计点估计) )置信区间置信区间置信区间置信区间置信

48、下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限7/21/202474抽样分布与统计推断原理抽样分布与统计推断原理抽样分布与统计推断原理抽样分布与统计推断原理抽样分布与统计推断原理影响区间宽度的因素影响区间宽度的因素1. 总体数据的离散程度,总体数据的离散程度,用用 来测度来测度2. 样本容量,样本容量,3. 置信水平置信水平 (1 - ),影响,影响 的大小的大小抽样分布与统计推断原理统计假设检验又称为显著性检验,是生物统计学的核心内容,是统计推断的主要组成部分统计推断(statistical inference)就是通过样本特征(统计量)来推断相应总体特征(参数)的方法n 参数

49、估计(参数估计(parametric estimate) 通过样本统计量估计总体参数的方法通过样本统计量估计总体参数的方法 点估计(点估计(point estimate) 区间估计(区间估计(interval estimate)直接用样本统计量的数值估计出相应总体参数具体值的方法直接用样本统计量的数值估计出相应总体参数具体值的方法在一定的概率保证下(一般为在一定的概率保证下(一般为95%或或99%),根据样本统计量的分布,计),根据样本统计量的分布,计算出总体参数出现的数值范围或区间,用该区间来估计总体参数的方法算出总体参数出现的数值范围或区间,用该区间来估计总体参数的方法 参数估计是对总体参

50、数的参数估计是对总体参数的定量分析定量分析 二、假设检验二、假设检验抽样分布与统计推断原理n 统计假设检验(统计假设检验(hypothesis test) 根据某种实际需要,对未知的或不完全知道的总体参数提出一些假设,根据某种实际需要,对未知的或不完全知道的总体参数提出一些假设,然后根据样本观测值和统计量的分布,通过一定的计算,再作出在一定然后根据样本观测值和统计量的分布,通过一定的计算,再作出在一定概率意义上应当接受哪种假设的方法。概率意义上应当接受哪种假设的方法。 统计假设检验的假设是对总体提出的,由于最后检验的结论只有两种:统计假设检验的假设是对总体提出的,由于最后检验的结论只有两种:要

51、比较的总体参数间要么存在显著差异,要么不存在显著差异要比较的总体参数间要么存在显著差异,要么不存在显著差异 统计假设检验是对总体参数的统计假设检验是对总体参数的定性分析定性分析 1. 统计假设检验的意义统计假设检验的意义 以两个平均数之间差异的显著性检验以两个平均数之间差异的显著性检验 t-检验为例检验为例现随机挑选10名中国女性和10名韩国女性,请世界网络知名度大赛评委和观众进行知名度评分,试比较哪个国家女性知名度更高?抽样分布与统计推断原理9.999.859.999.959.989.979.959.95中国女性的平均得分9.98韩国女性的平均得分9.91抽样分布与统计推断原理两个国家女性的

52、平均得分并不相等,其差值(表面效应)为:两个国家女性的平均得分并不相等,其差值(表面效应)为: 根据两个样本平均数的差值根据两个样本平均数的差值0.07,是否可以给两个样本所在总体的总体平,是否可以给两个样本所在总体的总体平均数下这样的结论:均数下这样的结论:中国女性总体的平均得分高于韩国女性总体的平均得分中国女性比韩国女性知名度更高 如果从经典数学的角度来看,答案应该是肯定如果从经典数学的角度来看,答案应该是肯定 如果从生物统计学的角度来看,在未经过统计假设检验以前,只能如果从生物统计学的角度来看,在未经过统计假设检验以前,只能说说“不一定不一定” 事实上,仅仅凭借样本平均数之差不等于事实上

53、,仅仅凭借样本平均数之差不等于0就得出其所属的总体平均数不相就得出其所属的总体平均数不相等是不可靠的等是不可靠的 实际上,进行试验研究的目的并不在于了解样本的结果,而是要通过样本了实际上,进行试验研究的目的并不在于了解样本的结果,而是要通过样本了解总体,通过样本来推断总体,从而对总体给出一个全面的结论解总体,通过样本来推断总体,从而对总体给出一个全面的结论 抽样分布与统计推断原理在在统计学中,一般用学中,一般用样本平均数本平均数 、 作为统计假设检验的对象作为统计假设检验的对象 、以样本平均数差数的大小来对样本所在的总体平均数以样本平均数差数的大小来对样本所在的总体平均数1与与2是否相同作出是

54、否相同作出统计推断统计推断 以样本平均数作为检验对象的依据: 离均差平方和为最小,说明样本平均数与样本中各个观测值之间相差最离均差平方和为最小,说明样本平均数与样本中各个观测值之间相差最小,因此,平均数是一个样本资料的最好代表值小,因此,平均数是一个样本资料的最好代表值 样本平均数是总体平均数的无偏估计值样本平均数是总体平均数的无偏估计值 根据中心极限定理,样本平均数服从或逼近正态分布根据中心极限定理,样本平均数服从或逼近正态分布实际上,每个观测值(数据)都只是试验的表面效应,而表面效应一般由两部分组成: 试验的处理效应试验的处理效应 试验的随机误差试验的随机误差 抽样分布与统计推断原理样本中

55、每一观测值样本中每一观测值xi也可以被分解成两部分:也可以被分解成两部分: 处理效应:处理效应: 用总体平均数用总体平均数表示表示 误差效应:误差效应: 用随机误差用随机误差表示表示 样本平均数为:样本平均数为: 总体平总体平均数均数样本平均数的差数也可分解成样本平均数的差数也可分解成2部分:部分:误差平误差平均数均数表面表面效应效应处理处理效应效应抽样抽样误差误差抽样分布与统计推断原理抽样分布与统计推断原理2. 统计假设检验的基本思想与步骤统计假设检验的基本思想与步骤 首先根据具体试验目的提出一个假设 然后在假定该假设成立(或正确)的前提下进行试验,并取得数据,接着对这些资料进行统计分析,获

56、得该假设成立的概率 最后根据所获得的概率值的大小来判断假设是否成立 如果所得概率较大,就表明我们没有足够的理由来否定所作假设,即必须接受这一假设 如果所得概率较小,就表明这一假设不大可能成立,应予否定,从而接受其对立假设 统计假设检验的基本步骤抽样分布与统计推断原理例3-3:通过以往的大规模调查,已知某地成年黑白花奶牛血液中的白细胞数为52.3,标准差为5.38,现测得10头黑白花牛白细胞数分别为53.6,55.3,46.4,57.2,46.0,43.2,48.1,51.1,49.9,44.5; =49.53。试问这批黑白花奶牛是否来自于某地黑白花奶牛总体?(1)对所研究的总体提出假设对所研究

57、的总体提出假设研究某一随机样本所在的总体(用研究某一随机样本所在的总体(用表示)和一已知总体(用表示)和一已知总体(用0表示)是否表示)是否为同一总体,也就是研究这一随机样本是否来自于已知总体为同一总体,也就是研究这一随机样本是否来自于已知总体 假设:假设: 两个总体为同一个总体(即两个总体的总体平均数相等)两个总体为同一个总体(即两个总体的总体平均数相等)无效假设(无效假设(null hypothesis) 用用H0表示表示 即即H0:=0 无效假设的含义:无效假设就是假设两总体的平均数相等,即H0:假设样本平均数 与已知总体平均数 由抽样误差引起的,并不是两总体之间的真实差异 两总体之间的

58、差异是由抽样误差所引起的抽样分布与统计推断原理为了在无效假设被否定后有可以被接受的假设,因此应在设立无效假设的同为了在无效假设被否定后有可以被接受的假设,因此应在设立无效假设的同时设立一个后备假设时设立一个后备假设 备择假设(备择假设(alternative hypothesis) 用用HA表示表示 即即HA: 备择假设的统计学意义:样本所在总体与已知总体不是同一个总体,即两总体的平均数不等,即: 两总体之间的差异是真实差异,而不是由抽样误差引起的 统计假设检验中完整的假设是:统计假设检验中完整的假设是: 两总体之间的差异是真实差异抽样分布与统计推断原理(2)在假定无效假设成立的前提下,研究样

59、本平均数的抽样分布,计算样在假定无效假设成立的前提下,研究样本平均数的抽样分布,计算样本平均数出现的概率本平均数出现的概率样本平均数与总体平均数间有一个实际存在的差值:样本平均数与总体平均数间有一个实际存在的差值:这个差值就是表面效应,可能是抽样误差,也可能是真实差异,因此需要这个差值就是表面效应,可能是抽样误差,也可能是真实差异,因此需要借助概率原理来进行判断借助概率原理来进行判断 n 第一种方法:计算差值-2.77出现的概率在无效假设成立的前提下,样本所在的总体与已知总体为同一个总体,因在无效假设成立的前提下,样本所在的总体与已知总体为同一个总体,因此样本所在总体的总体平均数和方差已知,即

60、:此样本所在总体的总体平均数和方差已知,即:由于总体方差已知,根据标准正态分布就可以计算出差值由于总体方差已知,根据标准正态分布就可以计算出差值-2.77出现的概率出现的概率 0.10.11(一个)样本在假设成立的条件下构造的统计量出现的概率抽样分布与统计推断原理n 第二种方法:计算样本平均数的接受区间根据标准化公式计算样本平均数的接受区间:根据标准化公式计算样本平均数的接受区间:接受区间接受区间否定区间否定区间接受区间和否定区间是有一定的概率保证的,保证概率为接受区间和否定区间是有一定的概率保证的,保证概率为1-,常用的保常用的保证概率为证概率为95%和和99%;为显著水平,常用的显著水平有

61、为显著水平,常用的显著水平有0.05和和0.01倘若样本平均数落在接受区间内,就接受倘若样本平均数落在接受区间内,就接受H0,反之,倘若样本平均数落在反之,倘若样本平均数落在接受区间之外,就否定接受区间之外,就否定H0,接受接受HA作为作为0.05显著水平上接受或否定无效假设的两个临界值显著水平上接受或否定无效假设的两个临界值 作为作为0.01显著水平上接受或否定无效假设的两个临界值显著水平上接受或否定无效假设的两个临界值 抽样分布与统计推断原理95%的接受区间为:的接受区间为:99%的接受区间为:的接受区间为:(3)根据根据“小概率事件实际不可能性原理小概率事件实际不可能性原理”接受或否定无

62、效假设接受或否定无效假设小概率事件实际不可能性原理是指在一次试验中,概率很小的事件是不可小概率事件实际不可能性原理是指在一次试验中,概率很小的事件是不可能出现的能出现的 在统计学中,当样本平均数与总体平均数差值出现的概率小于在统计学中,当样本平均数与总体平均数差值出现的概率小于5%时,就认时,就认为这种差异由抽样误差引起的概率较小,而是两总体间的真实性差异,从为这种差异由抽样误差引起的概率较小,而是两总体间的真实性差异,从而否定无效假设而否定无效假设 差值差值-2.77出现的概率为出现的概率为0.10.11,大于,大于0.05,概率较大,概率较大 ;说明样本平均数;说明样本平均数与已知总体的总

63、体平均数之间的差异是抽样误差的概率较大,而不大可能是与已知总体的总体平均数之间的差异是抽样误差的概率较大,而不大可能是真实差异真实差异 接受无效假设,也就是说这批黑白花奶牛是来自于某地黑白花奶牛总体。接受无效假设,也就是说这批黑白花奶牛是来自于某地黑白花奶牛总体。抽样分布与统计推断原理总结:统计假设检验的步骤(1)提出假设)提出假设 (2)计算样本平均数抽样分布的)计算样本平均数抽样分布的t值或值或u值值 (3)查附表,根据小概率原理作出接受或者否定无效假设的推断,并结)查附表,根据小概率原理作出接受或者否定无效假设的推断,并结合专业知识作出合理的、科学的解释合专业知识作出合理的、科学的解释

64、例4-2:1995年,已知某地20岁应征男青年的平均身高为168.5cm。2005年在当地20岁应征男青年中随机抽取85人,平均身高为171.2cm,标准差为5.3cm,问2005年当地20岁应征男青年的身高与1995年的是否相同?解:解:(1)提出假设)提出假设H0:= 168.5HA:168.5与与1995年相比,年相比,2005年当地年当地20岁应征男青年的身高没有变化岁应征男青年的身高没有变化 与与1995年相比,年相比,2005年当地年当地20岁应征男青年的身高有变化岁应征男青年的身高有变化 抽样分布与统计推断原理(2)计算)计算u值值 (3)查表,作出推断)查表,作出推断 u0.0

65、5=1.96,u0.01=2.58 |u| = 4.70 2.58 = u0.01, P0.01 根据根据“小概率事件原理小概率事件原理”可以认为无效假设不成立,因此否定无效假设,可以认为无效假设不成立,因此否定无效假设,接受备择假设接受备择假设 样本不是来自于已知总体,即样本不是来自于已知总体,即2005年当地年当地20岁应征男青年的身高有变化,岁应征男青年的身高有变化,比比1995年增高了年增高了 抽样分布与统计推断原理在显著性检验中,否定或接受无效假设的依据是在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原小概率事件实际不可能性原理理” 用来确定否定或接受无效假用来确

66、定否定或接受无效假设的概率的概率标准称准称为显著水平,著水平,记作作 若若|u|u0.05 P0.05, 说明表面效应属于试验误差的可能性大,不能否定无效假设,说明表面效应属于试验误差的可能性大,不能否定无效假设,两个总体平均数间两个总体平均数间差异不显著差异不显著 若若u0.05|u|u0.01 P0.05, 说明表面效应属于试验误差的概率说明表面效应属于试验误差的概率P在在0.01-0.05之间,表面效应之间,表面效应属于试验误差的可能性较小,应否定无效假设,接受备择假设属于试验误差的可能性较小,应否定无效假设,接受备择假设 两个总体平均数间两个总体平均数间差异显著差异显著 标记标记 *

67、若若|u|u0.01 P0.01, 说明表面效应属于试验误差的概率说明表面效应属于试验误差的概率P不超过不超过0.01,表面效应属于,表面效应属于试验误差的可能性更小,应否定无效假设,接受备择假设试验误差的可能性更小,应否定无效假设,接受备择假设 两个总体平均数间两个总体平均数间差异极显著差异极显著 标记标记 * 抽样分布与统计推断原理3. 一尾检验和两尾检验一尾检验和两尾检验 所研究样本的样本平均数,有可能大于已知总体的总体平均数,也有可能小所研究样本的样本平均数,有可能大于已知总体的总体平均数,也有可能小于已知总体的总体平均数,即计算所得的于已知总体的总体平均数,即计算所得的u值可能会落在

68、标准正态分布左边值可能会落在标准正态分布左边否定区,也有可能会落在右边否定区否定区,也有可能会落在右边否定区 既考虑左边否定区又考虑右边否定区即考虑分布既考虑左边否定区又考虑右边否定区即考虑分布曲线两尾的检验称为两尾检验(曲线两尾的检验称为两尾检验(two-tailed test)在很多情况下,事先并不知道所抽样本的样本在很多情况下,事先并不知道所抽样本的样本平均数是不是肯定大于总体平均数或肯定小于平均数是不是肯定大于总体平均数或肯定小于总体平均数总体平均数 因此,备择假设因此,备择假设HA:0中,有两种可能性存中,有两种可能性存在,既包括在,既包括0,又包括又包括0 两尾检验是生物统计学中最

69、常用的方法,应用范围极其广泛两尾检验是生物统计学中最常用的方法,应用范围极其广泛 抽样分布与统计推断原理有些时候,试验目的是明确的,即所抽样本的样本平均数只可能大于总体有些时候,试验目的是明确的,即所抽样本的样本平均数只可能大于总体平均数平均数0,或只可能小于总体平均数或只可能小于总体平均数0 在这种情况下,无效假设否定后的备择假设只有一种情况:要么在这种情况下,无效假设否定后的备择假设只有一种情况:要么0 ,要要么么0 只有一个否定区(一尾)的假设检验称为一尾检验(只有一个否定区(一尾)的假设检验称为一尾检验(one-tailed test) n 两尾检验的假设:两尾检验的假设:H0:=0,

70、HA:0 n 一尾检验的假设:一尾检验的假设:H0:0,HA:0 在样本容量和显著水平相同的情况下,一尾检验在样本容量和显著水平相同的情况下,一尾检验的效率高于两尾检验,一尾检验比两尾检验更容的效率高于两尾检验,一尾检验比两尾检验更容易否定无效假设易否定无效假设 若对同一资料进行两尾检验和一尾检验,那么若对同一资料进行两尾检验和一尾检验,那么在在水平上一尾检验显著,只相当于两尾检验在水平上一尾检验显著,只相当于两尾检验在(查表时双侧查表时双侧2即可即可)水平上显著。所以,同水平上显著。所以,同一资料两尾检验与一尾检验所得的结论不一定一资料两尾检验与一尾检验所得的结论不一定相同相同两尾检验显著,

71、一尾检验一定显著两尾检验显著,一尾检验一定显著一尾检验显著,两尾检验未必显著一尾检验显著,两尾检验未必显著 抽样分布与统计推断原理抽样分布与统计推断原理4. 假设检验的两类错误假设检验的两类错误 在假设检验中,接受或者否定无效假设的依据是在假设检验中,接受或者否定无效假设的依据是 “小概率事件实际不可能小概率事件实际不可能性原理性原理”,因此所得出的结论(不论是接受还是否定无效假设)都没有,因此所得出的结论(不论是接受还是否定无效假设)都没有100%的把握,只是在一定的概率范围内认为这种结论是正确的的把握,只是在一定的概率范围内认为这种结论是正确的 4.1 第一类错误第一类错误 如果无效假设如

72、果无效假设H0成立,即成立,即H0:=0为真,但:为真,但: 检验结果发现检验结果发现“差异显著差异显著”而否定了它(此时,只有而否定了它(此时,只有95%的把握,要冒的把握,要冒5%下错结论的风险)下错结论的风险) 检验结果发现检验结果发现“差异极显著差异极显著”而否定了它(此时,只有而否定了它(此时,只有99%的把握,要的把握,要冒冒1%下错结论的风险)下错结论的风险) 这一类错误称为这一类错误称为型错误或型错误或型错误型错误 型错误的实质就是把非真实差异(抽样误差)错判为真实差异,即: H0:=0为真,却接受了HA:0 弃真弃真H0正确被否定正确被否定犯犯型错误的概率不会超过显著水平型错

73、误的概率不会超过显著水平(5%、1%) 抽样分布与统计推断原理4.2 第二类错误第二类错误 如果无效假设如果无效假设H0不成立,即不成立,即H0:=0为假,但:为假,但: 检验结果发现检验结果发现“差异不显著差异不显著”而接受了它,同时放弃了正确的备择假设而接受了它,同时放弃了正确的备择假设 在统计学中所谓的在统计学中所谓的“差异不显著差异不显著”就是指没有充分的理由去否定无效假设,就是指没有充分的理由去否定无效假设,但也没有充分的理由去接受备择假设,但生物统计学实行的是但也没有充分的理由去接受备择假设,但生物统计学实行的是“非此即彼非此即彼”的原则,因此,既然的原则,因此,既然“差异不显著差

74、异不显著”就必须接受无效假设。就必须接受无效假设。 这一类错误称为这一类错误称为型错误或型错误或型错误。型错误。 型错误的实质就是把真实差异错判为非真实差异,即虽然型错误的实质就是把真实差异错判为非真实差异,即虽然H0:=0是假是假的,但通过检验却接受了的,但通过检验却接受了存伪存伪H0错误被接受错误被接受“差异不显著差异不显著”不是指没有差异,它存在不是指没有差异,它存在2种可能:一是两总体间的确没有种可能:一是两总体间的确没有差异,平均数间的差异纯属抽样误差;二是两总体间有差异,但由于实验差异,平均数间的差异纯属抽样误差;二是两总体间有差异,但由于实验误差大而掩盖了这一差异。误差大而掩盖了这一差异。 统计推断的基本特点就是统计推断的基本特点就是“有很大的可靠性,但也有一定的错误率有很大的可靠性,但也有一定的错误率” 抽样分布与统计推断原理两类错误与假设的关系 客 观 实 际接 受 H0否 定 H0无效假设H0成立推断正确(推断正确(1-)型错误(型错误() “弃真弃真”无效假设H0不成立型错误(型错误() “存伪存伪”推断正确(推断正确(1-)抽样分布与统计推断原理

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号