抽样误差与假设检验课件

资源描述

《抽样误差与假设检验课件》由会员分享，可在线阅读，更多相关《抽样误差与假设检验课件（38页珍藏版）》请在金锄头文库上搜索。

1、抽样误差与假设检验课件本章主要内容本章主要内容: :第一节第一节均数的抽样误差与标准误差均数的抽样误差与标准误差第二节第二节总体均数的估计总体均数的估计第三节第三节假设检验的意义和步骤假设检验的意义和步骤抽样误差与假设检验课件第一节第一节均数的抽样误差与标准误差均数的抽样误差与标准误差假假定定某某年年某某地地所所有有13岁岁女女学学生生身身高高服服从从总总体体均均数数=155.4cm，总总体体标标准准差差=5.3cm的的正正态态分分布布N(155.4，5.32）。随随机机抽抽取取30人人为为一一个个样样本本（n=30），并并计计算算样样本本的的均均数数和和标标准准差差，共共抽抽取取1

2、00次次，可可以以得得到到100份份样样本本，每每份份样样本本可可以以计计算算相应的均数和标准差。相应的均数和标准差。抽样误差与假设检验课件1. 156.7 5.162. 158.1 5.213. 155.6 5.324. 5.99. 154.6 5.156.100. 156.6 5.25 =155.4cm=5.3cm X S一一百百个个样样本本抽样误差与假设检验课件抽样误差抽样误差(smpling error)(smpling error) 这种由抽样造成的这种由抽样造成的样本统计量样本统计量与与总体参数总体参数之间的差之间的差异成为抽样误差异成为抽样误差. .总体总体样本样本随机抽样随机

3、抽样统计量统计量统计量统计量参参参参数数数数只要有个体变异和随机抽样研究，只要有个体变异和随机抽样研究，抽样误差就是抽样误差就是不可避免不可避免的。的。抽样误差与假设检验课件若从正态总体若从正态总体N(， 2）中，反复多次随机抽取样本中，反复多次随机抽取样本含量固定为含量固定为n的样本，那么这些样本均数的样本，那么这些样本均数也服从正态也服从正态分布。样本均数分布。样本均数的总体均数仍为的总体均数仍为，样本均数的标准样本均数的标准差为差为 ,其计算公式为：其计算公式为：中心极限定理中心极限定理抽样误差与假设检验课件SAMPLE 1：x11 x12 x13 x14.x1nSAMPLE

4、 2：x21 x22 x23 x24.x2nSAMPLE k：xk1 xk2 xk3 xk4.xkn原始总体k个样本均数的频数分布图抽样误差与假设检验课件标准误标准误(standard error,SE)(standard error,SE) 样本均数的标准差。样本均数的标准差。它反映了来自同一总体的样本均数之间的离散程度以它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度及样本均数和总体均数的差异程度, ,即均数的抽样误差即均数的抽样误差的大小。的大小。统计上用标准误来衡量抽样误差的大小！统计上用标准误来衡量抽样误差的大小！抽样误差与假设检验课件由于在实际工作中，总

5、体标准差由于在实际工作中，总体标准差往往未知，而是用样往往未知，而是用样本标准差本标准差S来代替来代替，故只能求得样本均数标准误的估计故只能求得样本均数标准误的估计值值S X ，其计算公式为：其计算公式为：估计估计抽样误差与假设检验课件例例 4.1 某市随机抽查成年男子某市随机抽查成年男子140人，得人，得红细胞均数红细胞均数4.771012/L，标准差，标准差0.381012/L，计算其标准误。，计算其标准误。抽样误差与假设检验课件第二节第二节总体均数的估计总体均数的估计1.统计推断（统计推断（statistical inference）在总体中随机抽取一在总体中随机抽取一定数量观察单位作

6、为样本进行抽样研究，然后由样本信定数量观察单位作为样本进行抽样研究，然后由样本信息推断总体特征，这一过程称为统计推断。息推断总体特征，这一过程称为统计推断。一、可信区间的概念一、可信区间的概念统计推断统计推断参数估计参数估计假设检验假设检验点估计点估计区间估计（可信区间）区间估计（可信区间）抽样误差与假设检验课件2.参数估计（参数估计（parameter estimation）是指由样本统计量是指由样本统计量估计总体参数，是统计推断的一个重要内容。估计总体参数，是统计推断的一个重要内容。（1）点估计（）点估计（point estimation）用样本统计量直接作为总体参数的估计值。用样本统计量

7、直接作为总体参数的估计值。（2）区间估计（）区间估计（interval estimation）又称可信区间又称可信区间（置信区间，（置信区间，CI）按预先给定的概率，计算出一个区间，使它能够包含未按预先给定的概率，计算出一个区间，使它能够包含未知的总体均数。知的总体均数。抽样误差与假设检验课件=155.4cm身高（身高（cm）总体均数的总体均数的95%可信区间，平可信区间，平均有均有95个可信区间包括了总体个可信区间包括了总体均数均数，只有只有5个可信区间不包个可信区间不包括括，即估计错误。即估计错误。进行进行100次抽样，每次样本量为次抽样，每次样本量为n=30，利用样本均数利用样本均数和标

8、准差估计总体均数范围。和标准差估计总体均数范围。抽样误差与假设检验课件3.可信区间有两个要素：可信区间有两个要素：（1）准确度（准确度（accuracy）可信度的大小，即可信区间可信度的大小，即可信区间包容包容的概率大小（的概率大小（1-）。）。（2）精密度（精密度（precision）反映在区间的长度，区间长反映在区间的长度，区间长度越小精密度越高。度越小精密度越高。一般情况下，一般情况下，95%的可信区间更为常用。的可信区间更为常用。在可信度确定的情况下，增加样本量，可减少区间长在可信度确定的情况下，增加样本量，可减少区间长度，提高精密度。度，提高精密度。抽样误差与假设检验课件t分布分布是

9、是t检验的基础，亦称检验的基础，亦称 student t检验，是计量资检验，是计量资料中最常用的假设检验方法。料中最常用的假设检验方法。戈塞特戈塞特(William Sealey Gosset) 英英国国著著名名统统计计学学家家。出出生生于于英英国国肯肯特特郡郡坎坎特特伯伯雷雷市市，求求学学于于曼曼彻彻斯斯特特学学院院和和牛牛津津大大学学，主要学习化学和数学。主要学习化学和数学。二、总体均数可信区间的计算二、总体均数可信区间的计算抽样误差与假设检验课件 1899年年作作为为一一名名酿酿酒酒师师进进入入爱爱尔尔兰兰的的都都柏柏林林一一家家啤啤酒酒厂厂工工作作，在在那那里里他他涉涉及及到到有有关关

10、酿酿造造过过程程的的数数据据处处理问题。理问题。由由于于酿酿酒酒厂厂的的规规定定禁禁止止戈戈塞塞特特发发表表关关于于酿酿酒酒过过程程变变化化性性的的研研究究成成果果，因因此此戈戈塞塞特特不不得得不不于于1908年年，首首次次以以“学学生生” (Student)为为笔笔名名，在在生生物物计计量量学学杂杂志志上上发发表表了了“平平均均数数的的概概率率误误差差”。Gosset在在文文章章中中使使用用Z统统计计量量来来检检验验常常态态分分配配母母群群的的平平均均数数。由由于于这这篇篇文文章章提提供供了了“学学生生t检检验验”的的基基础础，为为此此，许许多多统统计计学学家家把把1908年年看看作作是是

11、统统计计推推断断理理论论发发展展史史上上的的里里程程碑。碑。抽样误差与假设检验课件随机变量随机变量X XN N（m m，s s2 2）标准正态分布标准正态分布N N（0 0，1 12 2）u u变换变换当总体均数与标当总体均数与标准差未知时准差未知时抽样误差与假设检验课件均数均数标准正态分布标准正态分布N N（0 0，1 12 2）在实际工作中，在实际工作中，往往未知，常用往往未知，常用代替进行代替进行变换，即变换，即不服从标准正态分布！不服从标准正态分布！而服从自由度而服从自由度=n-1的的t分布分布抽样误差与假设检验课件 f(t) =(标准正态曲线) =5 =10.10.2-4-3-

12、2-1012340.3t分布分布抽样误差与假设检验课件1、以、以0为中心，左右对称的单峰分布。为中心，左右对称的单峰分布。2、t分布曲线是一簇曲线，其形态变化与自由分布曲线是一簇曲线，其形态变化与自由度度的大小有关系（的大小有关系（ =n-1）。）。t分布的特征：分布的特征：自由度越小，自由度越小，t分布的峰越低，而两分布的峰越低，而两侧尾部翘得越高；侧尾部翘得越高；自由度逐渐增大时，自由度逐渐增大时，t分布逐渐逼近分布逐渐逼近标准正态分布，当自由度为无穷大时，标准正态分布，当自由度为无穷大时，t分布就是标准正态分布分布就是标准正态分布。抽样误差与假设检验课件为便于使用，统计学家编制了不同自由

13、度为便于使用，统计学家编制了不同自由度对对应的应的t界值表。界值表。t分布的用途：分布的用途：主要用于总体均数的区间估计及主要用于总体均数的区间估计及t检验。检验。抽样误差与假设检验课件s s未知未知且且 n较小较小（n50）按按u分布分布s s已知已知按按u分布分布总体均数可信区间的计算方法，随总体标准差总体均数可信区间的计算方法，随总体标准差s s是否已知，以及样本含量是否已知，以及样本含量n n的大小而异。的大小而异。通常有通常有t分布和分布和u分布分布两类方法：两类方法：抽样误差与假设检验课件（一）（一）已知已知u变换公式：-1.96 +1.962.5%2.5%95%抽样误差

14、与假设检验课件（二）（二）未知未知1.n1.n较小（较小（n50)n50)n50)抽样误差与假设检验课件例例4.2 某医生测得某医生测得25名动脉粥样硬化患者血浆名动脉粥样硬化患者血浆纤维蛋白原含量的均数为纤维蛋白原含量的均数为3.32g/L，标准差为，标准差为0.57g/L，试计算该种病人血浆纤维蛋白原含量，试计算该种病人血浆纤维蛋白原含量总体均数的总体均数的95%可信区间。可信区间。该种病人血浆纤维蛋白原含量总体均数的95%可信区间为3.09g/L 3.56g/L抽样误差与假设检验课件例例4.3 试计算例试计算例4.1中该地成年男子红中该地成年男子红细胞总体均数的细胞总体均数的95%可信区

15、间。可信区间。该地成年男子红细胞总体均数的95%可信区间为4.711012/L 4.831012/L抽样误差与假设检验课件第三节第三节假设检验的意义和步骤假设检验的意义和步骤一、假设检验的基本思想一、假设检验的基本思想n“反证法反证法”的思想的思想n先根据研究目的建立假设，从先根据研究目的建立假设，从H0假设出发，先假设它假设出发，先假设它是正确的，再分析样本提供的信息是否与是正确的，再分析样本提供的信息是否与H0有较大矛有较大矛盾，即是否支持盾，即是否支持H0，若样本信息不支持，若样本信息不支持H0，便拒绝之，便拒绝之并接受并接受H1，否则不拒绝，否则不拒绝H0 。抽样误差与假设检验课件

16、例例4.4 以往通过大规模调查已知某地新生以往通过大规模调查已知某地新生儿出生体重为儿出生体重为3.30kg. 从该地难产儿中随机从该地难产儿中随机抽取抽取35名新生儿作为研究样本，平均出生名新生儿作为研究样本，平均出生体重为体重为3.42kg, 标准差为标准差为0.40kg。问该地难产儿出生体重是否问该地难产儿出生体重是否与一般新生儿体重不同？与一般新生儿体重不同？抽样误差与假设检验课件0=3.30kg次次/分分已知总体已知总体未知总体未知总体n=35, =3.42kgS=0.40kg 与与0之间的差异（不相等），有两种可能：之间的差异（不相等），有两种可能：1、 = 0，仅因为用仅因为用

17、去估计去估计时存在抽样误差，时存在抽样误差，所以导致了所以导致了与与0之间的差异。之间的差异。2、与与0本身就不相等，所以导致了本身就不相等，所以导致了与与之间的之间的差异。差异。抽样误差与假设检验课件假设检验的基本原理假设检验的基本原理: 抽样误差所致抽样误差所致 P0.05 （来自同一总体）（来自同一总体） ? 假设检验回答假设检验回答本身存在差别本身存在差别 P0(单侧检验单侧检验) 0 (单侧检验单侧检验) =0.05抽样误差与假设检验课件例如：要比较经常参加体育锻炼的中学男生心例如：要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率，就属于单侧率是否低于一般中学

18、男生的心率，就属于单侧检验。检验。H1： 0，双侧，双侧，0都有可能都有可能H1： 0，单侧，单侧H1：，则接受则接受H0，拒绝拒绝H1检验水准检验水准确定的确定的P P值值抽样误差与假设检验课件1. 对于对于H0只能说拒绝与不拒绝，而对只能说拒绝与不拒绝，而对H1只能说接只能说接受。受。2. P，则拒拒绝H0 ，接受，接受H1 ，差异有，差异有统计学意学意义，可，可认为不同或不等。不同或不等。3. P，则不拒不拒绝H0 ，差异无，差异无统计学意学意义，尚，尚不能不能认为不同或不等。不同或不等。 4. 应事先确定事先确定。选0.05只是一种只是一种习惯，而，而不是不是绝对的的标准。准。关于假设检验的几个观点关于假设检验的几个观点抽样误差与假设检验课件抽样误差与假设检验课件

展开阅读全文

抽样误差与假设检验课件

最新文档