4抽样误差与假设检验

资源描述

《4抽样误差与假设检验》由会员分享，可在线阅读，更多相关《4抽样误差与假设检验（54页珍藏版）》请在金锄头文库上搜索。

1、第四章抽样误差与假设检验第一节均数的抽样误差与标准误差参数估计参数估计和假设检验和假设检验随机原则总体参数统计量推断估计参数估计检验假设检验一、抽样误差从总体当中随机抽取一份样本，计算均数。这个均数不同于总体的均数。为什么？再从该总体中随机抽取一份样本，再计算均数。前后两个均数不等。为什么？抽样误差！例：某市1999年18岁男生身高服从=167.7cm、=5.3cm正态分布，从该总体中随机抽样。每次抽取10人，得到一个样本均数记为一共抽取100次，就得到了100本样本的均数将上述100个样本均数看成新变量值，这100个样本均数构成了一个新的分布。抽样分布：某一统计量所有可能的

2、样本的取值形成的分布。样本均数抽样分布具有如下特点： 1、各样本均数未必等于总体均数； 2、各样本均数间存在差异；3、样本均数围绕总体均数呈正态分布；4、样本均数变异范围较原变量变异范围大大缩小，这100个样本均数的均数为167.69cm，标准差为1.69cm。在非正态分布总体中可进行类似抽样。可得到如下结论：若变量服从正态分布，则各样本均数也服从正态分布。若变量不服从正态分布，当样本量足够大时，各样本均数近似服从正态分布，当样本量很小时，则样本均数为非正态分布。样本均数的总体均数为，而样本均数的标准差比原来个体值的标准差要小，为区别两者，我们用来表示，其计算公式为（标准误）反映样本

3、均数间的离散程度。（标准误的估计值）例1 2000年某研究所随机调查某地健康成年男子27人，得到血红蛋白的均数为125g/L，标准差为15g/L 。试估计该样本均数的抽样误差。标准差与标准误的区别与联系标准差：描述个体值间的变异，标准差较小，表示观察值围绕均数的波动较小，说明样本均数的代表性就越好。标准误：描述样本均数的抽样误差，标准误较小，表示样本均数与总体均数较接近。说明样本均数的可靠性。用途标准差：表示变量值离散程度的大小，结合均数估计参考值范围。标准误：表示抽样误差的大小，估计总体均数的可信区间。与样本含量的关系标准差：随样本含量的增多，逐渐趋于稳定标准误：随样本

4、含量的增多逐渐减小。联系 1、标准差与标准误都是变异指标，说明个体值之间差异是用标准差，说明样本均数之间差异时用标准误。2、当样本含量不变时，标准差越大，标准误越大。标准差和标准误的区别随机变量XN（m，s2）标准正态分布N（0，12）Z变换标准正态分布N（0，12）均数Student t分布自由度：n-1t t 分布分布一、t分布的概念从正态总体N(,2)中进行无数次样本含量为n的随机抽样，每次均可得到一个和一个S，通过公式转换，可得无数个t值，t值的分布即为含量为n的t值的总体或称t-分布。 t值的分布与自由度有关（实际是样本含量n 不同）。 t 分布的图形不是一条曲

5、线，而是一簇曲线。 vt分布曲线是单峰分布，以0为中心，左右两侧对称 v曲线的中间比标准正态曲线（Z分布曲线）低，两侧翘得比标准正态曲线略高。 vt分布曲线随自由度而变化，当样本含量越小（严格地说是自由度 =n-1越小），t分布与Z分布差别越大；当逐渐增大时，t分布逐渐逼近于Z分布，当 =时，t分布就完全成正态分布。 vt分布曲线是一簇曲线，而不是一条曲线。 vt分布下面积分布规律：查t分布表。 vt-分布曲线下面积为1二、t 分布的图形和t 分布表t分布曲线特点：同标准正态分布曲线一样，统计应用中最为关心的是t分布曲线下的尾部面积（即概率p ）与横轴t值间的关系。为使用方

6、便，统计学家编制了不同自由度 v下的t界值表（附表2）。在t界值表中，横标目为自由度v，纵标目为概率p。表中数字表示当v和p确定时，对应的 t临界值（critical value）。 t 分布表该表中分别给出了单侧概率和两侧尾部面积之和的双侧概率所对应的t临界值。单侧概率相对应的t临界值用符号表示。双侧概率相对应的t临界值用符号表示。例如：当单侧概率p=0.05时，v=16，单侧当双侧概率p=0.05时，v=16，双侧 / 2/ 20(b)-t/2t/2 / 2/ 2单双侧t分布示意图T为单侧临界值T/2为单侧临界值0(a) t在相同自由度时，值越大，概率p越小；从t界

7、值表中亦可看出：而在相同t值时，双侧概率p为单侧概率p的两倍。即：第四章抽样误差与假设检验第一节均数的抽样误差与标准误差统计推断包括参数估计和假设检验。参数估计就是用样本指标（统计量）来估计总体指标（参数）。第二节第二节总体均数的估计总体均数的估计参数估计点估计(point estimation)区间估计(interval estimation)一、参数估计的概念，即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L 。1.点估计：用样本统计量直接作为总体参数的估计值。例如于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L，试估计其总体均数

8、。按预先给定的概率(1)估计总体参数的可能范围，该范围就称为总体参数的总体参数的1 1 可信区间可信区间。可信区间由两个数值即可信限可信限构成，其中最小值称为下限，最大值称为上限。严格讲，可信区间不包括上下限两个端点值。2、区间估计预先给定的概率(1)称为可信度可信度，常取95%或99%。如无特别说明，一般取双侧95%。可信区间的含义是：有（1-）的把握认为总体参数位于该区间内。而不是总体参数落在该范围的可能性为。从总体中作随机抽样，根据每个样本可以算得一个置信区间。95%的置信区间，意味着作100 次抽样，算得100个置信区间，平均有95个置信区间包括了总体均数，只有5个不包括。5

9、%是小概率事件，在一次试验中出现的可能性很小。因此就认为总体均数在算得的置信区间内，可信度是 95%，犯错误的概率是5%。总体均数可信区间的计算 1.1.未知且样本例数未知且样本例数n n较小时，按较小时，按t t分布原理分布原理: :t/2, 是按自由度=n-1，由附表2查查得的t值值。99%的双侧置信区间：95%的双侧置信区间：例2 已知某地27例健康成年男性血红红蛋白量的均数为，标准差S=15g/L ,试问该地健康成年男性血红红蛋白量的95%和99%置信区间。95%CI：99%CI：本例n=27，S=152.已知，按标准正态分布原理计算，按标准正态分布原理计算Z/2为标准正态变量，Z

10、/2相当于按=时及P取，由附表2查的的t界值。 95%的双侧置信区间：99%的双侧置信区间：3.若未知，但样本例数但样本例数n n足够大（足够大（n n5050）时）时由t分布可知，自由度越大，t分布越逼近标准正态分布，此时t曲线下有95%的t值约在1.96之间，即99%的双侧置信区间：95%的双侧置信区间：例3 某市2000年随机测量了90名19岁健康男大学生的身高，其均数为172.2cm，标准差为4.5cm,，试估计该地19岁健康男大学生的身高的95%置信区间。该市19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm可信区间的确切含义 95%的可信区间的理解： 1、所要

11、估计的总体参数有95%的可能在我们所估计的可信区间内。2、从正态总体中随机抽取100个样本，可算得100个样本均数和标准差，也可算得100个均数的可信区间，平均约有95个可信区间包含了总体均数。3、但在实际工作中，只能根据一次试验结果估计可信区间，我们就认为该区间包含了总体均数。意义意义： 95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布，常按计算。95%的可信区间是指按95%的置信度估计的总体参数的所在范围。若为大样本，按计算。计算上计算上：置信区间用标准误，参考值范围用标准差。思考！均数置信区间与参考值范围的区别思考！均数置信区间与参考值范围的区别计

12、算上计算上：置信区间用标准误，参考值范围用标准差。第四章抽样误差与假设检验第一节均数的抽样误差与标准误差一、假设检验的概念：一般科研程序:假说-验证-对假说作出结论统计上的假设检验:假设检验亦称为显著性检验，是先对总体的参数或分布作出某种假设，然后用适当的方法，根据样本对总体提供的信息，推断此假设应当被拒绝或不拒绝。什么是假设检验？3.特点(1)采用逻辑上的反证法(2)依据统计上的小概率原理1.概念事先对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立 2.类型(1)参数假设检验(2)非参数假设检验两均数两率不等假设检验的基本原理抽样误差所致（来自同一总体）P0.0

13、5=?假设检验回答P m0H1的内容反映出检验的单双侧。2、选定检验方法和计算检验统计量（1）根据资料的类型、设计类型、检验方法的适用条件等选择检验方法（2）不同的检验方法要用不同的公式计算检验统计量（3）不同的设计类型要用不同的公式( t值、u值、2值等 )4、确定P值和作出推断结论（1）P值：指从H0所规定的总体中进行随机抽样，抽得等于及大于（或等于及小于）现有样本获得的检验统计量值（如t值或u值）的概率。（2）方法：查表将P与预先规定的概率（检验水准）比较作出结论若P结论：按所取检验水准，拒绝H0，接受H1，有统计学意义（差异有显著性），可认为不同或不等（高于或

14、低于）；若P结论：按按所取检验水准，不拒绝H0，无统计学意义（差异无显著性），还不能认为不同或不等。注意：下结论时，对H0只能说拒绝或不拒绝；对H1 只能说接受H1。作出推断结论当： t 0.05 ( 差异无显著性 ) t 0.01() t t 0.05() 0.01 按所取检验水准不拒绝H0P 按所取检验水准拒绝H01、表示均数抽样误差大小的统计指标是（） A、标准差 B、方差 C、均数标准误 D、变异系数 E、样本标准误 2、表示（） A、总体均数 B、样本均数的标准差 C、总体均数的离散程度 D、变量值x的离散程度 E、变量值x的可靠程度CBC3、标准误越大，则表示此次抽样得到的样本频率（） A、系统误差越大 B、可靠程度越大 C、抽样误差越大 D、可比性差 E、代表性差4、要减少抽样误差，通常的做法是（） A、适当增加样本例数 B、将个体变异控制在一个范围内 C、严格挑选观察对象 D、增加抽样次数 E、减少系统误差A

展开阅读全文