抽样误差与假设检验

资源描述

《抽样误差与假设检验》由会员分享，可在线阅读，更多相关《抽样误差与假设检验（38页珍藏版）》请在金锄头文库上搜索。

1、流行病与卫生统计学教研室,金英良,第四章抽样误差与假设检验,本章主要内容:,第一节均数的抽样误差与标准误差第二节总体均数的估计第三节假设检验的意义和步骤,第一节均数的抽样误差与标准误差,假定某年某地所有13岁女学生身高服从总体均数=155.4cm，总体标准差=5.3cm的正态分布N(155.4，5.32）。随机抽取30人为一个样本（n=30），并计算样本的均数和标准差，共抽取100次，可以得到100份样本，每份样本可以计算相应的均数和标准差。,1. 156.7 5.16158.1 5.21155.6 5.3299. 154.6 5.15 100. 156.6 5.25,=155.

2、4cm =5.3cm,X S,一百个样本,抽样误差(smpling error)这种由抽样造成的样本统计量与总体参数之间的差异成为抽样误差.,只要有个体变异和随机抽样研究，抽样误差就是不可避免的。,若从正态总体N(， 2）中，反复多次随机抽取样本含量固定为n的样本，那么这些样本均数也服从正态分布。样本均数的总体均数仍为，样本均数的标准差为 ,其计算公式为：,中心极限定理,SAMPLE 1：x11 x12 x13 x14.x1n,SAMPLE 2：x21 x22 x23 x24.x2n,SAMPLE k：xk1 xk2 xk3 xk4.xkn,原始总体,k个样本均数的频数分布图,标准误(s

3、tandard error,SE)样本均数的标准差。它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度,即均数的抽样误差的大小。,统计上用标准误来衡量抽样误差的大小！,由于在实际工作中，总体标准差往往未知，而是用样本标准差S来代替，故只能求得样本均数标准误的估计值S X ，其计算公式为：,估计,例 4.1 某市随机抽查成年男子140人，得红细胞均数4.771012/L，标准差0.381012/L，计算其标准误。,第二节总体均数的估计,1.统计推断（statistical inference）在总体中随机抽取一定数量观察单位作为样本进行抽样研究，然后由样本信息推断总

4、体特征，这一过程称为统计推断。,一、可信区间的概念,统计推断,参数估计,假设检验,点估计,区间估计（可信区间）,2.参数估计（parameter estimation）是指由样本统计量估计总体参数，是统计推断的一个重要内容。（1）点估计（point estimation）用样本统计量直接作为总体参数的估计值。（2）区间估计（interval estimation）又称可信区间（置信区间，CI）按预先给定的概率，计算出一个区间，使它能够包含未知的总体均数。,=155.4cm,身高（cm）,总体均数的95%可信区间，平均有95个可信区间包括了总体均数，只有5个可信区间不包括，即估计错误。,进行

5、100次抽样，每次样本量为n=30，利用样本均数和标准差估计总体均数范围。,3.可信区间有两个要素：,（1）准确度（accuracy）可信度的大小，即可信区间包容的概率大小（1-）。（2）精密度（precision）反映在区间的长度，区间长度越小精密度越高。一般情况下，95%的可信区间更为常用。在可信度确定的情况下，增加样本量，可减少区间长度，提高精密度。,t分布是t检验的基础，亦称 student t检验，是计量资料中最常用的假设检验方法。,戈塞特 (William Sealey Gosset) 英国著名统计学家。出生于英国肯特郡坎特伯雷市，求学于曼彻斯特学院和牛津大学，主要学习化学和数

6、学。,二、总体均数可信区间的计算,1899年作为一名酿酒师进入爱尔兰的都柏林一家啤酒厂工作，在那里他涉及到有关酿造过程的数据处理问题。由于酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果，因此戈塞特不得不于1908年，首次以“学生” (Student)为笔名，在生物计量学杂志上发表了“平均数的概率误差”。Gosset在文章中使用Z统计量来检验常态分配母群的平均数。由于这篇文章提供了“学生t检验”的基础，为此，许多统计学家把1908年看作是统计推断理论发展史上的里程碑。,随机变量X N（m，s2）,标准正态分布 N（0，12）,u变换,均数,标准正态分布 N（0，12）,在实际工作中，往

7、往未知，常用代替进行变换，即,不服从标准正态分布！而服从自由度=n-1的t分布,t分布,1、以0为中心，左右对称的单峰分布。 2、t分布曲线是一簇曲线，其形态变化与自由度的大小有关系（ =n-1）。,t分布的特征：,自由度越小，t分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，t分布逐渐逼近标准正态分布，当自由度为无穷大时，t分布就是标准正态分布。,为便于使用，统计学家编制了不同自由度对应的t界值表。,t分布的用途：主要用于总体均数的区间估计及t检验。,s未知且 n较小（n50）按u分布 s已知按u分布,总体均数可信区间的计算方法，随总体标准差s是否已知，以及样本含量n的大

8、小而异。通常有t分布和u分布两类方法：,（一）已知,u变换公式：,（二）未知,1.n较小（n50),例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L，标准差为0.57g/L，试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。,该种病人血浆纤维蛋白原含量总体均数的95%可信区间为3.09g/L 3.56g/L,例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。,该地成年男子红细胞总体均数的95%可信区间为4.711012/L 4.831012/L,第三节假设检验的意义和步骤,一、假设检验的基本思想,“反证法”的思想先根据研究目的

9、建立假设，从H0假设出发，先假设它是正确的，再分析样本提供的信息是否与H0有较大矛盾，即是否支持H0，若样本信息不支持H0，便拒绝之并接受H1，否则不拒绝H0 。,例4.4 以往通过大规模调查已知某地新生儿出生体重为3.30kg. 从该地难产儿中随机抽取35名新生儿作为研究样本，平均出生体重为3.42kg, 标准差为0.40kg。,问该地难产儿出生体重是否与一般新生儿体重不同？,0=3.30kg 次/分,已知总体,未知总体,n=35,=3.42kg S=0.40kg,与0之间的差异（不相等），有两种可能： 1、 = 0，仅因为用去估计时存在抽样误差，所以导致了与0之间的差异。 2、与0本身就不相等，所以导致了与之间的差异。,假设检验的基本原理:抽样误差所致 P0.05（来自同一总体）? 假设检验回答本身存在差别 P0(单侧检验),0，单侧 H1：，则接受H0，拒绝H1,检验水准确定的P值,1. 对于H0只能说拒绝与不拒绝，而对H1只能说接受。 2. P，则拒绝H0 ，接受H1 ，差异有统计学意义，可认为不同或不等。 3. P，则不拒绝H0 ，差异无统计学意义，尚不能认为不同或不等。 4. 应事先确定。选0.05只是一种习惯，而不是绝对的标准。,关于假设检验的几个观点,

展开阅读全文