第三章总体均数的估计与假设检验培训资料

资源描述

《第三章总体均数的估计与假设检验培训资料》由会员分享，可在线阅读，更多相关《第三章总体均数的估计与假设检验培训资料（98页珍藏版）》请在金锄头文库上搜索。

1、1,第三章,总体均数的估计与假设检验,2,统计推断的目的：,用样本的信息去推论总体。医学研究中大多数是无限总体，即使是有限总体，但也经常受各种条件的限制，不可能直接获得总体的信息。,3,抽样误差（sampling error）:因各样本包含的个体不同，所得的各个样本统计量（如均数）往往不相等，这种由于个体差异和抽样造成的样本统计量与总体参数的差异，称为抽样误差。产生抽样误差的原因：个体差异在抽样研究中，抽样误差是无法避免的；抽样误差的分布有一定的规律性。,第一节均数的抽样误差与标准误,4,例：,某地14岁健康女生身高的总体均数为155.4cm，标准差为5.30。若从该地14岁健康

2、女生中随机抽取样本含量n均为10人的样本共100次，计算出每次样本的均数为153.8cm，155.5cm,6,计算出这100个样本均数的均数为155.52cm，样本均数的标准差为1.64cm,7,标准误（standard error）,样本均数的标准差，也称均数的标准误，是反映均数抽样误差大小的指标。均数标准误越小，说明样本均数与总体均数的差异程度越小，用该样本均数估计总体均数越可靠。,8,标准误的计算,当标准差一定时，标准误与样本含量n的平方根呈反比，因此，可以通过适当增加样本含量来减少标准误，从而降低抽样误差。,9,标准误的计算,例某地随机抽查14岁健康女生10人，得身高均数154.8c

3、m，标准差5.40cm，计算标准误。,总体标准差已知,总体标准差未知：,10,标准误的用途：,衡量样本均数的可靠性估计总体均数的置信区间用于均数的假设检验,11,数理统计推理和中心极限定理,从正态总体中，随机抽取例数为n的样本，样本均数服从正态分布；从偏态总体随机抽样，当n足够大时，样本均数服也近似服从正态分布分布；从均数为，标准差为的正态或偏态总体，抽取例数为n的样本，样本均数的总体均数= ，标准差。,12,第二节 t 分布,t 分布的概念 t分布的图形、性质、 t 界值表查表,13,一、t分布的概念,14,t 分布的概念续,当总体标准差未知时，可作正态变量的

4、t转换: t分布与标准正态分布的联系：t分布只有1个参数：自由度（=n-1）。逐渐增大时，t分布逐渐逼近标准正态分布。当=时，t分布就完全成为标准正态分布了。,15,二 t分布的图形和特征,t分布是一簇曲线，自由度决定曲线的形状。当，t分布正态分布以0为中心，左右对称的单峰曲线,16,t值表的使用（P804）,横标目：自由度（1，2，3，）纵标目：概率P（双侧：0.05， 0. 01， 0.001 ）（单侧：0.025，0.005， 0.0005 ） t界值：一侧尾部面积为单侧概率，两侧尾部面积之和称为双侧概率。,17,t值表的使用续,t分布曲线两端尾部面积表示在随机抽样中，获得的t值

5、大于等于某t界值的概率，即P值。例如：当=9时，双侧概率=0.05时，查t界值表得 t(0.05, 9) = 2.262 。含义为：,18,t值表中：,相同时，t值越大， P值越小； P值相同时，自由度值越大，t值越小； t值相同时，双侧概率P为单侧概率P的两倍。 t分布的应用：总体均数的区间估计 t检验,19,第三节总体均数的置信区间估计 confidence interval,可信区间的概念总体均数可信区间的计算均数可信区间与参考值范围的区别,20,一、可信区间的概念,统计推断：参数估计与假设检验。参数估计: parametric estimation，用样本统计量估计总体

6、参数的方法。点（值）估计:point estimation，直接用样本统计量作为总体参数的估计值。方法简单但未考虑抽样误差大小。区间估计:interval estimation，按预先给定的概率95%，或(1-)，确定的包含未知总体参数的可能范围。考虑了抽样误差。,21,可信区间的含义 confidence interval, CI,有1- （如95%）的可能认为计算出的可信区间包含了总体参数。例4.3 某市随机抽查12岁男孩100人，得身高均数139.6cm，标准差6.85cm。该地12岁男孩身高均数的95%可信区间为：138.3(cm)141.0 (cm)。可信区间不含可信限。 Co

7、nfidence limit，CL。下限，lower limit，L/L1。上限，upper limit，U/L2。,22,总体均数的可信区间原理,按t分布的原理得出,23,二、总体均数可信区间的计算,1、s已知时：总体均数的95%置信区间为：,24,2、s未知、且样本例数较少时，按t分布原理,总体均数的95%置信区间为：,25,例9.10 随机抽取某地健康男子20人，测得样本的收缩压均值为118.4 mmHg，标准差为10.8mmHg ，试估计该地男子收缩压总体均数的95%的置信区间。 =20-1= 19 t 0.05, 19=2.093,26,3、s未知、但样本例数足够大时（n60或1

8、00时），按正态分布原理。,总体均数的95%置信区间为：,27,大样本时总体均数的可信区间估计,例：测得某地200名正常人血清胆固醇的均数为3.64mmol/L，标准差为1.20mmol/L。试求该地正常人血清胆固醇均数95%的可信区间。,该地正常人血清胆固醇均数95%的可信区间为3.473.81（ mmol/L ）,28,4、两总体均数差的可信区间,从标准差相等、均数不等的两个正态总体中随机抽样，样本含量分别为n1，n2,样本均数和标准差分别为、S1和、S2，则两总体均数之差（1- 2 ）的1-可信区间为,29,两总体均数差的可信区间,某医院心内科在冠心病普查工作中，测得4050岁年龄

9、组男性193人的脂蛋白均数为379.59（mg%），标准差为104.30 （mg%）；女性128人的脂蛋白均数为357.89（mg%），标准差为89.67 （mg%）。问男性与女性的脂蛋白总体均数有多大差别？,结论：4050岁年龄组男性与女性的脂蛋白总体均数不同，男性平均比女性高出18.3061.10 （mg%）,30,三、可信区间的解释 confidence interval, CI,该地健康男子收缩压总体均数的95%置信区间为（113.3，123.5）mmHg。从理论上说，做100次抽样，可计算得100个置信区间，平均有95个置信区间包括总体均数，只有5个置信区间不包括总体均数。这种估计

10、方法会冒5%犯错误的风险。,31,可信区间的确切含义是指,有1- （如95%）的可能认为计算出的可信区间包含了总体参数。在可信度确定的前提下，增加样本例数，可减少区间宽度,32,四、可信区间与参考值范围的区别,随机抽取某地200名正常成人，测得血清胆固醇均数为3.64 mmol / L，标准差为1.20 mmol / L 。求得该地正常人血清胆固醇均数的95%可信区间为3.47 3.81（mmol / L） 95%参考值范围为1.29 5.99（mmol / L）,33,均数的可信区间与参考值范围的区别,含义：用途：计算公式：,34,标准误（standard error）和标准差（s

11、tandard deviation）的区别与联系,35,SPSS命令求总体均数的置信区间,Analyze-Descriptive Statistics-Explore,36,第四节 t检验和u检验,例某地抽样调查了280名健康成年男性的血红蛋白含量，其均数为136.0g/L，标准差为6.0g/L。已知正常成年男性的血红蛋白为140.0g/L 。试问能否认为该地抽样调查的280名成年男性与正常成年男性的血红蛋白含量的均数不同？,0=140.0 g/L,已知总体,未知总体,X=136.0g/L S= 6.0g/L n=280,37,出现差别的两种可能：,总体均数不同，故样本均数有差别总体均数相

12、同，差别仅仅是由于抽样误差造成的怎样判断属于哪一种可能？先计算一个统计量，如t值，然后根据相应的概率做判断。,38,一、假设检验的基本原理,样本均数与已知总体均数不等，原因？（1） 0，两总体均数不等（2） 0 ，抽样误差所致这种不等，有多大的可能性由抽样误差造成？如果抽样误差造成的可能性很小，则认为 0 先假设 0 ，看由于抽样误差造成的可能性（P值）有多大？怎样计算P值的大小呢？,已知总体,未知总体,0=140.0 g/L,X=136.0g/L S= 6.0g/L n=280,39,怎样计算P值的大小呢？,若假设 0 ，则可用公式计算t值，由t值求得P值。如果样本均数与0相差较

13、远，t值就大，P值就小。当P小于或等于预先规定的概率值（如0.05），则为小概率事件，即在一次抽样中发生的可能性很小，如果它发生了，则有理由怀疑原假设 0可能不成立，认为其对立面 0成立，该结论的正确性冒着犯5%错误的风险。,t0.05,200=1.97 t0.01,200=2.60 t=11.16,40,二、假设检验的基本步骤,建立检验假设，确定检验水准选定检验方法，计算统计量确定P值，作出推断结论,41,1、建立检验假设，确定检验水准,检验假设，hypothesis under test，亦称无效假设、用H0表示 H0 : 假设未知总体参数等于已知总体参数， =0。或假设两个总体参数

14、相等，1 =2，备择假设，alternative hypothesis：若H0被否决则该假设成立。用H1表示。 H1 的内容反映出检验的单双侧，分三种情况： 0 （单侧）, 0 （单侧）, 0 （双侧）假设是对总体而言，不是针对样本。 H0与H1是相互联系、对立的假设。,42,单、双侧的确定,研究者所关心的只是差异是否有本质上的区别，则采用双侧检验(two-side test)。一般认为双侧检验较保守和稳妥，尤其是多样本。研究者想知道是否有一方较高，则采用单侧检验(one-side test)。从专业知识判断知：一结果不可能低于另一结果，拟用单侧检验。一般认为双侧检验稳妥，故常用。

15、,43,确定检验水准, size of a test, ,过去称显著性水平（significance level）确定H0成立但被拒绝的概率的界值，是I型错误的概率大小。它确定了小概率事件的大小，常取 =0.05,44,2、选定检验方法，计算检验统计量,根据变量类型、设计方案、检验方法的适用条件等，选择适当的检验方法和统计量。所有检验统计量都是在H0成立的前提条件下计算出来的，这就是为什么要假设某两个（多个）总体参数相等，或服从某一分布的原因。,45,3. 确定P值，作出推断结论,P值的含义是什么？指从H0规定的总体随机抽得(或)现有样本获得的检验统计量值（如t）的概率。判断准则：

16、当P 时，拒绝H0，接受H1，认为差异有统计学意义(statistical significance，统计结论) ；可认为不同或不等（专业结论）当P时，不拒绝H0，认为差异无统计学意义(no statistical significance)。还不能认为不同或不等（专业结论）,46,t检验,应用条件：样本均数与总体均数的比较、两样本均数的比较。 n较小时（如n 0.05。尚不能认为难产儿平均出生体重与一般婴儿不同。,51,又如：,已知某小样本中含CaCO3的真值是20.7mg/L。现用某法重复测定该小样本15次，CaCO3含量（mg/L）分别如下。问该法测得的均数与真值有无差别？ 20.99，20.41，20.62，20.75，20.10，20.00，20.80，20.91，22.60，22.30，20.99

展开阅读全文