总体均数的估计和假设检验均数的抽样分布

资源描述

《总体均数的估计和假设检验均数的抽样分布》由会员分享，可在线阅读，更多相关《总体均数的估计和假设检验均数的抽样分布（88页珍藏版）》请在金锄头文库上搜索。

1、李亚超公共卫生系流行病与卫生统计学教研室 2018年9月26日星期三,总体均数的估计,复习,【1-3题共用题干】成都市50岁及以上妇女骨质疏松抽样调查中，研究对象的年龄直方图如下： 1.研究对象年龄的分布形式为： A 对称分布 B 正偏态分布 C 负偏态分布 D 正态分布 E 分布形式未知 2.根据上图，描述年龄集中位置应选择： A B X C G D M E Mo 3.根据上图，描述年龄离散程度应选择： A R B IQR C S D E CV,复习,4.设正态分布XN(, 2)，则正态分布曲线下1.96, +1.65之间的面积为： A 90% B 92.5% C 95% D 97.5%

2、E 99% 5.利用抽样研究制定男性血红蛋白95%医学参考值范围，下列说法错误的是： A 该范围为95%的“正常”男性血红蛋白测量值的波动范围 B 理论上有95%的“正常”男性血红蛋白测量值在该范围内 C 应同时制定该区间的上限和下限 D 若男性HB服从正态分布，可用计算 E 男性血红蛋白总体均数有95%可能性在该范围内,内容提要,抽样误差(sampling error),由于个体变异引起的，在抽样过程中发生的，总体参数与样本统计量之间的差异产生原因：个体变异产生条件：抽样研究表现形式：样本统计量与总体参数之间的差异度量指标：标准误（standard error of mean，SE

3、M）统计符号：,从总体N(6.0, 1.52)中进行随机抽样样本例数n分别为10、30、50、100 每种样本含量下进行100次抽样计算样本均数和标准差S,数学模拟样本均数的抽样分布,从总体N(6.0, 1.52)中抽出100个样本的均数、标准差,不同抽样例数100次抽样中样本均数和总体均数之间的关系,样本统计量和总体参数间的关系,样本统计量总是围绕着总体参数上下波动，不会离开总体参数太远样本统计量是个变量总体参数和样本统计量之间总是存在一定差异当样本量n时，样本统计量无限的逼近于总体参数,抽样误差(sampling error),由于个体变异引起的，在抽样过程中发生的，总体参数

4、与样本统计量之间的差异产生原因：个体变异产生条件：抽样研究表现形式：总体参数与样本统计量之间的差异度量指标：标准误,总体参数的估计,点估计：直接用样本统计量的值估计总体参数的值样本均数估计总体均数来自有代表性的样本样本量越大，估计的精度越高抽样误差客观存在总体参数和样本统计量之间总是存在一定差异,抽样误差(sampling error),由于个体变异引起的，在抽样过程中发生的，总体参数与样本统计量之间的差异产生原因：个体变异产生条件：抽样研究表现形式：样本统计量与总体参数之间的差异度量指标：标准误（standard error of mean，SEM）统计符号：,内

5、容提要,样本均数直方图,样本均数直方图,频数,样本统计量的标准差(SE) 刻画样本统计量的变异性说明样本统计量抽样误差大小的指标，该值越大说明抽样误差越大：样本均数的标准差：抽样研究中未知时的估计 s估计： Bootstrap法,标准误(standard error),样本均数的抽样分布,引例,设大学生早餐前血糖水平XN(6.0, 1.52)，随机抽取100名大学生进行血糖测量。,大学生早餐前血糖的分布,大学生早餐前血糖样本均数的分布,样本均数的抽样分布,已知,未知,X不服从正态分布,n足够大,中心极限定理,内容提要,t分布,为高斯特(William Sealy Gosset)于1908

6、年所推导，并以笔名Student发表，故又名学生氏t分布(Students t-distribution) 总体标准差未知，尤其当样本量较小时，说明样本均数与总体均数关系的概率分布形式,t分布曲线,t,f(t), =1,不同自由度下的t分布曲线, =5, =,t分布曲线的特征,钟形曲线以0为中心，左右对称，均匀下降单峰曲线以x轴为其渐近线与自由度有关的一簇曲线自由度越小，则t值越分散，曲线越低平自由度逐渐增大时，t分布曲线逐渐逼近标准正态分布曲线当=时，t分布即为标准正态分布,t分布曲线的特征,t分布曲线为的概率密度曲线相应区间的曲线下面积为该区间t 值的发生概率曲线下总面

7、积仍为1或100%,t,t分布曲线,总体标准差未知，尤其当样本量较小时，说明样本均数与总体均数关系的概率分布形式总体均数的估计 t检验,t分布的用途,t,t分布曲线,t界值,|t|界值表(P439),P(|t|t#),P(tt#),t界值,t0.05/2,10=2.228,t0.025,10=2.228,双侧：P(t-t/2,)+P(tt/2,)=,单侧：P(t-t/2,)=/2 或 P(tt/2,)=/2,中间：P(-t/2, t t/2,)=1-,总体参数的估计,点估计：直接用样本统计量的值估计总体参数的值样本均数估计总体均数来自有代表性的样本样本量越大，估计的精度越高抽样误

8、差客观存在总体参数和样本统计量之间总是存在一定差异,总体均数的估计,总体均数估计的两种方法点估计：是直接用样本均数估计总体参数. 区间估计：由于抽样误差的客观存在，因而按一定的概率1-，在一定分布基础上，估计总体均数所在的区间，并使得该区间包含总体均数的概率为1- 该区间称为可信区间或置信区间(confidence interval) 1-称为置信水平或置信度(confidence level),双侧：P(t-t/2,)+P(tt/2,)=,单侧：P(t-t/2,)=/2 或 P(tt/2,)=/2,中间：P(-t/2, t t/2,)=1-,样本均数的抽样分布,样本均数的抽样分布经过转换

9、已知未知未知，n足够大, 未知, 未知，但n足够大, 已知,1-可信区间的计算,1-可信区间的计算公式,例6.2,在某地成年男子中随机抽取25人，测得其脉搏均数为72次/min，标准差为8次/min。试估计该地成年男性脉搏总体均数。根据样本信息，可推断该地成年男性脉搏总体均数：点估计值为72次/分 95%可信区间为(68.7, 75.3)次/分,可信区间的两个要素,可信区间的两个要素,准确度：可信区间包含总体均数的可能性大小反映在置信度1-的大小上从准确度的角度看，愈接近1愈好如可信度99%比95%好精密度反映在可信区间的长度上长度愈小愈好,可信区间的两个要素,在抽样误差

10、确定的情况下，二者是相互矛盾的若提高准确度，即提高可信度，可信区间势必增大，精密度下降若提高精密度，可信区间势必减小，即可信度下降，准确度下降一般情况下，同时兼顾准确度与精密度，常用95%可信区间,总结,样本统计量与总体参数的差异抽样研究中难以避免的误差可用标准误度量其大小,说明样本均数与总体均数间关系的概率分布形式, 未知时，说明样本均数与总体均数关系的概率分布形式,2014国家医师资格考试大纲要求,课后习题,抽样研究的目的：利用获得样本信息，推断总体特征为了解大学生早餐前血糖水平，共对100名大学生进行了调查如何估计,=6.0mmol/L s=1.5mmol/L,=6.0mmo

11、l/L,李亚超公共卫生系流行病与卫生统计学教研室 2018年9月26日星期三,假设检验,假设检验,在抽样前先对未知的总体作出一些假定；例如假定并且正态总体的均数为某已知数。我们把这类关于总体分布的假定称为假设抽样前所作的假设是否与实际相符合，可以用样本所提供的信息来检验，检验的方法与过程称为检验,例7.3 设血红蛋白服从正态分布已知一般成年男子血红蛋白的均数为140g/L 研究假设：随机抽取60名高原地区健康成年男性进行检查测得血红蛋白均数为155g/L，标准差为24g/L 比较高原地区成年男性居民的平均血红蛋白是否高于一般正常成年男子,引例,引例, =? g/L,0=140g/L,

12、0=140g/L,假设检验,x =155g/L,内容提要,抽样研究中，利用已知的样本信息，完成未知的总体分布间比较的过程首先对未知的总体做出某种假设参数检验：已知总体分布形式，对总体参数提出假设非参数检验：对总体分布提出假设利用样本信息判断（检验）假设是否成立,假设检验(Hypothesis testing),内容提要,小概率反证法在一次研究或观察中，如果出现了假设成立情况下的小概率事件，由于推理过程是严密的，就只能认为假设不成立，应予拒绝或否定，并接受它的对立面,假设检验的基本思想,H0:A成立,小概率事件,在H0成立基础上推出有利于H1成立的小概率事件发生未发生小概率事件，不

13、等于H0成立一般期望出现的结论应置于H1 小概率事件不可能事件，假设检验可能犯错误统计学只是决策的参考,假设检验的基本思想,内容提要,建立检验假设，确定检验水准选定检验方法，计算检验统计量确定P值，作出统计推断,假设检验的步骤,假设的分类 H0：无效假设(null hypothesis) H1：备择假设(alternative hypothesis) 假设的提出根据统计推断的目的：研究假设总体分布特征提出的一对相互对立的假设,1.建立检验假设，确定检验水准,H0: =140g/L，高原地区成年男子平均Hb量与一般人群相等 H1: 140，高原地区成年男子平均Hb量高于一般人群 =0

14、.05,1.建立检验假设，确定检验水准,建立检验假设，确定检验水准,样本均数所代表的未知总体均数与已知总体均数0的比较中，单侧检验和双侧检验假设的形式,检验假设的形式,检验水准(significance level)，以表示是小概率事件在本次假设检验中发生概率水平在进行假设检验前设定习惯上取 =0.05或0.01,1.建立检验假设，确定检验水准,建立检验假设，确定检验水准选定检验方法，计算检验统计量确定P值，作出统计推断,假设检验的步骤,利用一次抽样获得的样本均数155g/L，完成量总体均数的比较,2.选定检验方法，计算检验统计量,H0: =0=140g/L,未知,n=60，x=15

15、5g/L，s=24g/L,建立检验假设，确定检验水准选定检验方法，计算检验统计量确定P值，作出统计推断,假设检验的步骤,3.确定P值，作出统计推断,自由度为59时的t分布曲线,0.05,|t|界值表(P316),3.确定P值，作出统计推断,P =P(t 4.84),自由度为59时的t分布曲线,1.671,0.05,拒绝域,4.84,P :在H0所成立的条件下，获得现有样本统计量及比之更极端的概率,，在H0成立的条件下，未发生小概率事件，现有样本信息还不足以拒绝H0 按=0.05水准，不拒绝H0，差异无统计学意义尚不能认为高原地区成年男子平均Hb量高于一般人群,确定P值，作出统计推断,确定P值，作出统计推断,

展开阅读全文

总体均数的估计和假设检验均数的抽样分布

最新文档