[初二数学]L2-第六章 总体均数的估计

上传人:油条 文档编号:49732651 上传时间:2018-08-01 格式:PPT 页数:51 大小:1.56MB
返回 下载 相关 举报
[初二数学]L2-第六章 总体均数的估计_第1页
第1页 / 共51页
[初二数学]L2-第六章 总体均数的估计_第2页
第2页 / 共51页
[初二数学]L2-第六章 总体均数的估计_第3页
第3页 / 共51页
[初二数学]L2-第六章 总体均数的估计_第4页
第4页 / 共51页
[初二数学]L2-第六章 总体均数的估计_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《[初二数学]L2-第六章 总体均数的估计》由会员分享,可在线阅读,更多相关《[初二数学]L2-第六章 总体均数的估计(51页珍藏版)》请在金锄头文库上搜索。

1、授课教师:唐永军第 六 章 参数估计基础本 讲 内 容 均数的抽样误差 t 分布 总体均数的估计本讲重点1. 标准差和标准误的联系与区别2. t 分布和z 分布的联系与区别3. 参数估计的分类n为什么要进行抽样?总体样本随机抽样推断第一节 均数的抽样误差与标准误抽样研究的目的就是用样本的信息推断总体特征,这叫 统计推断。N(, )总体 Nn样本.这种由于个体变异产生的、随机抽样而引起的统计量和参数之间的差异,以及各样本统计量之间的差异称为抽样误差。均数的抽样误差是指由随机抽样而引起的样本均数和总体均数之间的差异,以及各样本均数之间的差异。 一、样本均数的抽样分布 现以计算机模拟实验来说明样本均

2、数的抽样分布规律。模拟实验1:从均数=4.5,标准差=0.2的正态总体中作随机抽样,规定样本含量分别为5、10、20、50,每种样本含量均重复抽取100次,结果可得到四个不同样本含量的样本均数的分布。样本总体样本随机抽样 100次样本样本100个样本100个样本均数的频数分布样本均数的抽样分布具有以下特点各样本均数未必均等于总体均数;样本均数之间存在差异;样本均数的分布规律: 围绕着总体均数,中间多两边少,左右对称,基本服从正态分布;样本均数的变异较原变量的变异范围小;随着样本含量的增加,样本均数的变异范围逐渐缩小。模拟实验2:从非正态总体中作随机抽样,观察样本均数的分布。规定样本含量分别为5

3、、10、20、50,每种样本含量均重复抽取100次,结果可得到四个不同样本含量的样本均数的分布,如图6.3(P74)。二、均数的标准误 从同一总体中抽取样本含量n相等的许多样本,算出样本的均数, , , , . 这些样本均数的分布为一个新的分布,根据数理统计的中心极限定理,有如下特点:. 若原分布(总体的分布)为正态分布:均数为,标准差为,则新分布亦为正态分布:均数为,标准差为 ;. 若原分布(总体的分布)为偏态分布,当样本含量足够大时(n50),新分布亦近似正态分布:均数为,标准差为 。样本均数的标准差称为均数的标准差,简称为标准误,用 来表示。是反映抽样误差大小的指标, 越大,样本均数的分

4、布越分散,样本均数与总体均数的差别越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。反之, 越小,样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。在实际工作中,总体标准差一般是未知的,而常用样本标准差S来估计,求得标准误的估计值 ,即:例 2000年某研究者随机调查了某地健康成年男子27名,得到血红蛋白的均数为125g/L, 标准差为15g/L。试估计该样本均数的抽样误差。 已知: 125g/L,S=15g/L, n=27则:标标准差与标标准误误的联联系与区别别标标准差( )标标准误误( )联联系1. 都是衡量变变异程度大小的指标标。

5、2.区别别意 义义描述观观察值围绕值围绕 均数的变变 异程度描述样样本均数围绕总围绕总 体均 数的变变异程度产产 生由个体变变异产产生,不可减 小。由抽样误样误 差产产生(变变异和抽 样样),可以减小。应应 用 表示观观察值值的变变异程度 计计算变变异系数 确定医学参考值值范围围 计计算标标准误误 估计计抽样误样误 差的大小 估计总计总 体均数可信区间间 进进行假设检验设检验三、标准误的应用 . 表示抽样误差的大小;. 确定总体均数的可信区间;. 进行均数的t 检验。第二节 t 分布 t 分布是一种连续性分布,主要用于 t 检验及总体均数的区间估计。X N(, ) 类似地 N(, )N(0,

6、1) N(0, 1)在实际工作中, 常常是未知的,而只能用 做为 的估计。由此求得的变换值 不同于 。显然,后者理论标准误 是个常量,随正态总体的确定而确定;前者样本标准误 却不然,S会因样本不同而不同,即 有变异。为与Z变换区别,称为t 变换,即:统计量t 不再服从标准正态分布N(0, 1)分布。英国统计学家W.S.Gosset于1908年以“Student”笔名发表论文,证明它服从自由度 的t 分布, 即又称Student t 分布。实际上, t 分布十分有用,它是总体均数的区间估计和假设检验的理论基础。自由度在数学上指能够自由取值的变量个数,符号记为。在数理统计中,计算自由度的一般公式为

7、:公式中,n为样本含量,k 为计算某一个统计量时需要用到其它独立统计量的个数。如式(6.3)中统计量t 的计算,因S 的计算也用到 ,故其它统计量只有 一个,其自由度 。如果抽取 n=5 的样本 k 个,每个样本又都可以按公式(6.3)计算出一个t 值,可将k个t 值编制成频数表,作出直方图,当k无限增大时,则可得到一条光滑的曲线。(式6.3)同理,如果抽取n=15时,仍能得到一条t 分布曲线,因此,当n 变化时,就可以得到不同的t分布曲线,如图6.4:图6.4 自由度分别为1、5、的t分布 t 分布的特征:. t 分布曲线是单峰分布, 以0为中心, 左右两侧对称; . 当样本含量越小( ,

8、自由度越小), t 分布与Z分布差别越大;. 当 逐渐增大时,t 分布逐渐逼近Z分布;. 当 时,t 分布就完全成为Z分布(标准正态分 布)。 t 分布曲线下面积规律:t 分布曲线下总面积仍为1或100%;t 分布曲线下面积以0为中心左右对称;由于t 分布是一簇曲线,故t 分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化。t 分布表的特点:当确定后,t 分布曲线下,双侧尾部或单侧尾部的面积为指定的概率时,横轴上相应的t 界值是多少?这是统计应用中经常需要解答的问题。为了应用方便,统计 学家编制了t 界值表,见附表三。l附表3的横标目为自由度,纵标目为概率P

9、,表中数值为其相应的t 临界值 。l附表3右上附图的阴影部分表示t/2, 以外尾部面积的概率 。l附表3只列出正值,若计算的t 值为负值时,可用其绝对值查表 。该表中分别给出了单侧概率(one-tailed probability)和两侧尾部面积之和的双侧概率(two-tailed probability)所对应的临界值,本教材中将与单侧概率相对应的t临界值用符号t, 表示,与双侧概率相对应的t 临界值用符号t/2, 表示。按t 分布规律,例如:单侧:P(t -t0.05, 16)=P(t -1.746)= 0.05,P(t t0.05, 16)=P(t 1.746)= 0.05 双侧:P(t

10、 -t0.05/2, 16)+P(t t0.05/2, 16)=0.05即,P(t -2.120)+P(t 2.120)=0.05更一般的表示方法如下所示:单侧:P(t -t, )= 和 P(t t, )= 双侧:P(t -t/2, )+P(t t/2, )=由t 界值表可知:. 单侧 和双侧2 的t 界值相同, 即t,t2 /2, . 对于相同的自由度 , 值越小, t, 越大,反之越小;. 对于相同的 值,自由度 越小, 越大,反之越小;. 当 时, ,故查Z界值表即可查 的t 界值。第三节 总体均数的估计 统计推断包括两个重要方面, 即参数估计和假设检验。用样本指标(统计量)估计总体指标

11、(参数)称为参数估计。参数估计有点估计和区间估计。一、点估计点估计就是直接用样本均数作为总体均数的估计值, 点估计没有考虑到抽样误差。例 11名18岁男大学生身高均数资料得, =172.25cm,S=3.31cm,试估计该地18岁男大学生身高总体均数 ?答: 该地18岁男大学生身高总体均数为172.25cm二、区间估计区间估计时按一定的概率( )估计包含总体均数可能的范围,该范围亦称总体均数的可信区间或置信区间。称为可信度或置信度,常取 为0.95和0.99, 即总体均数的95置信区间和99置信区间。置信区间的含义是:总体均数被包含在该区间内的可能性是 ,没有被包含的可能性为 . 置信区间通常

12、由两个置信限构成,置信下限记为CL,执行上限记为CU。置信区间(CL ,CU)是一个开区间。总体均数的置信区间的计算,根据资料的条件选用不同的方法。如果没有特别说明,一般做双侧的区间估计。 当未知,根据t 分布原理计算可信区间。(1- (1- 置信置信区间区间) )即总体均数的(1- )的置信区间的一般公式为t/2为t 分布双侧尾部面积 对应的t 临界值;称为置信区间的精度,它等于置信区间的一半,意指置信区间的两端点离样本均数有多远。例 为了解某地1岁婴儿的血红蛋白浓度,从该地抽取了1岁婴儿25名,测得血红蛋白的均数为123.7g/L, 标准差为11.9g/L。试求该地1岁婴儿的血红蛋白平均值

13、总体均数95置信区间和99置信区间。 因为未知,n=25,S=11.9g/L.所以, 查附表3 t 界值表得, 。 所以95置信区间: 99置信区间: 当未知,但样本含量n较大(如n100)时t 分布近似于标准正态分布,可用Z/2代替公式(6-5)中的t/2,则总体均数的双侧置信区间为例 抽样调查得102名健康女大学生口腔温度均数为37.060C, 标准差为0.1980C, 标准误为0.01960C,试估计该 地健康女大学生口腔温度总体均数95置信区间。 因为未知,但n=102足够大。 所以, 95可信区间:两总体均数差值的置信区间在实际工作中,我们常需估计两总体均数之差( )的大小,例如正常

14、成年男、女的血红蛋白平均相差多少?糖尿病患者经某药物治疗后,试验组与对照组的总体血糖值平均降低多少?我们可以用两样本均数之差( )作为两总体均数之差( )的点估计。同理,点估计没有考虑抽样误差的大小,需估计两总体均数之差的置信区间。假设正态总体 和 ,当 , 均未知 ,但 时,则两总体均数之差( )的双侧( )置信区间为:其中, ,当n1,n2均较大时,差值的可信区间为:例6.5 测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量,结果见表6.5,试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置信区间。表6.5 两对比组脑脊液中镁含量(mmol/L)组 别 例数 均数 标准差结核组 28 1.04 0.17对照组 34 1.28 0.14根据样本资料可得

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号