总体均数的估计与假设检验(11硕)课件

上传人:F****n 文档编号:88147494 上传时间:2019-04-20 格式:PPT 页数:121 大小:1.21MB
返回 下载 相关 举报
总体均数的估计与假设检验(11硕)课件_第1页
第1页 / 共121页
总体均数的估计与假设检验(11硕)课件_第2页
第2页 / 共121页
总体均数的估计与假设检验(11硕)课件_第3页
第3页 / 共121页
总体均数的估计与假设检验(11硕)课件_第4页
第4页 / 共121页
总体均数的估计与假设检验(11硕)课件_第5页
第5页 / 共121页
点击查看更多>>
资源描述

《总体均数的估计与假设检验(11硕)课件》由会员分享,可在线阅读,更多相关《总体均数的估计与假设检验(11硕)课件(121页珍藏版)》请在金锄头文库上搜索。

1、1,总体均数的估计与假设检验,2,内 容 1. 均数的抽样误差与标准误 2. t分布(t- distribution) 3. 总体均数的估计 4. t检验 5. 假设检验注意事项 6. 正态性检验和两样本方差比较的F检验,3,第一节 均数的抽样误差与标准误,4,统计推断:由样本信息推断总体特征。,正态(分布)总体: 推断,5,例3-1 若某市1999年18岁男生身高服从均数=167.7cm、标准差 =5.3cm的正态分布。对该总体进行随机抽样,每次抽10人,( =10),共抽得100个样本( =100),计算得每个样本均数 及标准差 如图3-1和表3-1所示。,图3-1 1999年某市18岁男

2、生身高N(167.7, 5.32)的抽样示意图,表3.1 见 P34-36,6,将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。,图3-2 从正态分布总体N(167.7, 5.32)随机抽样所得样本均数分布,7, ,各样本均数 未必等于总体均数; 各样本均数间存在差异; 样本均数的分布为中间多,两边少,左右基本对称。 样本均数的变异范围较之原变量的变异范围大大缩小。 可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。,样本均数的抽样分布具有如下特点:,8,1、抽样误差:,由个体变异与抽样的原因造成的样本统计量与总体参数的差别; 均数的抽样误

3、差:由于抽样造成的样本均数与总体均数的差别;,9,本书以n=60为界限,10,表示样本统计量抽样误差大小的统计指标。 均数标准误:说明均数抽样误差的大小,总体计算公式 (3-1),2、标准误(standard error, SE),实质:样本均数的标准差,11,数理统计证明:,12,若用样本标准差S来估计 , (3-2) 降低抽样误差的途径有: 通过增加样本含量n; 通过设计减少S。,13,第二节 t 分布 (t-distribution),14,t分布概述 抽样误差的分布规律 样本 总体 t分布 理论 手段 (桥梁) 目的,15,一、t 分布的概念,16,17,式中 为自由度(degree

4、of freedom, df),3实际工作中,由于 未知,用 代替,则 不再服从标准正态分布,而服从t 分布。,18,二、t 分布的图形与特征,分布只有一个参数,即自由度,19,图3-3 不同自由度下的t 分布图,20,1特征:,21,2 t界值表:详见附表2,可反映t分布曲线下的面积。 单侧概率或单尾概率:用 表示; 双侧概率或双尾概率:用 表示。,22,23,举例:,24,第三节 总体均数的估计,25,一、参数估计 用样本统计量推断总体参数。 总体均数估计:用样本均数(和标准差)推断总体均数。,26,27,按预先给定的概率(1)所确定的包含未知总体参数的一个范围。 总体均数的区间估计:按预

5、先给定的概率(1)所确定的包含未知总体均数的一个范围。 如给定=0.05,该范围称为参数的95%可信区间或置信区间; 如给定=0.01,该范围称为参数的99%可信区间或置信区间。,2区间估计(interval estimation):,28,总体均数可信区间的计算 需考虑: (1)总体标准差是否已知, (2)样本含量n的大小 通常有两类方法: (1)t分布法 (2)u分布法,二、总体均数 可信区间的计算,29,1. 单一总体均数的可信区间,单侧1-a可信区间则为:,(1)s未知:按t分布 双侧1-a可信区间则为:,30,例3-2 在例3-1中抽得第15号样本得均数 (cm),标准差 (cm),

6、求其总体均数的95可信区间。,31,32,33,34,例3-3 某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64 mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。,35,故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47, 3.81)mmolL。,36,2. 两总体均数之差的可信区间: 从相等,但m不等的两个正态总体N(1, 2)和N(2, 2)进行随机抽样。则两总体均数之差(m1-m2)的双侧1-a可信区间为,37,38,同理,两总体均数之差(m1-m2)的单侧1-a可信区间为 当两样本的样本含量均较大时(如n1和n2均大

7、于60),可按正态分布处理。,39,例3-4 为了解氨甲喋呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29例( ),采用安慰剂;实验组32例( ),采用小剂量氨甲喋呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10 IU/ml ( ),标准差为7.02 IU/ml ( );试验组治疗前IL-2的均数为16.89 IU/ml ( ),标准差为8.46 IU/ml ( )。问两组治疗前基线的IL-2总体均数相差有多大?,40,第一步:,41,能否下:两组IL-2的总体均数 “不同”或“有差别”的结论?,42,1. 95%的可信区间的理解: (

8、1)所要估计的总体参数有95%的可能性在我们所估计的可信区间内。 (2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数 。 (3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。,三、可信区间的确切涵义,43,2.可信区间的两个要素 (1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小 。 当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好 。 (2)精确度:即区间的宽度 区间愈窄愈好,如95%的可信区间比99%的可信区间要好 。,44,当n确定时,

9、上述两者互相矛盾。 提高准确度(可信度),则精确度降低 (可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为99%可信区间比95%可信区间要好。 相反,在实际应用中,95%可信区间更为常用。,在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。,45,* 也可用对应于双尾概率时), *也可用对应于双尾概率时),表3-2 总体均数的可信区间与参考值范围的区别,四、总体均数可信区间与参考值范围的区别,46,第四节 t 检验,47,1、样本均数 与已知某总体均数 比较的t检验 目的:推断一个未知总体均数 与已知总体均 数 是否有差别,用单样本设计。 2、两个样本均数 与 比较

10、的t检验 目的:推断两个未知总体均数 与 是否有差 别,用成组设计。 3、配对设计资料均数比较的t检验 目的:推断两个未知总体均数 与 是否有差 别用配对设计。,t 检验,亦称student t 检验, 有下述情况:,对于大样本,也可以近似用u检验。,48,t检验和u检验的应用条件: 1. t检验应用条件: 样本含量n较小时(如n60) (1)资料服从正态分布 (2)方差齐性(homogeneity of variance) 2. u 检验应用条件: 样本含量n较大,或n虽小但总体标准差已知 (1)正态分布 (2)方差齐性(homogeneity of variance),49,假设检验过去称

11、显著性检验。它是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。根据H0成立的前提,计算检验统计量,最后获得P值来判断。,假设检验基本思想及步骤,50,例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L? 130.83g/L 140g/L 原因: 1.可能是总体均数不同 2.是抽样造成的,51,1.建立检验假设,确定检验水准 (选用单侧或双侧检验) (1)无效假设又称零假设,记为H0; (2)备择假设又称对立假设,记为H1

12、。 对于检验假设,须注意: 检验假设是针对总体而言,而不是针对样本; H0和H1是相互联系,对立的假设,后面的结论是根据H0和H1作出的,因此两者不是可有可无,而是缺一不可;,52, H1的内容直接反映了检验单双侧。若H1中只是 0 或 0,则此检验为单侧检验。它不仅考虑有无差异,而且还考虑差异的方向。 单双侧检验的确定,首先根据专业知识,其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果,此时应该用单侧检验。一般认为双侧检验较保守和稳妥。,53,(3)检验水准,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取 = 0.05。可

13、根据不同研究目的给予不同设置。,54,55,3. 确定P值,P的含义是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。 例3-5的P值可用图3-5说明,P为在=0=140g/L的前提条件下随机抽样,其 t 小于及等于-2.138和大于及等于2.138的概率。,56,图3-5 例3-5中P值示意图,57,若 ,按所取检验水准a,拒绝H0,接受H1,下“有差别”的结论。其统计学依据是,在H0成立的条件下,得到现有检验结果的概率小于a,因为小概率事件不可能在一次试验中发生,所以拒绝H0。,58,若 ,是否也能下“无差别”或“相等”的结论?

14、,不能。正确的说法是按所取检验水准a,接受H1的统计证据不足。其统计学依据是,在H1成立的条件下,如果试验样本少,也同样可以得到 的检验结果,我们不知道下“无差别”或“相等”的结论犯错误的概率有多大,也就是说,假设检验方法不能为我们提供相信“无差别”结论正确的概率保证。,59,一、单样本 t 检验 (one sample / group t-test),即样本均数 (代表未知总体均数)与已知总体均数0(一般为理论值、标准值或经过大量观察所得稳定值等)的比较。其检验统计量按下式计算,60,例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.

15、74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L? (1)建立检验假设,确定检验水准 H0: =0 =140g/L,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值相等 H1: 0=140g/L,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值不等 =0.05,61,(2)计算检验统计量,本例n36, 130.83g/L,S25.74g/L,m0140g/L。按公式(3-15),62,(3)确定P值,作出推断结论,以=35、 查附表2的t界值表,因 ,故双尾概率0.02P0.05。按 = 0.05水准,拒绝H0,接受H1,有统计学意义。结合本题可认为从事铅作业的男性工人平均血红蛋白含量低于正常成年男性。,63,配对t 检验适用于配对设计的计量资料 配对设计类型: 两同质受试对象分别接受两种不同的处理; 同一受试对象分别接受两种不同处理; 同一受试对象(一种)处理前后。,二、配对t 检验 (paired / matched t-test),d为每对数据得差值,Sd为差值得标准差,n为对子数,为差值的样本均数,为差值样本均数得标准误,64,例3-6 为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,某人随机抽取了10

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号