5、t分布及应用

上传人:桔**** 文档编号:587705975 上传时间:2024-09-06 格式:PPT 页数:34 大小:517.50KB
返回 下载 相关 举报
5、t分布及应用_第1页
第1页 / 共34页
5、t分布及应用_第2页
第2页 / 共34页
5、t分布及应用_第3页
第3页 / 共34页
5、t分布及应用_第4页
第4页 / 共34页
5、t分布及应用_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《5、t分布及应用》由会员分享,可在线阅读,更多相关《5、t分布及应用(34页珍藏版)》请在金锄头文库上搜索。

1、第四章第四章 抽样误差与假设检验抽样误差与假设检验 第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误 一、均数的抽样误差一、均数的抽样误差 在医学研究中,绝大多数情况是通过样本信息在医学研究中,绝大多数情况是通过样本信息研究总体。由于存在个体差异,通过样本推论总体研究总体。由于存在个体差异,通过样本推论总体时会存在一定的误差,如样本均数时会存在一定的误差,如样本均数 往往不等于总往往不等于总体均数体均数 ,这种由抽样造成的样本均数与总体均数,这种由抽样造成的样本均数与总体均数的差异称为抽样误差的差异称为抽样误差。对于抽样研究,抽样误差不。对于抽样研究,抽样误差不可避免。可避免。 样本

2、均数样本均数 样本样本n1 样本样本n2 样本样本nk 各样本均数不相同,为什么?各样本均数不相同,为什么?总体总体假定某年某地所有假定某年某地所有13岁女学生身高服从岁女学生身高服从 N(155.4,5.32),在在该该总总体体中中作作100次次随随机机抽样,抽样,ni = 30153.6153.1157.7从正态总体从正态总体N(155.4,5.32)抽样得到的)抽样得到的100个样本均数的频数分布个样本均数的频数分布组段(组段(cm)频数频数频率()频率()152.611.0153.244.0153.844.0154.42222.0155.02525.0155.62121.0156.21

3、717.0156.833.0157.422.0158.0158.611.0合计合计100100.0二、抽样误差的分布二、抽样误差的分布 理理论论上可以上可以证证明:若从正明:若从正态总态总体体 中,反中,反复多次随机抽取复多次随机抽取样样本含量固定本含量固定为为n 的的样样本,那么本,那么这这些些样样本均数本均数 也服从正也服从正态态分布,即分布,即 的的总总体均体均数仍数仍为为 ,样样本均数的本均数的标标准差准差为为 。抽样分布抽样分布 抽样分布示意图抽样分布示意图 中心极限定理中心极限定理: : 当样本含量很大的情况下,无论原始变量值服从什当样本含量很大的情况下,无论原始变量值服从什么分布

4、,么分布, 的抽样分布均近似正态。的抽样分布均近似正态。 抽样分布抽样分布 抽样分布示意图抽样分布示意图 三、标准误(三、标准误(Standard ErrorStandard Error) 样本均数的标准差称为标准误。因此可以用样本均数的标准差称为标准误。因此可以用标准误表示抽样误差的大小:标准误表示抽样误差的大小: 实际工作中总体标准差往往未知,故只能求实际工作中总体标准差往往未知,故只能求得标准误的得标准误的估计值估计值 : 例例4.1 4.1 在在某某地地随随机机抽抽查查成成年年男男子子140140人人,计计算算得得 红红 细细 胞胞 均均 数数 4.774.7710101212/L/L

5、, 标标 准准 差差 0.38 0.38 10101212/L /L ,试计算均数的标准误。,试计算均数的标准误。 标准误的用途:标准误的用途: 标标准准误误可可用用于于衡衡量量抽抽样样误误差差的的大大小小,更更重重要要的的是是可可以以用用于于参参数数的的区区间间估估计计和和对对不不同同组组之之间间的的参参数数进进行行比较。比较。 t 分布分布变量变换变量变换总体总体 样本均数样本均数 中心极限定理中心极限定理标准正态分布标准正态分布 变量变换变量变换未知服从自由度服从自由度 = n 1的的t分布分布1.1.单峰分布,以单峰分布,以0 0为中心,左右两侧完全对称为中心,左右两侧完全对称标准正态

6、分布 图图4-2 4-2 不同自由度的不同自由度的 t t 分布图分布图 标准正态分布 图图4-2 4-2 不同自由度的不同自由度的 t t 分布图分布图 2. t 分布是一簇曲线。只有一个参数分布是一簇曲线。只有一个参数=n-1,曲线,曲线形状与自由度有关。形状与自由度有关。标准正态分布 图图4-2 4-2 不同自由度的不同自由度的 t t 分布图分布图 3. 当自由度逼近当自由度逼近,t分布则逼近分布则逼近u分布,故标准正分布,故标准正态分布是态分布是t分布的特例。分布的特例。标准正态分布 图图4-2 4-2 不同自由度的不同自由度的 t t 分布图分布图 4. 4. t t分布曲线下的面

7、积为分布曲线下的面积为1 1(100100)。)。 t t界值表界值表 概率概率P P自由度自由度 双侧双侧 0.10 0.05 0.02 0.010.10 0.05 0.02 0.01 单侧单侧 0.05 0.025 0.01 0.005 0.05 0.025 0.01 0.005 21 1.721 2.080 2.518 2.831 21 1.721 2.080 2.518 2.831 22 1.717 2.074 2.508 2.819 22 1.717 2.074 2.508 2.819 23 1.714 2.069 2.500 2.807 23 1.714 2.069 2.500 2

8、.807 24 1.711 2.064 2.492 2.797 24 1.711 2.064 2.492 2.797 25 1.708 2.060 2.485 2.787 25 1.708 2.060 2.485 2.787 26 1.706 2.056 2.479 2.779 26 1.706 2.056 2.479 2.779 27 1.703 2.052 2.473 2.771 27 1.703 2.052 2.473 2.771 自由度相同时,自由度相同时,t值越大,概率值越大,概率P越小;越小; 第二节第二节 总体均数的估计总体均数的估计 一、可信区间的概念一、可信区间的概念(Con

9、fidence (Confidence IntervalInterval) 参数估计参数估计点估计:不考虑抽样误差,如点估计:不考虑抽样误差,如区间估计:考虑抽样误差区间估计:考虑抽样误差Parameter estimationpoint estimationinterval estimation总体均数的估计总体均数的估计1. 点点(值值)估计(估计(point estimation):): 用样本统计量直接作为总体参数的估用样本统计量直接作为总体参数的估计值。计值。例例 为了解某地为了解某地1 1岁婴儿的血红蛋白浓度,岁婴儿的血红蛋白浓度,从该地随机抽取从该地随机抽取1 1岁婴儿岁婴儿25

10、25人,测得血红蛋人,测得血红蛋白的平均数为白的平均数为123.7g/L123.7g/L,标准差为,标准差为11.98g/L11.98g/L。试估计该地。试估计该地1 1岁婴儿血红蛋白岁婴儿血红蛋白的平均浓度。的平均浓度。 2. 区间估计(区间估计(interval estimation):): 指按预先给定的概率,计算出一个指按预先给定的概率,计算出一个区间区间,使它能,使它能够包含未知的总体均数。事先给定的概率够包含未知的总体均数。事先给定的概率 称称为可信度,通常取为可信度,通常取 可信度(置信率、置信度):可信度(置信率、置信度): 由样本信息推断总体特征时,估计正确的概由样本信息推断

11、总体特征时,估计正确的概 率,用率,用1表示。表示。 可信区间(可信区间(confidence interval confidence interval CICI):): 按预先给定的概率确定的包含未按预先给定的概率确定的包含未知总体参数的可能范围。构成可信区知总体参数的可能范围。构成可信区间的两个点值称为:间的两个点值称为: 下限值:较小的值下限值:较小的值 上限值:较大的值上限值:较大的值 二、可信区间的计算二、可信区间的计算 (一)(一) 已知已知一般情况一般情况其中其中 为标准正态分布的双侧界值。为标准正态分布的双侧界值。 95% 95%可信区间:可信区间:(二)(二) 未知未知 通常

12、未知,这时可以用其估计量通常未知,这时可以用其估计量S S 代替,但代替,但 已已不不再再服服从从标标准准正正态态分分布布,而而是是服服从从著名的著名的 t t 分布。分布。可信区间:可信区间: 计计算算可可信信区区间间的的原原理理与与前前完完全全相相同同,仅仅仅仅是是两两侧侧概率的界值有些差别。即概率的界值有些差别。即需要注意:需要注意: 在在小小样样本本情情况况下下,应应用用这这一一公公式式的的条条件件是是原原始始变变量服从正态分布。量服从正态分布。 在大样本情况下(如在大样本情况下(如n n50), 50), 也可以用也可以用 替换替换 近似计算。近似计算。 例例4.2 4.2 某某医医

13、生生测测得得2525名名动动脉脉粥粥样样硬硬化化患患者者血血浆浆纤纤维维蛋蛋白白原原含含量量的的均均数数为为3.32 3.32 g/Lg/L,标标准准差差为为0.57 0.57 g/Lg/L,试试计计算算该该种种病病人人血血浆浆纤纤维维蛋蛋白白原原含含量量总总体体均均数的数的95%95%可信区间。可信区间。下限:下限:上限:上限: 例例4.3 4.3 试试计计算算例例4.14.1中中该该地地成成年年男男子子红红细细胞胞总总体体均均数的数的95%95%可信区间。可信区间。 下限:下限:上限:上限:某地调查某地调查100100名成年人,得收缩压均数为名成年人,得收缩压均数为18.62kPa18.6

14、2kPa,标准差为,标准差为1.33kPa1.33kPa。试估计:。试估计:该地该地9595的人收缩压在什么范围?的人收缩压在什么范围?该地所有人收缩压的均数可能在什么范围该地所有人收缩压的均数可能在什么范围?(?(95%95%) 思考医学参考值范围和总体均数可思考医学参考值范围和总体均数可信区间的异同点?信区间的异同点?假设检验的意义和步骤假设检验的意义和步骤 ( (Hypothesis Test)Hypothesis Test) 统计推断包括:参数估计和假设检验。统计推断包括:参数估计和假设检验。假设检验是统计推断的一个重要内容,目假设检验是统计推断的一个重要内容,目的是通过样本数据比较总

15、体参数之间有无的是通过样本数据比较总体参数之间有无差别。差别。假设检验(假设检验(hypothesis test) 亦称显著性检验(亦称显著性检验(significant test),是),是先对总体的参数或分布作出某种假设,然后先对总体的参数或分布作出某种假设,然后用适当的方法,根据样本对总体提供的信息,用适当的方法,根据样本对总体提供的信息,对此假设做出推断(拒绝或不拒绝)。对此假设做出推断(拒绝或不拒绝)。 假设检验的基本原理假设检验的基本原理1.1.逻辑学上的逻辑学上的“反证法反证法”原理。原理。 先建立假设,然后提供假设成立与否的证先建立假设,然后提供假设成立与否的证据。据。2.2.

16、“小概率事件小概率事件”的原理。的原理。 在一次机会中几乎不发生的原理在一次机会中几乎不发生的原理。 一、假设检验的基本思想一、假设检验的基本思想 例例4 4:使使用用黑黑加加仑仑油油软软胶胶囊囊治治疗疗高高脂脂血血症症,3030名名高高脂脂血血症症患患者者治治疗疗前前后后血血清清甘甘油油三三酯酯检检测测结结果果的的差差值值为为1.381.380.76 0.76 (g/L)(g/L),问问治治疗后血清甘油三酯是否有所改善?疗后血清甘油三酯是否有所改善? 样样 本本治疗前后甘油三治疗前后甘油三酯的变化(差值)酯的变化(差值)样本疗效样本疗效 药物作用药物作用 + + 抽样误差抽样误差 对上面问题

17、可以作如下考虑:对上面问题可以作如下考虑: 问题:问题: 究竟多大能够下究竟多大能够下“有效有效”的结论?的结论?图图4-3 4-3 利用利用t t 分布进行假设检验原理示意图分布进行假设检验原理示意图 假定治疗前后血清甘油三酯检测结果的差值服从正态分布,假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若若 则则 服从服从t t 分布。分布。 根据根据 t t 分布能够计算出现大于等于该分布能够计算出现大于等于该t t值的概率值的概率P P ,如果,如果P P 值很小,即计算出的值很小,即计算出的t t 值超出了给定的界限,则倾向于拒值超出了给定的界限,则倾向于拒绝绝H H0 0,认为治疗

18、前后有差别。,认为治疗前后有差别。 二、假设检验的基本步骤二、假设检验的基本步骤 1.1.建立假设和确定检验水准建立假设和确定检验水准 无无效效假假设设H H0 0( (null hypothesis) )指指需需要要检检验验的的假假设设,备备择择假假设设H H1 1( (alternative hypothesis) )指指在在HH0 0成成立立证证据据不不足足的的情情况况下下而而被被动动接接受受的的假假设设。例例如如建建立立治治疗疗前前后后血血清清甘甘油油三三酯酯疗疗效效的的无无效效假假设设和和备备择择假假设设分分别别为为 二、假设检验的基本步骤二、假设检验的基本步骤 1.1.建立假设和确

19、定检验水准建立假设和确定检验水准 确定确定检验检验水准水准 (size of a test)(size of a test)显显著性水准(著性水准(significant levelsignificant level)是)是预预先先规规定的概定的概率率值值,实际实际中一般取中一般取 。 2.2.选择检验方法和计算检验统计量选择检验方法和计算检验统计量 根根据据资资料料类类型型、研研究究设设计计方方案案和和统统计计推推断断的的目目的,选择适当的检验方法;的,选择适当的检验方法; 不不同同检检验验方方法法各各有有其其相相应应的的检检验验统统计计量量及及计计算算公式。公式。 许许多多假假设设检检验验

20、方方法法是是以以检检验验统统计计量量来来命命名名的的,如如 t t 检验、检验、u u 检验、检验、F F 检验和检验和 检验等。检验等。 3. 3.确定确定P P 值并做出统计推断结论值并做出统计推断结论 P P 值值含含义义:指指在在原原假假设设成成立立的的条条件件下下,观观察察到到的的样样本本差差别别是是由由于于随随机机误误差差所所致致的的概概率率。是是假假设设检检验验的的结论依据。结论依据。 查查表表得得到到检检验验用用的的临临界界值值,然然后后将将算算得得的的统统计计量量与与 临临 界界 值值 作作 比比 较较 , 确确 定定P P 值值 。 如如 果果 双双 侧侧 t t 检检 验验 ,则,则 , ,按检验水准按检验水准 拒绝拒绝H H0 0。 P P 值值越越小小,越越有有理理由由拒拒绝绝H H0 0,认认为为总总体体之之间间有有差差别的统计学证据越充分。别的统计学证据越充分。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号