生物统计学中的统计推断课件

资源描述

《生物统计学中的统计推断课件》由会员分享，可在线阅读，更多相关《生物统计学中的统计推断课件（39页珍藏版）》请在金锄头文库上搜索。

1、根据总体理论分布，从样本的统计数对总体参数作出的推断。统计推断包括参数估计和假设检验假设检验和参数估计表现结果不同，本质相同内容在总体理论分布和小概率原理的基础上，通过提出假设、确定显著水平、计算统计数、作出推断等步骤来完成的在一定概率意义上的推断。类型两均数间的检验（样本与总体，两样本）两频率间的检验（样本与总体，两样本）多个均数间的检验多个频率间的检验方法u检验， t检验， F检验， x2检验等总体参数估计区间估计和点估计区间估计：在一定的概率范围内；点估计：样本统计量估计总体参数1 1点估计点估计2 2区间估计区间估计未知未知 , , 的可信度的可信度1-1-的可信区间是的可信区间是

2、 ( , ) ( , ) 简记为简记为例某地成年男子中抽得144人的样本,求得红细胞数均数为5.378(109/L),标准差为0.439(109/L),试估计该地成年男子红细胞数的95%可信区间。解： 5.3781.9790.439/12，即（5.306，5.450）(2)(2)已知已知（3 3）未知，但未知，但n n足够大足够大假假设设检检验验（hypothesis hypothesis testingtesting）也也称称显显著著性性检检验验(significance (significance test)test)。二二十十世世纪纪二二、三三十十年年代代

3、NeymanNeyman和和PearsonPearson建建立立了了统统计计假假设设检检验验问问题题的的数数学模型。学模型。根据大量调查，已知健康成年男子脉搏的均数为72次/分，某医生在一山区随机调查了25名健康成年男子，求得脉搏均数为74.2次/分, 标准差为6.0次/分，能否据此认为该山区成年男子的脉搏均数高于一般人?我们当然不能强求脉搏均数恰为72次/分时，才认为山区成年男子的脉搏均数和一般人一样，因为即使一样由于抽样误差的存在，样本均数未必等于72，造成山区健康成年男子的脉搏样本均数与一般人不同的原因有: 抽样误差环境因素的影响要回答这一问题就是假设检验问题任一个关于总体分布的假设

4、称统计假设,简称假设。假设有两种：检验假设(无效假设、原假设) 记H0 备择假设记H1 如上例，H0：=72 H1：72为比较2种安眠药的疗效，检验假设可为： H0：2种安眠药的平均睡眠时间相同，即1=2 H1：2种安眠药的平均睡眠时间不同，即12 单、双侧检验 (1) 确定假设和检验水平 (2) 计算检验统计量 (3) 查表确定p值，作出统计推断样本均数与总体均数比较的t检验比较的目的是样本所代表的未知总体均数与已知的总体均数0有无差别。（1）确定假设和检验水平 H0： =72 H1：72 =0.05 单侧检验（2）计算检验统计量 =24（3）查表确定p值，作出统计推断查表得0.05p

5、0.025 拒绝H0 , 认为有显著性差异假定H0成立,查表得到p=0.05(小概率)的界值为1.711,根据小概率事件原理,t1.711都是不可能发生的,而现在发生了,所以拒绝H0 检验统计量检验统计量 =n-1=n-1例例用用克克矽矽平平雾雾化化吸吸入入治治疗疗矽矽肺肺患患者者7 7人人，得得到到治治疗疗前前后后的的血血清清粘粘蛋蛋白白（mg/Lmg/L），能能否否认认为为治治疗疗会会引引起起患患者者血清粘蛋白的变化？血清粘蛋白的变化？ H H0 0: : d d=0 H=0 H1 1:d d0 =0.05 0 =0.05 双侧检验双侧检验患者号患者号1 12 23 34 45 56 6

6、7 7治疗前治疗前6565737373733030737356567373治疗后3434363637372626434337375050差值差值3131373736364 4303019192323 例尿铅测定长期以来用湿式热消化法-双硫腙法，后改用硝酸-高锰酸钾冷消化法，说明两法测得结果有无差别？患者号患者号1 12 23 34 45 56 6冷消化法冷消化法2.412.4112.0712.072.902.901.641.642.752.751.061.06热消化法热消化法2.802.8011.2411.243.043.041.831.831.881.881.451.45差值差值d d-0

7、.39-0.390.830.83-0.14-0.14-0.19-0.190.870.87-0.39-0.39检验统计量检验统计量 =n-1=n-1例某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系，将同种属的大白鼠按性别相同，年龄、体重相近者配成对子，共8对，并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组，过一定时期将大白鼠杀死，测得其肝中维生素A的含量，问不同饲料的大白鼠肝中维生素含量有无差别？大白鼠对号大白鼠对号1 12 23 34 45 56 67 78 8正常饲料组正常饲料组3500350020002000300030003950395038003800375037503

8、450345030503050维生素维生素E E缺乏组缺乏组2450245024002400180018003200320032503250270027002500250017501750检验统计量检验统计量 =n-1=n-1 有些研究的设计不能自身配对，也不便配对，只能将独立的两组均数作比较，如手术组与非手术组、新药治疗组与原用药治疗组。有的试验要把动物杀死后才能获得所需数据，除非事先作好了配对设计，一般只能作两组间的比较，两组例数可以不等，这是配对设计所不能做到的。从两总体中分别抽取容量为n1、n2的样本，比较两总体均数1和2有无差别。 =n=n1 1+n+n2 2-2-2例例某某克克山

9、山病病区区测测得得11例例克克山山病病患患者者与与13名名健健康康人人的的血血磷磷值值（mmol/L），问问该该地地急急性性克克山山病病患患者者与与健健康康人人的血磷值是否不同？的血磷值是否不同？患患者者X1：0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11健健康康人人X2：0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87H0: 1=2 H1: 12 =0.05 双侧检验双侧检验=n=n1 1+n+n2 2-2-2例例测测得得3030名名以以上上的的冠冠

10、心心病病患患者者142142人人的的血血清清胆胆固固醇醇，另另以以506506名名年年龄龄相相仿仿的的非非患患者者作作比比较较，结结果果如如下，试分析冠心病患者的血清胆固醇是否较高？下，试分析冠心病患者的血清胆固醇是否较高？n ns s冠心病患者冠心病患者142142223.6223.645.845.8非患者非患者506506180.6180.634.234.2=n=n1 1+n+n2 2-2-2t检验：要求样本来自正态分布，且两均数比较时还要求两总体方差相等。u检验：n较大。t检验的条件是样本观察值来自于正态分布，且要求两组比较时两组总体方差相等，由于抽样误差的存在，即使总体方差相等，求出的

11、样本方差也未必相等，但是否一定是由抽样误差引起的呢？用F检验统计量F= s12 是较大的一个方差, 1=n1-1 2=n2-1附表3中的单侧的界值，实对应双侧的界值例由X光片上测得两组病人的肺门横径右侧距R1值（cm）。结果如下：矽肺0期病人： n1=50 =4.34 s1=0.56肺癌病人： n2=10 =6.21 s2=1.79H0:12=22H1:1222 =0.10 F= =10.2171=n1-1=9 2=n2-1=49查附表3得F=10.217F0.10,9,49=2.07, p0.10, 故按=0.10水平拒绝 H0，认为两组病人的总体方差不等。t t检检验验的的应应用用条条件

12、件要要求求两两个个总总体体方方差差相相等等，如如不不等等时，可以：时，可以：1 1 变量变换变量变换2 2 非参数检验非参数检验3 3 近似近似t t检验（即检验（即t t检验）检验）有有3 3种不同的算法：种不同的算法： Cochran & CoxCochran & Cox法法(1950)(1950) Satterthwaite Satterthwaite法法(1946)(1946) Welch Welch法法(1947)(1947) 1. 要有严密的抽样研究计划要保证样本是从同质总体中随机抽取。除了对比的因素外，其它影响结果的因素应一致。2选用的假设检验方法应符合其应用条件要了解变量的

13、类型是计量的还是计数的，设计类型是配对设计还是成组设计，是大样本还是小样本。3.结论不能绝对化4.正确理解差别有无显著性的统计意义差别有显著性，或有统计意义，指我们有很大的把握认为原假设不正确，并非是说它们有较大的差别。差别无显著性，或无统计意义，我们只是认为以很大的把握拒绝原假设的理由还不够充分，并不意味着我们很相信它。5.统计显著性与其它专业上的显著性的意义不同 1. 1. 可信区间也可以回答假设检验的问题可信区间也可以回答假设检验的问题 2.2. 可信区间比假设检验可提供更多的信息可信区间比假设检验可提供更多的信息由于样本的随机性，假设检验中作出的结论可能会犯两类不同类型的错误：（

14、1） H0成立，但由于样本的随机性，拒绝了H0所犯的错误称第一类错误或型错误或拒真错误。犯第一类错误的概率记作（2） H0不成立，但由于样本的随机性，不拒绝H0所犯的错误称第二类错误或型错误或受伪错误。犯第二类错误的概率记作当样本例数当样本例数n n一定时，一定时，减小则减小则会增大。会增大。检检验验效效能能（power power of of a a testtest）：亦亦称称把把握握度度，1-1-，它它的的意意义义是是当当两两总总体体确确有有差差别别，按按规规定定检检验验水水准准所能发现该差异的能力。所能发现该差异的能力。（1）统计意义：从总体中作大数次随机抽样，有95%求得的可信区间包含总体均数。并不是做一次抽样求得可信区间包括的概率是0.95，对一次抽样而言只有两种可能，要么可信区间包含，要么不包含。（2）两个要素：准确度，即1-，精度，即区间的长度。（3）与正常值范围不同（1 1）未知未知 X XN N（， 2 2）则则 t t ，有有 p p（- t- t,t tt t ，）=1-(=1-(可信度可信度) ) 即即p p（- t- t, t t,）=1-=1-

展开阅读全文

生物统计学中的统计推断课件

最新文档