计数资料推断

上传人:206****923 文档编号:53631969 上传时间:2018-09-03 格式:PPT 页数:72 大小:1.44MB
返回 下载 相关 举报
计数资料推断_第1页
第1页 / 共72页
计数资料推断_第2页
第2页 / 共72页
计数资料推断_第3页
第3页 / 共72页
计数资料推断_第4页
第4页 / 共72页
计数资料推断_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《计数资料推断》由会员分享,可在线阅读,更多相关《计数资料推断(72页珍藏版)》请在金锄头文库上搜索。

1、计数资料的统计推断,第八讲,计数资料统计推断内容,率差或率比的区间估计:u分布,二项分布 假设检验:u检验,2检验,一、计数资料假设检验 - 二项分布直接法及u检验-,(一)单个样本率与已知总体率比较 样本率与总体率的假设检验的目的是推断样本率所代表的未知总体率与已知总体率0(一般指理论值、标准值或经大量观察得到的稳定值)是否相等,其u检验: p为样本率,0为已知总体率,例1、由临床经验得知,一般溃疡病患者的胃出血率为20%,现某医师观察65岁以上溃疡病人250例,其中80例发生胃出血症状(32%),问老年人胃出血率与一般患者是否不同?,u检验应用条件:当n较大,np和n(1-p)均大于5时,

2、中心极限定理-样本率p抽样分布近似正态分布。,H0:=0 ,即老年人胃出血率与一般患者相同; H1:0 ,即老年人胃出血率与一般患者不同 =0.05,第一步,本例 0=20%,n=250,x=80 将数据代入上式:,第二步,P 0.001,按=0.05,拒绝H0,接受H1,可认为老年患者胃出血率与一般患者不同,老年溃疡病患者更容易出现胃出血。 老年溃疡病患者出血率的95%可信区间:0.262 0.378一般出血率:0.20,第三步,(二)两样本率比较u检验 目的:是推断两样本所来自两总体率是否相等 u检验应用条件:当n较大,np和n(1-p)均大于5时,可利用样本率p的抽样分布近似正态分布.,

3、其u检验公式为:,例2:为比较工人和农民的高血压患病率,分别调查了5059岁男性工人和5059岁男性农民1281人和387人,其高血压患者分别为386人(患病率30.1%)和65人(患病率16.8%)。问工人与农民的高血压患病率有无不同?,H0:1=2, 两者高血压患病率相同 H1:12 ,两者高血压患病率不同 =0.05,第一步,例 x1=386,n1=1281 ,p1=30.1%;x2=65,n2=387 ,p2=16.8%,第二步,P0.001,按=0.05,拒绝H0,接受H1,可认为5059岁男性工人和 5059岁男性农民高血压患病率不同,工人患病率高于农民. 率差95%可信区间:0.

4、088 - 0.178,平均率差为0.133.(0) 对于小样本的率,如何进行假设检验? 对于三组以上率或构成比,如何进行假设检验?,第三步,二、计数资料的假设检验 - 卡方检验- Pearson Chi-square test,KarlPearson,18571936,生卒于伦敦,公认为统计学之父。 1879年毕业于剑桥大学数学系;曾参与激进的政治活动,还出版几本文学作品,并且作了三年的实习律师。1884年进入伦敦大学学院 ,教授数学与力学,从此在该校工作一直到1933年。 K Pearson 最重要的学术成就,是为现代统计学打下了坚实基础。KPearson 在1893-1912年间写出18

5、篇在进化论上的数学贡献的文章,而这门“算术”,也就是今日的统计。许多统计名词如标准差,成分分析,卡方检验(1900)都是他提出。,2检验的主要应用,推断两个/两个以上总体率或构成比有无差别; 两分类变量间有无相关的假设检验(独立性); 拟合优度检验(理论分布与实际分布的吻合情况检验)。,(一) 2 检验主要类型,四格表资料的2检验 22列联表的2检验 RC表资料的2检验,卡方检验基本思想: 以四格表资料为例,例4、在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺向鼻腔灌注,另一组在鼻注的基础上加肌注维生素B12,问两组发癌率有无差别?,表1 两组大白鼠发癌率的比较,2 检验的基本思想,

6、1、建立假设,H0:两组发癌率相等, H1:两组发癌率不等, =0.05,*两组的总体发癌率相等,均等于合并发癌率 =91/113=80.5%,为反映所有格子的吻合情况,所有差值求和,(A-T)=0 (正负抵消),差值和可定义为(A -T)2 ; 相对比例保持不变,T值越大, (A-T)2值越大,为消除其影响,差值定义为: (A-T)2/T,2、计算统计量2 在样本量足够大时,该值服从于自由度为=(行数-1)(列数-1) 的2 分布。即2检验公式: 2 = (A-T)2/T 2分布是一簇连续性分布,与自由度有关;在自由度固定时, 2值越大,P值越小,反之亦然. 在无效假设成立时: 2值一般不会

7、很大,出现大的2值的概率P是很小的,若P( 检验水准),则没有理由拒绝它。,Pearson Chi-square distributions均值等于自由度,3、 P值与2分布,2值反映了实际频数与理论频数的差值大小 2值大小与p值呈反比关系,即2 值越大,P值越小;反之亦然。 2值达到界值点,就有理由认为成立的可能性不大,是小概率事件,因而拒绝H0 。对于四格表资料:0.052=3.84,四格表资料2 检验计算结果,本例2 值=6.48,自由度为1,查2 界值表,得p40时, 选用一般计算公式 当140时, 需计算校正公式当T1或n5,4、率比(RR和OR)区间估计,本资料为临床试验研究,可以

8、同时计算RR与OR值,用以分析Vitb12对发癌危险度的大小,OR1表示Vitb12为危险因素。 以OR值为例,OR服从对数正态分布,则有:,实例分析,(二)、2X2列联表(配对设计),1、资料特点与分析目的,资料的特点:配对计数资料 分析目的:A:两法检验结果有无关系(四格表2检验)B:两法检验有无差别(专用公式)。,2、假设检验(1):相关分析,检验目的:两法检验结果有无关系。H0:两法检验结果无关系H1:两法检验结果有关系=0.052值=38.85,=1确定P值: 查卡方界值表,得P0.005, 按照=0.05的水准,拒绝H0,而接受H1,可认为两法检验结果有关。 计算Pearson列联

9、系数反映相关程度sqrt(2/2+n)。(本例为r=0.294),3、假设检验(2):差别分析,检验目的:两法检验结果有无差别H0:两总体b=cH1:两总体bc=0.05确定P值: 查卡方界值表,得P40时,公式可简化(McNemar):,5、率差的95%可信区间,可定义p1-p2=(b-c)/n 则率差的95%可信区间为:上例两法总体率差值的95%可信区间为(0.200.30)。,2X2列联表资料的分析特点,对此类资料可以做两方面的分析:相关分析:采用一般的四格表公式差别分析:采用专用公式(b、c不宜过小) 对上例结果:两类检验方法结果是有关的,且有差别,甲法好于乙法。,(三)、多个样本率比

10、较,适用资料特征:行X列表(RXC)-多个率比较的 2 检验。 应用条件:不能有1/5格子的理论频数小于5,或最小理论频数小于2。,实例演示,例5 某医师研究物理疗法、药物疗法和外用膏药三种疗法治疗周围性神经麻痹的疗效,问三种疗法的有效率有无差别?分析三种疗法的有效率?,表3 三种疗法的有效率比较,1、建立假设,H0:三种疗法有效率相等, H1:三种疗法的有效率不等或不全等 =0.05,2、确定P值与结论,=17.91, =(3-1)(2-1)=2 查卡方界值表,得P0.0125。 后把乙丙两组合并,再与甲组比较,作2检验, 2=17.83,=1,得P值0.0125,说明二、三组与第一组有差别

11、。,实例演示,注意事项,行X列表2检验应用条件:要求理论频数不宜太小,对于行X列表不宜1/5以上格式的理论频数小于5,或有一个理论频数小于2。 若不满足,可采用方法: 增加样本例数以增加理论频数; 删除上述理论频数太少行或列; 将理论频数太小性质行或列相近实际频数合并。 Fisher确切概率法,(四)特殊行X列表资料的分析,列联表:有序行X列表资料, 行变量、列变量的属性分为: 双向均无序 单向有序 双向均有序属性相同 双向均有序属性不同,1、双向有序资料-列联表,特点:双向有序、行变量和列变量属性不同的资料。 分析目的:独立性/相关性分析。,实例分析,建立假设:H0:矽肺期次与肺门密度级别之

12、间无关H1:矽肺期次与肺门密度级别之间有关=0.05 确定P值与下结论: rs=0.532, 查卡方界值表,得P0.005, 按照=0.05的水准,拒绝H0,而接受H1,可认为矽肺期次与肺门密度级别之间有关。,2、列联表资料的主要分类及统计分析。 A、对于双向无序资料: 若比较多个样本率(或构成比),可用行列表资料卡方检验; 若分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表卡方检验以及Pearson列联系数进行分析sqrt(2/2+n)。,B、单向有序资料 分组变量(如年龄)有序,而结果变量(如传染病的类型)无序,分析不同组结果构成情况,可用行列表卡方检验进行差别分析。 分组变

13、量(如疗法)无序,而结果变量(如疗效按等级分组)有序,比较不同组别疗效,应用秩和检验,C、双向有序、属性相同资料 两个分类变量皆为有序且属性相同。如两实验室、两人用同一检测方法检测同一批样品的测定结果。其研究目的通常是分析两实验室、两人测量结果的一致性,此时宜用一致性检验或称Kappa检验。 0.93-1.00 0.81-0.92 0.61-0.80 0.41-0.60 0.21-0.40 0.0-0.20,D、双向有序、属性不同资料 若分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换非参数检验; 若分析两个有序分类变量间是否存在相关关系,宜用Spearman相关或P

14、earson相关分析; 若分析两个有序分类变量间是否存在线性变化趋势,宜用线性趋势检验。,(五)、其它类型的2 检验 -拟合优度检验,1、结果,2 = (A-T)2/T=37.78, df=3,P0.05。因此拒绝0,接受 H1 ,说明心肌梗死的发生有季节性的差别。,季节,春,夏,秋,冬,发病例数,60 30 20 70,理论例数,45,45,45,45,差值,15,-,15,-,25 25,三、误用卡方检验的实例分析,实例10,实例11,Fisher:0.011,实例12,例13、某检验法在病毒感染诊断上的应用,表13摘自该文附表,趋势卡方值=8.29,例14 将116例癫痫患者随机分为两组,一组70例接受常规加高压氧治疗(高压氧组),另一组46例接受常规治疗(常规组),治疗结果见表。问两种疗法有效率有无差别?,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号