医学统计学:分类资料的统计推断 (2)

上传人:人*** 文档编号:568833097 上传时间:2024-07-27 格式:PPT 页数:78 大小:3.19MB
返回 下载 相关 举报
医学统计学:分类资料的统计推断 (2)_第1页
第1页 / 共78页
医学统计学:分类资料的统计推断 (2)_第2页
第2页 / 共78页
医学统计学:分类资料的统计推断 (2)_第3页
第3页 / 共78页
医学统计学:分类资料的统计推断 (2)_第4页
第4页 / 共78页
医学统计学:分类资料的统计推断 (2)_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《医学统计学:分类资料的统计推断 (2)》由会员分享,可在线阅读,更多相关《医学统计学:分类资料的统计推断 (2)(78页珍藏版)》请在金锄头文库上搜索。

1、分类资料的统计推断Statistical Inference for Categorical Data简要回顾统计分析分析统计描述描述统计推断推断参数估参数估计假假设检验均数、标准差均数、标准差总体均数的可信区间总体均数的可信区间t t检验检验 方差分析方差分析Example定量定量资料料分分类资料料率、比、构成比率、比、构成比总体率的可信区间总体率的可信区间2 2检验检验o检验检验 oFisher精确概率法精确概率法( (Fishers Exact Test) ) 主要内容主要内容两个率的比较两个率的比较配对设计两个率的比较配对设计两个率的比较R RC C列联表的分析列联表的分析正确应用正确

2、应用( (Chi-square Test) )问题的提出pKarl Pearson 1857-19361857-1936 p描述统计学派的代表人物,现代统计科学的创立者。p始于数学,继之哲学和法律学,进而生物学和遗传学,集大成于统计学。p坚决的反对推断统计学派 p统计分布,Pearson分布曲线p 理论分布和实际分布间总存在差异p1900年,Karl Pearson提出 检验.随机误差?本质性差异?WhyWhy问题的提出四格表资料2检验例例7.2(page75) 7.2(page75) 某某医医院院肿肿瘤瘤科科3 3年年来来共共治治疗疗乳乳腺腺癌癌患患者者n n=131=131例例,每每例例均

3、均观观察察满满5 5年年,其其中中单单纯纯手手术术治治 疗疗 组组 观观 察察n n1 1=84=84例例 , 存存 活活x x1 1=57=57例例 , 存存 活活 率率p p1 1=67.9=67.9,联联合合治治疗疗( (手手术术+ +术术后后化化疗疗) )组组观观察察n n2 2=47=47例例,存存活活x x2 2=39=39例例,存存活活p p2 2=83.0=83.0,问问两两组组存活率有无差别?存活率有无差别? p two samples.PopulationAunknownPopulationBunknownSamplesknownPopulationsunknown四格表资

4、料2检验处理存活数 死亡数 合计存活率(%) 联合治疗4783.0单纯治疗8467.9合计963513173.339 857 27表表7-1 两组存活率的比较两组存活率的比较四格表四格表(fourfold table)四格表资料四格表资料(fourfold table)Whenthevariablesareindependent,theproportioninbothgroupsisclosetothesamesizeastheproportionforthetotalsample.Whengroupmembershipmakesadifference,thedependentrelation

5、shipisindicatedbyonegrouphavingahigherproportionthantheproportionforthetotalsample.四格表资料2检验理论频数理论频数(theoretical frequence)o如果两个样本来自同一总体,则两组存活率如果两个样本来自同一总体,则两组存活率相同,则用相同,则用合计的存活率合计的存活率作为总体存活率的作为总体存活率的点估计值。点估计值。o在在这这样样的的假假设设前前提提下下,可可以以计计算算各各组组理理论论存存活人数和理论死亡人数。活人数和理论死亡人数。o根根据据检检验验假假设设H H0 0计计算算出出来来的的数数

6、称称作作理理论论频频数数(theoretical frequency)T(theoretical frequency)T。处理存活数 死亡数合计存活率(%)联合治疗39847单纯治疗572784合计963513173.373.3理论理论频数频数34.44理论频数的计算理论频数的计算(theoreticalfrequence)理论理论频数频数12.56理论频数理论频数73.361.5622.442检验的基本思想检验的基本思想(1)通过构造通过构造A A与与T T吻合程度的统计量吻合程度的统计量来反来反映两样本率的差别映两样本率的差别! !3985727实际数实际数A理论数理论数T34.44 12

7、.5661.56 22.44o如如果果H0假假设设成成立立,则则实实际际频频数数与与理理论论频频数数应应该该比比较较接近。差值接近。差值属于随机误差,用属于随机误差,用2统计量表示:统计量表示: H H0 0成立时,实际数与理论数的差别不会很大,出现较大成立时,实际数与理论数的差别不会很大,出现较大2 2 值概率很小。值概率很小。若若P P,则拒绝,则拒绝H H0 0;若若P P,则尚无理由拒绝它。,则尚无理由拒绝它。2检验的基本思想检验的基本思想(2)(1)假设两总体率相等)假设两总体率相等oH0:两组总体存活率相同,即:两组总体存活率相同,即1=2;oH1:两组总体存活率不同,即:两组总体

8、存活率不同,即12;0.05。2检验的步骤检验的步骤(1)(2)实际数与理论数的差值服从)实际数与理论数的差值服从2分布分布2检验的步骤检验的步骤(2)自由度为1的2分布界值自由度为1的2分布界值0.00.10.20.30.40.53.840.05Reject H0Do not reject H0(3)查)查2分布界值表确定分布界值表确定P值并作出推论值并作出推论p按 = (2-1)(2-1)= 1查附表3,2界值表,得P0.05。p按=0.05水准不拒绝H0,差别无统计学意义。p故尚不能认为单纯手术疗法与联合疗法对乳腺癌患者治疗效果有差别。 2检验的步骤检验的步骤(3)总结总结o比较两个样本

9、率所代表的总体率是否有差别,实质是考察现有的样本频数分布是否与假设下的理论频数分布间差异到底是否包含了本质上的差异。o2 统计量代表了实际数与理论数吻合的程度。Reject H0 if0 2Reject H0Do not reject H0 (with k 1 degrees of freedom)2总结总结2检验相关问题 2分布0.00.10.20.30.40.52分布与自由度有关分布与自由度有关Chi-square distributionChi-square distribution请看演示请看演示 2 2 分布分布o四格表及行列表的自由度 在表中周边合计数不变的前提下,基本数据可以自由

10、变动的格子数。3947849635131827572检验相关问题 自由度2检验相关问题四格表专用公式a bcd 2=a,b,c,d分别为四格表的四个实际频数;n=a+b+c+d。2检验相关问题四格表专用公式p2分布是连续性分布;p定性资料;p实际数过小,增加了第一类错误。校正公式:2检验相关问题2值的校正nn 40,T 5,用2检验;nn40,但1 T 5 ,用校正2。nn 40,或T 1,用确切概率法。2检验相关问题应用条件o某矿石粉厂当生产一种矿石粉石时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取15名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组

11、工人的皮肤炎患病率,结果如表 ,问两组工人的皮肤炎患病率有无差别?2检验相关问题应用条件2检验相关问题应用条件 H0:两组工人的皮肤炎患病率无差别,即:两组工人的皮肤炎患病率无差别,即1=2; H1:两组工人的皮肤炎患病率有差别,即:两组工人的皮肤炎患病率有差别,即12; =0.05。最小的理论频数最小的理论频数T11=1511/43=3.84,1T1140,所以宜用,所以宜用2检验的校正公式。检验的校正公式。查查附附表表2界界值值表表得得0.05P0.10,按按 =0.05水水平平不不拒拒绝绝H0,差差别别无无统统计计学学意意义义。尚尚不不能能认认为为穿穿不不同同防防护护服服的的皮皮肤炎患病

12、率有差别。肤炎患病率有差别。2检验相关问题应用条件3.840.050.0250.0251.96-1.962检验相关问题与正态分布的关系o检验检验 oFisherFisher精确概率法精确概率法 主要内容主要内容两个率的比较两个率的比较配对设计两个率的比较配对设计两个率的比较R RC C列联表的分析列联表的分析正确应用正确应用Chi-square testChi-square test配对四格表资料的2检验oMcNemar检验(检验(McNemars test)o目的目的 通过对单一样本数据的分析,推断两种处理的结果有通过对单一样本数据的分析,推断两种处理的结果有无差别。无差别。o用途用途 比较

13、两种检验方法、两种培养方法、两种提取方法等比较两种检验方法、两种培养方法、两种提取方法等的差别。的差别。 例例7.8(page81)用用两两种种检检验验方方法法对对某某食食品品作作沙沙门门氏氏菌菌检检验验,结结果果如如表表7.9,试试比比较较两两种种方方法法的的阳阳性性结结果果是是否否有有差差别。别。 配对四格表资料的2检验两种检验方法阳性率结果两种检验方法阳性率结果可能的结果可能的结果甲甲乙乙频数频数1 1a a2 2b b3 3c c4 4d d配对四格表资料的2检验两种检验方法结果比较两种检验方法结果比较荧光抗体法荧光抗体法 常规培养法常规培养法 合计合计160(a)26(b)1865(

14、c)48(d)53合计合计16574239配对四格表资料的2检验配对四格表资料的实际数与理论数26(b) 5(c)15.5 15.5实际数实际数理论数理论数=1 连续性校正当当20b+c40时时,需要校正:需要校正:配对四格表资料的2检验步骤o H0:两种检验方法阳性率相同 ,总体BC; H1:两种检验方法阳性率不同 ,总体BC。 0.05。o计算统计量: , =1。oP0.05o按0.05水准,拒绝H0 ,接受H1 ,差别有统计学意义。o可以认为两法检验结果不一样,荧光抗体法阳性结果高于常规培养法。 o检验检验 oFisherFisher精确概率法精确概率法 主要内容主要内容两个率的比较两个

15、率的比较配对设计两个率的比较配对设计两个率的比较R RC C列联表的分析列联表的分析正确应用正确应用Chi-square testChi-square test多个率比较的2检验多组率或构成比比较时,由于行数或列数超出了多组率或构成比比较时,由于行数或列数超出了2,我们,我们把这样的资料称为行把这样的资料称为行列表资料。列表资料。行行列表的列表的2检验统计量:检验统计量:地区检验的样品合计污染率(%)未污染污染甲 6 232979.3乙30144431.8丙 8 31127.3合计44408447.6某省三个地区花生的黄曲酶毒素B1污染率比较多个率比较的2检验理论数的计算15.213.823.

16、021.0 5.85.2实际数A 理论数T 62329301444 8 311 44(52.4%) 40(47.6%)842值的计算15.213.823.021.0 5.85.2 实际数A 理论数T 6233014 8 32值的计算 62329301444 8 311 44 4084自由度为2的2分布界值0.00.10.20.30.40.55.99 0.053个率比较的2检验步骤1H0: 1= 2 = 3H1: 1, 2 , 3不等或不全相等0.05。2计算统计量: 217.91, v = 2。3P0.00014按0.05水准,拒绝H0 ,接受H1 。认为三个地区花生中黄曲酶毒素B1污染率不等

17、或不全相等。例例7.4(page78) 7.4(page78) 某某地地调调查查了了1995199519981998四四个个年年度度中中小小学学女女生生的的贫贫血血状状况况,见见表表7.47.4,问问各各年年度度间间学学生贫血率有无差别?生贫血率有无差别?多个率比较的2检验多个率比较的2检验步骤H0:四个年度学生的贫血检出率相等,即1=2=3=4;H1:四个年度学生的贫血检出率不等或不全相等。0.05。计算统计量:v = 2=(4-1)(2-1)=3。查附表查附表3, 2界值表,得界值表,得P0.005。按。按 =0.05水准拒绝水准拒绝H0,接受,接受H1,差异有统计,差异有统计学意义。学意

18、义。故可认为该地四个年份中小学女生贫血检出故可认为该地四个年份中小学女生贫血检出率不相等。率不相等。多个率比较的2检验步骤构成比的比较美国、中国、挪威三种不同国籍者的ABO血型分布国籍OABAB合计美国450410100 401000挪威190250 40 20 500中国3002503501001000合计940910490160 250构成比的比较美国、中国、挪威三种不同国籍者的ABO血型分布国籍OABAB合计美国450(45.0)410(41.0)100(10.0) 40( 4.0)1000挪威190(38.0)250(50.0) 40( 8.0) 20( 4.0) 500中国300(3

19、0.0)250(25.0)350(35.0)100(10.0)1000合计940(37.6)910(36.4)490(19.6)160( 6.4) 2502值的计算450 410 100 40190 250 40 20300 250 350 100376 364 19664158 182 9832376 364 19664实际数A 理论数T2值的计算45041010040 10001902504020 500300250350100 1000940910490160 25003个构成比比较的2检验步骤1H0: 三种国籍国民的血型构成相同;H1: 三种国籍国民的血型构成不同或不全相同。0.05。

20、2计算统计量: 2332.9668, v = 6。3P5,用2;nn 40,但1 T 5,用校正2。nn 40,或T 40;n20b+c40用校正2 。nb+c20,二项分布直接计算概率。 2检验的应用条件检验的应用条件(2)oRC表的分析方法选择条件:表的分析方法选择条件:n理论数不能小于理论数不能小于1;n理论数大于等于理论数大于等于1小于小于5的格子数不超过的格子数不超过总格子数的总格子数的1/5。n否则用否则用Fisher确切概率确切概率;n或似然比检验或似然比检验(likelihoodratiotest)o如果以上条件不能满足,可采用:如果以上条件不能满足,可采用:增加样本含量增加样

21、本含量删去某行或某列删去某行或某列合理地合并部分行或列合理地合并部分行或列Fisher精确概率法精确概率法 2检验的应用条件检验的应用条件(3)p多多个个率率或或构构成成比比比比较较的的2检检验验,结结论论为为拒拒绝绝H0时时,仅仅表表示示几几组组有有差差别别,并并非非任任2组组之之间间都都有有差差别别。若若要要了了解解之之,可可进进行行多多重重比比较较:2表表的分割或率的可信区间法的分割或率的可信区间法. 2检验的应用条件检验的应用条件(4)o对对于于有有序序的的分分类类变变量量,采采用用卡卡方方检检验验方方法法不不能能考考虑虑数数据据的的有有序序性性质质。为为此此,对对于于单单向向有有序序

22、可可采采用用秩秩和和检检验验、Ridit分分析析,双双向向有有序序可可采采用用趋趋势检验等。势检验等。 2检验的应用条件检验的应用条件(5)o检验检验 oFisherFisher精确概率法精确概率法 主要内容主要内容两个率的比较两个率的比较配对设计两个率的比较配对设计两个率的比较R RC C列联表的分析列联表的分析正确应用正确应用Chi-square testChi-square test四格表的确切概率(四格表的确切概率(page83)(Fishers exact probability in 22 table)大脑左半球与右半球的恶性肿瘤作占比例大脑左半球与右半球的恶性肿瘤作占比例组别组别

23、良性良性恶性恶性合计合计恶性肿瘤所占恶性肿瘤所占比例率比例率(%)左左半半球球1331618.75右右半半球球761346.15合计合计20929四格表周边合计不变四格表周边合计不变xa+b-xa+ba+c-xd-a+xc+da+cb+dnxmin(a,b,c,d)x=0,1,min(a+c,a+b)四格表四格表(周边合计不变时周边合计不变时)所有可能的排列所有可能的排列(1)(2)(3)(4)(5) 79 88 97106116130121112103 94|A-T|:4.0345 3.0345 2.0345 1.0345 0.0345(6)(7)(8)(9)(10)124133142151

24、160 85 76 67 58 49|A-T|:0.9655 1.9655 2.9655 3.9655 4.9655每一种组合的概率每一种组合的概率aba+bcdc+da+cb+dn超几何分布(hypergeometric distribution)四格表所有可能排列的概率四格表所有可能排列的概率(1)(2)(3)(4)(5) 79 88 97106116130121112103 94|A-T|:4.03453.03452.03451.03450.0345Pi0.001142 0.0167060.0890980.2286860.311844(6)(7)(8)(9)(10)12413314215

25、1160 8576 67 58 49|A-T|:0.96551.96552.96553.96554.9655Pi 0.2338830.095952 0.020561 0.0020560.000071P 值值:A-T值大于等于现有样本差别的各组合值大于等于现有样本差别的各组合概率之和。概率之和。 (1)(2)(3)(4)(5) 79 88 97106116130121112103 94|A-T|:4.03453.03452.03451.03450.0345Pi0.001142 0.0167060.089098(6)(7)(8)(9)(10)124133142151160 8576 67 58 4

26、9|A-T|:0.96551.96552.96553.96554.9655Pi 0.095952 0.0205610.0020560.000071P=0.225586总结总结o是否需要是否需要Fishers精确概率法?精确概率法?o周边合计不变情况下有多少种组合?周边合计不变情况下有多少种组合?o每一种组合的概率及每一种组合的概率及A-T值?值?o多少种组合的多少种组合的A-T值大于等于现有样本值大于等于现有样本差别?差别?o确定确定P值。值。o检验检验 oFisherFisher精确概率法精确概率法 总结总结两个率的比较两个率的比较配对设计两个率的比较配对设计两个率的比较R RC C列联表的分析列联表的分析正确应用正确应用Chi-square testChi-square test敬请关注o医学统计学教学资料oStata软件视频课程练习练习 为研究某种新药对尿路疼痛的止痛效果,将有尿路疼痛的患者144例随机分为两组,每组72例,一组服该新药(治疗组),另一组服安慰剂(对照组)。两组患者尿路疼痛的原因见表,问两组患者尿路疼痛原因的构成有无差异? x2=1.018练习练习

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号