分类变量资料的统计分析

上传人:桔**** 文档编号:590842528 上传时间:2024-09-15 格式:PPT 页数:94 大小:1.01MB
返回 下载 相关 举报
分类变量资料的统计分析_第1页
第1页 / 共94页
分类变量资料的统计分析_第2页
第2页 / 共94页
分类变量资料的统计分析_第3页
第3页 / 共94页
分类变量资料的统计分析_第4页
第4页 / 共94页
分类变量资料的统计分析_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《分类变量资料的统计分析》由会员分享,可在线阅读,更多相关《分类变量资料的统计分析(94页珍藏版)》请在金锄头文库上搜索。

1、第四章第四章分类变量资料的统计分析分类变量资料的统计分析statistical analysis for categorical data1简要回顾o数值变量数值变量o分类变量:将观察单位按事物的某种属性分类变量:将观察单位按事物的某种属性或类别进行分组,再清点每组观察单位的或类别进行分组,再清点每组观察单位的个数得到的资料。个数得到的资料。2简要回顾统计分析统计分析统计描述统计描述统计推断统计推断参数估计参数估计假设检验假设检验均数、标准差均数、标准差总体均数估计总体均数估计t t检验,方差分析检验,方差分析Example数值资料数值资料3统计分析统计分析统计描述统计描述统计推断统计推断参数

2、估计参数估计假设检验假设检验Example分类分类资料资料率、比、构成比率、比、构成比总体率可信区间总体率可信区间2 2检验检验4主要内容主要内容o分类变量资料的统计描述分类变量资料的统计描述常用的相对数指标常用的相对数指标应用相对数时应注意的几个问题;应用相对数时应注意的几个问题;率的标准化法。率的标准化法。o分类变量资料的统计推断分类变量资料的统计推断估计率的抽样误差估计率的抽样误差总体率可信区间的估计总体率可信区间的估计两个率的比较两个率的比较5第一节第一节分类变量资料的统计描述分类变量资料的统计描述6o常用的相对数常用的相对数比例比例率率比比o相对数应用的注意事项相对数应用的注意事项o

3、率的标准化率的标准化7计数资料计数资料o用定性的方法得到的资料称作分类变量资料用定性的方法得到的资料称作分类变量资料o按某种属性分类,然后清点每类的数据按某种属性分类,然后清点每类的数据住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565520256552727无无中学中学顺产顺产足月足月202565320256532222无无小学小学助产助产足月足月202583020258302525管理人员管理人员大学大学顺产顺产足月足月202567720256772424知识分子知识分子中学中学顺产顺产早产早产202564720256473030管理人员管理人员大学大

4、学顺产顺产足月足月202584820258483232无无小学小学剖宫产剖宫产足月足月201991520199152727无无中学中学顺产顺产死产死产8绝对数和相对数绝对数和相对数o绝对数:绝对数:实际数实际数反映某事物现象发生的实际情况,总量指标反映某事物现象发生的实际情况,总量指标缺点:不利于比较。缺点:不利于比较。o相对数相对数是两个有联系的数据的比值。是两个有联系的数据的比值。目的:将基数化为相同,便于比较。目的:将基数化为相同,便于比较。9问题p某部某部队野野营训练,发生中暑生中暑12人,北方籍人,北方籍战士士10人,南方籍人,南方籍战士士2人,人,结论:北方:北方籍籍战士容易中暑。

5、士容易中暑。p1999年某幼儿园有年某幼儿园有36名儿童患了腮腺炎,名儿童患了腮腺炎,该幼儿园有幼儿园有200名儿童(其中名儿童(其中25名儿童以名儿童以前患前患过腮腺炎),腮腺炎),该幼儿园儿童幼儿园儿童1999年腮年腮腺炎腺炎发病率是多少?病率是多少?10一、常用的相对数指标一、常用的相对数指标o构成比构成比(proportion)o率率(rate)o比比(ratio)o动态数列动态数列(dynamicseries)111、构成比、构成比(proportion)o概念:概念:说明某一事物内部各组成部分所占说明某一事物内部各组成部分所占的比重,常以百分数表示,又称比例。的比重,常以百分数表示

6、,又称比例。o计算公式:计算公式:12例:例:手术前后胸腔积液白细胞分类手术前后胸腔积液白细胞分类13构成比特点:构成比特点:o各部分构成比的总和为各部分构成比的总和为100,值在,值在0-1间间变动;变动;o某部分构成比发生变化时,其他部分也相某部分构成比发生变化时,其他部分也相应变化。应变化。142、率、率(rate)o定义:定义:一定时间内,实际发生某现象的观一定时间内,实际发生某现象的观察单位数与可能发生该现象的观察单位总察单位数与可能发生该现象的观察单位总数之比。数之比。o计算公式:计算公式:K比例基数比例基数15o用以说明某现象发生的频率或强度用以说明某现象发生的频率或强度oK:比

7、例基数,常用百分率:比例基数,常用百分率(%)、千分率、千分率()、万分率、万分率(1/万万)或十万分率或十万分率(1/10万万)等表示。等表示。使使计算算结果保留果保留12位整数。位整数。o平均率不能由各平均率不能由各组率相加后求平均,率相加后求平均,应为分子合分子合计除以分母合除以分母合计。关于率关于率16例例几种药物不良反应发生情况几种药物不良反应发生情况o半合成青霉素不良反应发生水平最高,达半合成青霉素不良反应发生水平最高,达o总发生率:总发生率:87/3803=22.9()17p发病率病率p患病率患病率 率常用率常用统计指指标18p病死率病死率p死亡率死亡率 193、比(、比(rat

8、io)o定义:定义:也称相对比,指两个有联系的指标之比,也称相对比,指两个有联系的指标之比,常以百分数或倍数表示。常以百分数或倍数表示。o计算公式计算公式:o两个指标可以性质相同,也可以性质不相同;可两个指标可以性质相同,也可以性质不相同;可以是相对数、绝对数或平均数等。以是相对数、绝对数或平均数等。20214、动态数列(、动态数列(dynamicseries)o概念:概念:指一系列按时间顺序排列起来的统指一系列按时间顺序排列起来的统计指标计指标(包括绝对数、相对数和平均数包括绝对数、相对数和平均数),用以说明事物在时间上的变化和发展趋势。用以说明事物在时间上的变化和发展趋势。o常用指标:常用

9、指标:有绝对增长量、发展速度和增有绝对增长量、发展速度和增长速度、平均发展速度与平均增长速度。长速度、平均发展速度与平均增长速度。22o绝对增长量绝对增长量:说明事物在一定时期内所增:说明事物在一定时期内所增减的绝对数量,表现为两指标之差。减的绝对数量,表现为两指标之差。累计绝对增长量累计绝对增长量报告期与基期指标之差报告期与基期指标之差。逐年绝对增长量逐年绝对增长量报告期与前一期指标之差报告期与前一期指标之差23o发展速度和增长速度:说明事物在一定时发展速度和增长速度:说明事物在一定时期内发展变化的幅度和速度。期内发展变化的幅度和速度。定基比发展速度定基比发展速度环比发展速度环比发展速度定基

10、比增长速度定基比增长速度环比增长速度环比增长速度24107.5%-100%25二、应用相对数应注意的问题二、应用相对数应注意的问题o计算相对数的分母不宜过小计算相对数的分母不宜过小稳定性差,缺乏代表性稳定性差,缺乏代表性例数较少时,用绝对数例数较少时,用绝对数o分析时不能以构成比代替率分析时不能以构成比代替率构成比是构成比是比例指标比例指标,它用来说明事物内部各组成,它用来说明事物内部各组成部分所占的比重或分布,分子仅是分母中同一事部分所占的比重或分布,分子仅是分母中同一事物现象的一部分,是概率的估计值。物现象的一部分,是概率的估计值。率则与时间有关,它具有率则与时间有关,它具有速率速率的概念

11、,也具有概的概念,也具有概率估计值的意义,是与时间有关的比例率估计值的意义,是与时间有关的比例26o正确计算平均率正确计算平均率不能将这几个率直接相加求其均值,而应将各个不能将这几个率直接相加求其均值,而应将各个率的分子、分母率的分子、分母分别相加分别相加后,再求总率即平均率后,再求总率即平均率o相互比较时注意可比性相互比较时注意可比性除研究因素不同外,其他影响研究结果的因素应除研究因素不同外,其他影响研究结果的因素应尽可能相同或相近尽可能相同或相近研究对象同质、方法相同、其他基本条件一致、研究对象同质、方法相同、其他基本条件一致、内部构成要相同,不同则进行率的标化后再比较内部构成要相同,不同

12、则进行率的标化后再比较同一地区不同时期资料的比较,应注意客观条件同一地区不同时期资料的比较,应注意客观条件的变化的变化27o样本率或构成比的比较应进行假设检验样本率或构成比的比较应进行假设检验样本率(或构成比)是通过抽样得到的,存在抽样本率(或构成比)是通过抽样得到的,存在抽样误差,因此不能只凭数值表面相差的大小作结样误差,因此不能只凭数值表面相差的大小作结论,应进行差别的假设检验。论,应进行差别的假设检验。28三、三、标准化法标准化法29为什么要进行标化为什么要进行标化301、标化法的基本思想、标化法的基本思想o当两组资料进行比较时,如果其当两组资料进行比较时,如果其内部不同内部不同小组率有

13、明显差别,而且各小组内部构成小组率有明显差别,而且各小组内部构成也明显不同也明显不同,直接比较不合理。,直接比较不合理。o在两个及两个以上总率在两个及两个以上总率(总均数总均数)进行对比进行对比时,为了消除内部构成不同的影响,采用时,为了消除内部构成不同的影响,采用统一标准统一标准,分别计算标准化率后再作对比,分别计算标准化率后再作对比的方法称为标准化法。的方法称为标准化法。312、标准化率的准化率的计算算p标标准化方法准化方法准化方法准化方法1.以人口数作以人口数作为标准准2.以人口构成比作以人口构成比作为标准准p选择标选择标准人口准人口准人口准人口1.选择有代表性的、有代表性的、较稳定的、

14、数量定的、数量较大的人群大的人群作作标准。准。2.两两组之和的人口数或人口构成比;之和的人口数或人口构成比;3.两两组间较稳定一定一组的人口数或人口构成比;的人口数或人口构成比;32以人口数作为标准以人口数作为标准预期发生数预期发生数=标准人口数标准人口数x原发生率原发生率33计算标准化率计算标准化率34以人口构成比作为标准以人口构成比作为标准353、应用用标准化准化时的注意事的注意事项1.标准准化化法法只只适适用用于于某某因因素素两两组内内部部构构成成不不同同,并并有有可可能能影影响响两两组总率率比比较的的情情况况。对于于因因其其它它条条件件不不同同而而产生生的的不不具具可可比比性性的的问题

15、,标准化法不能解决。准化法不能解决。2.由由于于选择的的标准准人人口口不不同同,算算出出的的标准准化化率率也也不不同同。当当比比较几几个个标准准化化率率时,应采采用用同一同一标准人口准人口。363.标准准化化率率已已经不不再再反反映映当当时当当地地的的实际水水平平,它它只只是是表表示示相相互互比比较的的资料料间在在共同共同标准下的相准下的相对水平,用于比水平,用于比较。4.两两样本本标准准化化率率是是样本本值,存存在在抽抽样误差差。比比较两两样本本的的标准准化化率率,当当样本本含含量量较小小时,应作作假假设检验。37第二节第二节分类变量资料的统计推断分类变量资料的统计推断38统计推断统计推断用

16、样本信息推论总体特征的过程。用样本信息推论总体特征的过程。包括:包括:参数估计参数估计: 运用统计学原理,用从样本计算出来的运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。统计指标量,对总体统计指标量进行估计。假设检验:假设检验:又称显著性检验,是指由样本间存在的又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出差别对样本所代表的总体间是否存在着差别做出判断。判断。39简要回顾统计分析统计分析统计描述统计描述统计推断统计推断参数估计参数估计假设检验假设检验Example分类分类资料资料率、比、构成比率、比、构成比总体率的可信区间总体率的可信区间

17、2 2检验、检验、u u检验检验40主要内容主要内容o率的抽样误差和总体率的区间估计率的抽样误差和总体率的区间估计o率的率的u检验检验o 2检验检验41一、率的抽样误差和总体率的估计一、率的抽样误差和总体率的估计421、率的抽样误差与标准误、率的抽样误差与标准误o概念:概念:样本率样本率(p)和总体率和总体率()的差异称为的差异称为率的率的抽样误差抽样误差(samplingerrorofrate),用用率的标准误率的标准误(standarderrorofrate)度量。度量。o1如果总体率如果总体率未知,用未知,用样本率样本率p估计估计43o率的标准误越小,说明率的抽样误差越小,率的标准误越小

18、,说明率的抽样误差越小,用样本推论总体时,可信程度越高。用样本推论总体时,可信程度越高。o例例某地随机抽取某地随机抽取500名儿童,乙肝感染率为名儿童,乙肝感染率为4.50%,求乙肝感染率的标准误。,求乙肝感染率的标准误。该地该地500名儿童乙肝感染率的标准误为名儿童乙肝感染率的标准误为0.93%。442、总体率的可信区间、总体率的可信区间o点估计:点估计:就是把样本率看作总体率;就是把样本率看作总体率;o区间估计:区间估计:按一定的概率,以样本信息按一定的概率,以样本信息来估计总体率所在的范围,即计算总体来估计总体率所在的范围,即计算总体率的率的1-置信区间。这里,置信区间。这里,一般取或一

19、般取或查表法:查表法:正态近似法正态近似法45查表法查表法o对于对于小样本资料小样本资料(n50),可根据样本阳性,可根据样本阳性例数例数X及样本例数及样本例数n,直接查二项分布参数,直接查二项分布参数的置信区间表,的置信区间表,o例例:某新药的毒理研究中,用某新药的毒理研究中,用20只小白鼠作只小白鼠作急性毒性实验,死亡急性毒性实验,死亡3只,估计该药急性致死只,估计该药急性致死率的率的95%可信区间。可信区间。从附表(根据二项分布原理制成)查得,在从附表(根据二项分布原理制成)查得,在n=20与与X=3纵列交叉处的数值为纵列交叉处的数值为338,即该,即该药急性致死率的药急性致死率的95%

20、可信区间为可信区间为3%38%46正态近似法正态近似法o条件:条件:当当n足足够大,大,p和和(1p)均不太小,且均不太小,且np和和n(1p)均大于均大于5时,样本率本率p的抽的抽样分分布近似服从正布近似服从正态分布。可用公式估分布。可用公式估计总体体率的置信区率的置信区间。o公式公式:(:(p-u sp,p+ u sp) 式式中中,u:标准准正正态分分布布曲曲线下下,双双尾尾面面积为时对应的的u界界值,当,当时,u;时,u。47例例 某地随机抽取某地随机抽取500名儿童,乙肝感染率名儿童,乙肝感染率为4.50%,估估计该地儿童乙肝感染率的地儿童乙肝感染率的95%可信区可信区间? o(p-u

21、 sp,p+ u sp) =(-,0.0093)=(2.68%,6.32%)o该地儿童地儿童95%乙肝患病率置信区乙肝患病率置信区间为(2.68%,6.32%)。48二、率的二、率的u检验检验49o样本率存在抽本率存在抽样误差,比差,比较两两样本的率本的率时,应作作假假设检验。o当样本例数当样本例数n较大,样本率较大,样本率p和和1p均不太均不太小,且小,且np和和n(1p)均大于均大于5时,时,样本率与样本率与总体率、两样本率间总体率、两样本率间差别进行比较时,可差别进行比较时,可采用采用u检验。检验。501、样本率与总体率的比较、样本率与总体率的比较o条件:条件:当样本率的分布近似服从正态

22、分布当样本率的分布近似服从正态分布时,样本率时,样本率p与已知总体率与已知总体率0的比较,可用的比较,可用u检验检验o公式:公式:式中,式中,0:总体率,一般为理论值、经验值或大:总体率,一般为理论值、经验值或大量观察得到的稳定值。量观察得到的稳定值。51例例4.6 根据以往根据以往经验,一般胃,一般胃溃疡患者中有患者中有20%发生生胃出血症状。某医院胃出血症状。某医院观察察65岁以上以上溃疡病患者病患者152例,例,有有31.6%的患者出的患者出现胃出血症状。胃出血症状。问老年人老年人溃疡病病患者是否容易患者是否容易发生胃出血?生胃出血?o1)建立假设,确定水准建立假设,确定水准52o2)计

23、算)计算u值值53o3)确定)确定P值,做出结论值,做出结论542、两样本率的比较、两样本率的比较o条件:条件:两两样本含量本含量n1与与n2均均较大;两大;两样本率本率p1、(1p1)及及p2、(、(1p2)均不太小;如均不太小;如n1p1、或、或n1(1p1)及及n2p2、或、或n2(1p2)均均大于大于5时,可时,可采用正态近似法。采用正态近似法。o公式:公式:式中,式中,p1和和p2:分别为两个样本率;:分别为两个样本率;Sp1-p2:两率之差的标准误;:两率之差的标准误;Xl和和X2:分别表示两样本发生某现象的观察单位数。分别表示两样本发生某现象的观察单位数。55例例4.7调查两个城

24、市的甲状腺肿患病率,其中甲市调查两个城市的甲状腺肿患病率,其中甲市调查调查3315例,甲状腺肿患病率为例,甲状腺肿患病率为1.78%,乙市调查,乙市调查3215例,患病率为例,患病率为5.60%,问两个城市甲状腺肿患,问两个城市甲状腺肿患病率有无差别?病率有无差别?1)建立假设,确定检验水准)建立假设,确定检验水准562)计算)计算u值值57o3)确定)确定P值,做出结论值,做出结论58o当样本量当样本量不大不大,或,或几个率几个率进行比较时进行比较时 2检验检验o两样本率的比较除可用两样本率的比较除可用u检验,还可检验,还可采用采用 2检验,且检验,且=1时,时,u2= 2 。59三、三、

25、2检验检验60o用途:用途:推断两个总体率或推断两个总体率或构成比构成比之间有无差别之间有无差别多个总体率或构成比之间有无差别多个总体率或构成比之间有无差别多个样本率比较的分割多个样本率比较的分割两个分类变量之间有无关联性两个分类变量之间有无关联性频数分布拟合优度的检验。频数分布拟合优度的检验。o检验统计量检验统计量:o应用:应用:计数资料计数资料61一、一、 2检验基本思想检验基本思想oFor a given phenomenon, the chi-square test compares the actualfrequencies (A) with the theoreticalfrequ

26、encies(T).实际频数实际频数(A) :observedfrequencies理论频数理论频数(T).:calculatedfromsomehypothesis.62oSupposeyoutossacoin100timesH:40timesT:60timesoIfyouhypothesizethatthecoinisfair,theoretical:50timeseach.63oWhethertheHypothesisistrue?ComparetheA with the T.Iftheyarequitedifferent,thenthetheorymightnotbetrue;Othe

27、rwise,thetheoryisacceptable.64oWhether they are quite different?whetherthedeviationsbetweenAandTaresignificant.Deviations=65o基本公式基本公式:A:实际频数,如四个基本数据;:实际频数,如四个基本数据;T:理论频数,是根据检验设:理论频数,是根据检验设,且用,且用合并率合并率来估计而定的。来估计而定的。66 2 -distribution,df=16.833.84 2valueProbability distribution for the statistic, when

28、 the sample sizes and the theoretical frequencies are not too small.67oPvalueSupposethedeviationsarenotsignificant,orthereisnodifferencebetweentheAandT,theprobabilitythatwegetthevalueof 2.Withdf=1,theprobabilitythatwegetthevalueof3.84is0.05.68Supposethedeviationsarenotsignificant,orthereisnodifferen

29、cebetweentheAandT,theprobabilitythatwegetthevalueof 2islessthan0.05.Impossible!Sothedeviationsaresignificant.Rejectthehypothesis.69oWhetherthecoinisfair?hypothesis that the coin is fair, 2=443.8470c c2 20.05,10.05,1df=1=1卡方界值表卡方界值表p12271 2值反映了实际频数与理论频数的吻值反映了实际频数与理论频数的吻合程度合程度o若检验假设若检验假设H0:1=2成立,四个格子的

30、实成立,四个格子的实际频数际频数A 与理论频数与理论频数T 相差不应该很大,即相差不应该很大,即统计量统计量不应该很大。不应该很大。o如果如果值很大,推断值很大,推断A与与T相差太大,从相差太大,从而怀疑而怀疑H0的正确性,继而拒绝的正确性,继而拒绝H0,接受其,接受其对立假设对立假设H1,即,即12。o与相应自由度的界值比较与相应自由度的界值比较72o四格表资料的四格表资料的 2检验检验o配对设计四格表资料配对设计四格表资料 2检验检验o行行列表资料列表资料 2检验检验二、二、卡方检验类型卡方检验类型731、四格表资料的、四格表资料的 2检验检验o什么是四格表资料?什么是四格表资料?2个率或

31、构成比的资料,也叫个率或构成比的资料,也叫2行行2列表列表74理论频数由下式求得:理论频数由下式求得:TRC 为第为第R 行行C 列的理论频数列的理论频数 nR 为相应的行合计为相应的行合计 nC 为相应的列合计为相应的列合计 n为总样本量为总样本量T11T1275四格表检验步骤四格表检验步骤o建立假设,确定检验水准建立假设,确定检验水准n计算计算 2值值76o确定确定P值,做出结论值,做出结论6.830.053.840.0177四个表专用公式四个表专用公式78四个表四个表 2值的校正值的校正o不校正不校正:n40,且全部,且全部T5时时o校正校正:当:当n40,但有任一格子但有任一格子1T5

32、时时o确切概率:确切概率:当当n40或或T40,且全部,且全部T5时时o校正校正:当:当n40,但有任一格子但有任一格子1T5时时o当当n40或或T40b+c40,校正校正84例例4.8为比较两种检验方法中和法和血凝法检测关节痛病人为比较两种检验方法中和法和血凝法检测关节痛病人的抗的抗“O”结果,观测结果,观测105例关节痛患者,结果见表例关节痛患者,结果见表4-11,问,问两种检验结果有无差别?两种检验结果有无差别?8586多个样本率比较时,有多个样本率比较时,有R R行行2 2列,称为列,称为R R 2 2表;表;两个样本的构成比比较时,有两个样本的构成比比较时,有2 2行行C C列,称列

33、,称22C C表;表;多个样本的构成比比较,以及双向无序分类资料多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为关联性检验时,有行列,称为R R C C表。表。3、行、行列表资料列表资料 2检验检验87检验统计量式中,式中,n:总例数;:总例数;ARC::第第R行行C列的实列的实际频数;际频数;nR、nC:分别为行、列合计数。:分别为行、列合计数。88例例4.9某医院研究急性白血病与慢性白血病患者的某医院研究急性白血病与慢性白血病患者的血型构成情况有无不同,资料见表血型构成情况有无不同,资料见表4-12,问两组差,问两组差别有无统计学意义别有无统计学意义。89901行列表中

34、的各格行列表中的各格T1,并且,并且1T5的格子数的格子数不不宜超过宜超过1/5格子总数格子总数,否则可能产生偏性。处理方法,否则可能产生偏性。处理方法有三种有三种:增大样本含量增大样本含量将理论频数太小的行或列与性质相近的邻行将理论频数太小的行或列与性质相近的邻行或邻或邻列合并;列合并;删去理论频数太小的格子所对应的行或列删去理论频数太小的格子所对应的行或列。行行列表资料列表资料2检验的注意事项检验的注意事项912当多个样本率当多个样本率(或构成比或构成比)比较时,如结论比较时,如结论为拒绝检验假设,只能认为各总体率或总为拒绝检验假设,只能认为各总体率或总体构成比之间差别有统计学意义,但并不体构成比之间差别有统计学意义,但并不能说明它们彼此之间都有差别,或某两者能说明它们彼此之间都有差别,或某两者之间有差别。之间有差别。92掌握掌握o常用相对数指标常用相对数指标构成比,率,比构成比,率,比o率的标准化法率的标准化法基本思想,计算方法基本思想,计算方法o卡方检验卡方检验四格表资料的卡方检验四格表资料的卡方检验配对资料的卡方检验配对资料的卡方检验93Thank you!94

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号