卡方检验()

上传人:101****457 文档编号:91982780 上传时间:2019-07-05 格式:PPT 页数:72 大小:400.50KB
返回 下载 相关 举报
卡方检验()_第1页
第1页 / 共72页
卡方检验()_第2页
第2页 / 共72页
卡方检验()_第3页
第3页 / 共72页
卡方检验()_第4页
第4页 / 共72页
卡方检验()_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《卡方检验()》由会员分享,可在线阅读,更多相关《卡方检验()(72页珍藏版)》请在金锄头文库上搜索。

1、第六章 2 检 验,一、2分布的定义,2分布是从正态分布派生出来的一个连续型分布,与正 态分布和t分布关系密切。下面的定理清楚地表明了其间的关 系。 定理1: 设Z1,., Zn 是n 个独立的标准正态变量N(0 1), 则其平方和 服从自由度为n的2 分布。 推论1: 标准正态变量Z的平方服从自由度为1的2 分 布。即:Z2 =2 (1) 在定理中令n=1 即得此推论。,二、2分布的性质,1、2 分布的概率密度函数f(2 ,)的图形见下图。 特点: (1) 自由度 越大,曲线越趋近于对称; (2) 当自由度,2 分布趋向正态分布。,2、若 2 ,则 E(X)= , Var(X)=2 3、2

2、分布具有可加性。 若 X1 2 X2 2 , 且 X1 与 X2 独立, 则(X1+X2) 2,检验的基本思想 以两样本率比较的检验为例,介绍 检验的基本思想。 分布是一种连续型分布 分布的形状依赖于自由度的大小, 当自由度2时,曲线呈L型;随着的增加,曲线逐渐趋于对称; 当自由度时, 分布趋向正态分布。 分布的具有可加性。,有时为方便用a、b、c、d分别为四格表中四个实际频数,1.独立性假设与理论频数计算 在对22表作统计处理之前,通常都有一个笼统的检 验假设,即属性A与B 相互独立。为便于理解这个独立性假 设,不妨给上表赋予实际内容。以研究吸烟与肺癌的关系 为例,设 A 代表“吸烟与否”,

3、 A1=“吸烟”, A2=“不吸烟”, B 代表“患肺癌与否”,B1=“患肺癌”, B2=“未患肺癌”。 于是,A与B 相互独立,就意味着吸烟与肺癌无关联。,吸烟与不吸烟患者患肺癌的概率应当相等, 即 P(B1/A1)= P(B1/A2)=P(B1)=a+c/n 而 吸烟者出现的概率 P(A1)= a+b/n, 不吸烟者出现的概率 P(A2)= c+d/n, 故 吸烟者同时患有肺癌的概率为: P(A1 B1)= P(A1) P(B1/ A1) 公式 P(A1 B1)= P(A1) P(B1)=(a+b)/n(a+c)/n,故在前述独立性假设检验的前提下,与观察频数a对应的理论频数为: 式中TR

4、C为第R(row)行、第C(column)列的理论频数,nR为相应行的合计,nc为相应列的合计,n为总例数.,基本公式(亦称Pearson ),值反映了实际频数与理论频数的吻合程度,其中 反映了某个格子实际频数与理论频数的吻合程 度。若检验假设 成立,实际频数与理论频数的差值小, 则 值也会小;反之,若检验假设不成立,实际频数与理 论频数的差值会大,则 值也会大。 值的大小还取决于 个数的多少(严格地说是自由度的大小)。,K.Pearson (1899)提出的拟合优度检验是用来检验实际观察数于依照某种假设或模型计算出来的理论数之间的一致性,以便判断该假设或模型是否与观察数相配合。 包括两种类型

5、: 1、检验观察数与理论数之间的一致性。 2、通过检验观测数与理论数之间的一致性来判断 事物之间的独立性。 Pearson 拟合优度(goodness of fit test )2 检验,由于各 皆是正值,故自由度愈大, 值也会愈大;所以只有考虑了自由度的影响, 值才能正确地反映实际频数和理论频数的吻合程度。 检验时,要根据自由度查界值表。当 时, 拒绝 ,接受 ;当 , 时,尚没有理由拒绝 。,检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,自由度(df)=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值. 自由度=(行数-1)(列数-

6、1),自由度,22 表的计算 (1) 当n40, Tij 5的条件下 可用下列简化公式,(1) 四格表 检验,例1 工农业高血压患病率的比较(50岁以上男性),首钢调查50-59岁男性工人1281人、高血压患者386人,患病率为30.13%。石景山区农民387人,血压血患者65人,患病率为16.80%,从事工农业生产的男性患病率有无差别。,解: 建立检验假设 H0:1 =2 (工人与农民的总体患病率相同) =0.05 估计总体某现象的发生或存在的概率,假定高血压的发生和这两种工种众彼此独立无关,因此,这两组资料是一总体中的两个随机样本,估计 总体患病率= 451/1668 =0.2704 未患

7、率= 1217/1668=0.7296, 计算检验统计量 2 值 查 2 分布界值表,作出统计结论。 d.f = (r-1)(c-1)=1; 故按 p0.01 水准拒绝Ho 接受H1 。 结合具体问题作出专业结论:不同职业的高血压患病率极显著意义,工人的高血压患病率显著高于农民。,应用简化公式计算:,(2) n40, 但有1 Tij 5时,需对上述公式进行连续性校正。,2 界值表是根据连续性的理论分布计算出来的,但原始数据属分类资料是不连续的,由此计算的2 值也是不连续的,特别是在自由度为1的四格表时,用以上方法计算的2 值表查2 界值表,所得概率偏低。另一方面,由于理论数小,分数值就大,最后

8、使2值变得较大,易导致假阳性错误。,例2 某医院为了探索导致手术切口感染的原因,怀疑手术时间长短可能是一个危险因素。于是,收集了305例手术患者的情况列于下表,问手术时间长短对患者切口是否感染有无影响?,1. 建立检验假设 (H0: 手术长短与切口感染与否 互相独立, 或两种手术时间所对应的切口感染 率相等) =0.05 2. 计算检验统计量2 值 查2 分布界值表,作出统计结论 4. 结合具体问题作出专业结论 :尚不能认为手术时间的长短是导致切口感染的一个危险因素。,特例:,对240例心肌梗塞患者治疗24小时内的死亡情况进行观察,198例用复方丹参注射液静滴治疗,死亡11例;42例未用复丹参

9、注射液静滴治疗,死亡6例,问两组病死率相差是否显著?,H0:1 =2 (用不用丹参死亡率相同) 0.05,1 P0.05 否定原假设 结论为:使用丹参可以降低死亡率。,因为本例T22=1742/240=2.925 即 1T22 5 , 同时df=1 ,n40,按原理要求应进行校正计算, 0.05,1 P 0.05 无显著性意义。,即不能得出使用丹参注射液降低死亡率的结论。,(3) n40,或T1,需用四格表资料的 Fisher确切概率(Fisher probabilities in 22 table)。 各组合的概率pi 服从超几何分布,其和为1。可按下列公式计算,某医师为研究乙肝免疫球蛋白预

10、防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见下表。,问两组新生儿的HBV总体感染率有无差别?,基本思想 在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率pi ,再按检验假设用单侧或双侧的累计概率p, 依据所取的检验水准做出推断。 1各组合概率的计算 在四格表周边合计数不变的条件下,表内4个实际频数a,b,c,d变动的组合数共有“周边合计中最小数+1”个。如上例,表内4个实际频数变动的组合数共有9+1=10个,依次为:,设现有样本四格表中的交叉积差a*d*-b*c*=D*,其概率为p*,其余情况下的组合四格表的交叉积差记

11、为Di,概率记为Pi。 (1)单侧检验 若现有样本四格表中D*0,须计算满足DiD* 和PiP*条件的各种组合下四格表的累计概率。若D*0,则计算满足DiD*和PiP*条件的各种组合下四格表的累计概率。,(2)双侧检验 计算满足DiD*和PiP*条件的各种组合下四格表的累计概率。 若遇到a+b=c+d或a+c=b+d时,四格表内各种组合的序列呈对称分布,此时按单侧检验规定条件只计算单侧累计概率,然后乘以2即得双侧累计概率。,ad-bc= -198 ad-bc= -165 ad-bc= -132 ad-bc =-99 ad-bc= -66,ad-bc= -33 ad-bc=0 ad-bc=33

12、ad-bc=66 ad-bc= 99,二、检验步骤 本例 ,宜用四格表资料的Fisher确切概率法直接计算累计概率。检验步骤为:,Fisher确切概率法计算表,P0.05。按=0.05检验水准,不拒绝H0, 结论: 尚不能认为预防注射与非预防的新生儿HBV的 总体感染率不等。,(三) 配对四格表资料的2检验,属于配对设计的两组频数分布的2检验。这类问题的原始数据可以表示为表2所示的四格表形式。 表1和表2的区别仅在设计上,表1中左边一列是两个独立样本,行合计是事先固定的;而表2这里的“两份样本” 互不独立,样本量都是n,是固定的,而行合计与列合计却是事先不确定的。 常用于:1、比较两种处理方法

13、的阳性率的差别 2、检验两种方法的结果的相关性,变量1的阳性率变量2的阳性率= 可见,两个变量阳性率的比较只和b、c有关,而与a、d无关。,H0:B=C,即两种方法的总体检测结果相同 H1:BC,即两种方法的总体检测结果不相同 若H 0 成立,变量1与变量2所示的结果不一致的两个格子理论频数都应该是 。由2检验基本思想得,2统计量的计算公式为 当b+c40时, 需对上式校正, 校正公式为,例题:,某市疾病预防控制中心用荧光抗体(甲法)和常规培养基(乙法)两种检测方法测定了249分食品检样中的沙门菌,检测结果见表。荧光抗体法的检出率为77.11%,常规培养基法的检出率为67.87%。试问两种方法

14、的检测结果是否有差别?,单一样本按两种处理交叉分类的配对设计资料,每种处理的观察结果只有阴性、阳性两种可能。从配对结果看,共有4种情况; 两种方法检测结果均为阳性(甲+乙+); 两种方法均为阴性(甲-乙-); 甲方法为阳性而乙方法为阴性(甲+乙-); 乙方法为阴性而乙方法为阳性(甲-乙+)。 这类资料有以下两种分析目的,分析方法各异。,一、两种处理方法的阳性率比较,H0:两种方法的总体阳性检出率相同 H1:两种方法的总体阳性检出率不同 =0.05 查界值表,得P0.05,按=0.05水准拒绝H0,接受H1,可以认为两种方法的阳性检出率不同,荧光抗体法的阳性检出率高于常规培养基法。,二、两种处理

15、结果的关联性分析,此类设计,如果分析时考虑两种处理间有无关系或相互独立时,可按每个对象分别按两种处理而得到的结果分组,用一般四格表的处理办法。 H0:两种处理方法的结果无关 H1:两种处理方法的结果有关 =0.05 查界值表,得P0.01,按=0.05水准拒绝H0,接受H1,可以认为两种方法的检测结果具有相关性,即如果荧光抗体法的阳性检出率高,常规培养基法也高。,(2) RC表资料的2检验,RC表又称为行列表, 其检验用于多个样本率的比较、两个或多个构成比的比较、以及双向无序分类资料的关联性检验。 基本数据有三种情况: 多个样本率比较时,有R行2列,称为R2表; 两个样本的构成比比较时,有2行R列,称2R表; 多个样本的构成比比较,以及双向无序分类资料关联性检验时,有R行C列,称为RC表。,行列表资料的 检验仍可用Pearson 公式, 化简后得行列表检验的专用公式: 但在使用时须注意,简化计算公式只有在所有Tij均大于5的情况下使用。若出现一个理论数小于1的格子,或1T5的格子数超过总格子数的1/5,都不宜使用上述方法,应进行适当的处理。,处理的方法 继续观察,适当扩大样本量。 将邻近有意义的(或性质相同)分类进行合并,以适当 增加频数,满足计算公式

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 职业教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号