分类数据的统计分析

上传人:艾力 文档编号:36824143 上传时间:2018-04-03 格式:PDF 页数:113 大小:684.27KB
返回 下载 相关 举报
分类数据的统计分析_第1页
第1页 / 共113页
分类数据的统计分析_第2页
第2页 / 共113页
分类数据的统计分析_第3页
第3页 / 共113页
分类数据的统计分析_第4页
第4页 / 共113页
分类数据的统计分析_第5页
第5页 / 共113页
点击查看更多>>
资源描述

《分类数据的统计分析》由会员分享,可在线阅读,更多相关《分类数据的统计分析(113页珍藏版)》请在金锄头文库上搜索。

1、分类数据的统计分析分类数据的统计分析开设目的开设目的?医学科研中分类数据多见医学科研中分类数据多见?常用的分类数据的统计分析方法常用的分类数据的统计分析方法?软件实现过程软件实现过程讲授内容讲授内容?列联表中变量关联列联表中变量关联(association)的假设检验的假设检验 ? ? 22表表 ? ? 行列表行列表 ? ? 分层分层2 2表表 ? ? CMH方法方法?解释变量与反应结果间联系的统计模型解释变量与反应结果间联系的统计模型 ? ? LOGISTIC回归模型回归模型 ? ? Poisson回归模型回归模型 ? ? 对数线性模型对数线性模型成绩评定成绩评定?到课次数到课次数(20%)

2、?平时作业平时作业(30%)?期终测验期终测验(50%)参考资料参考资料?分类数据的统计分析及分类数据的统计分析及SAS编程编程?Categorical Data Analysis Using the SAS System?SAS-Base and SAS-STAT Users Guide _Version 8?SPSS 使用教程使用教程分类数据定义分类数据定义分类数据是指分类数据是指反应变量反应变量(应变量应变量)为分类变 量,而解释变量为分类变 量,而解释变量(自变量自变量)可是分类变量或连续 变量。可是分类变量或连续 变量。?列联表中变量关联列联表中变量关联(association)的假

3、设检验的假设检验?解释变量与反应结果间联系的统计模型。解释变量与反应结果间联系的统计模型。分类反应变量的尺度分类反应变量的尺度?分类尺度分类尺度: 分类尺度是两种可能的结果分类尺度是两种可能的结果?顺序尺度顺序尺度: 结果不止两种可能性,而且有顺 序关系结果不止两种可能性,而且有顺 序关系?离散计数离散计数: 结果本身是离散计数结果本身是离散计数?名义尺度名义尺度: 结果多于两类,而类别之间并没 有顺序关系结果多于两类,而类别之间并没 有顺序关系?分组计数分组计数: 数据本身是连续数据,经分组后, 反应变量为在不同组中的例数。数据本身是连续数据,经分组后, 反应变量为在不同组中的例数。分类数据

4、分析策略分类数据分析策略? ? 假设检验 对建立的一个关于联系假设检验 对建立的一个关于联系(association)的 假设进行检验,说明列联表的行与列之间是否 有关。的 假设进行检验,说明列联表的行与列之间是否 有关。 ? ? 建立模型 用建立模型的方法可求得各参数值,说明 各因素的作用。通常用最大似然估计或加权最 小二乘法估计。建立模型 用建立模型的方法可求得各参数值,说明 各因素的作用。通常用最大似然估计或加权最 小二乘法估计。列 联 表列 联 表一般,若总体中的个体可按两个属性一般,若总体中的个体可按两个属性A与与B分类,分类, A有有r个等级个等级A1,A2,Ar,B有有c个等级个

5、等级B1,B2, Bc,从总体中抽取大小为,从总体中抽取大小为n的样本,设其中有的样本,设其中有nij个个 体的属性属于等级个个 体的属性属于等级Ai和和Bj,nij称为频数,将称为频数,将rc个个nij 排列为一个排列为一个r行行c列的二维列联表列的二维列联表(contingency table), 简称, 简称rc表。若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维(分层)列联表。若每 次只分析两个定性变量时,可将资料整理为表。若所考虑的属性多于两个,也可按类似 的方式作出列联表,称为多维(分层)列联表。若每 次只分析两个定性变量时,可将资料整理为22表、表、 2 C表或表或

6、RC表的形式。表的形式。列 联 表列 联 表列联表分析的基本问题是,判明所考察的各变量 之间有无关联,即是否独立。列联表分析的统计分析 方法很多,所以在实际应用中,可根据下列几方面正 确的选用分析方法:列联表分析的基本问题是,判明所考察的各变量 之间有无关联,即是否独立。列联表分析的统计分析 方法很多,所以在实际应用中,可根据下列几方面正 确的选用分析方法:? ?定性变量个数定性变量个数? ?定性变量的属性(名义变量还是有序变量)、定性变量的属性(名义变量还是有序变量)、? ?频数(总频数和各网格上的理论频数)频数(总频数和各网格上的理论频数)? ?资料的收集方式(研究设计)。资料的收集方式(

7、研究设计)。? ?分析目的分析目的22 列联表资料22 列联表资料例 题例 题例例 1 在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。 结果疗效如下表所示, 试作统计分析。在研究老年慢性支气管炎的中草药疗效时,将病人随机分配到江剪刀草组和服麻片组。 结果疗效如下表所示, 试作统计分析。 组组 别别 无效无效 有效有效 合计合计 江剪刀草江剪刀草 263 70 333 胆麻片胆麻片 180 102 282 合合 计计 443 172 615 Pearson2 检验检验2 211()(1)(1)RCijij P ijijATRCT=基本公式基本公式由Karl Pear

8、son (1900)提出, 因此软件上常称这种检验为Pearson 2检验22 列联表列联表Pearson2 检验检验222 211()ijij P ijijATT=四格表四格表行变量列变量合计有无组行变量列变量合计有无组1n11n12n1+组组2n21n22n2+合计合计n+1n+2n1=ij ijn nTn+=四格表专用公式四格表专用公式可由可由基本公式基本公式推导出,直 接由各格子的实际频数(推导出,直 接由各格子的实际频数( a、b、c、d)计算可得四 格表专用公式:)计算可得四 格表专用公式:2 22222()()()()()()()()()()()()()()()()()()A T

9、 Tab acab bdac cdcd bdabcdabcdabcdabcdabcd ab acab bdac cdcd bd abcdabcdabcdabcd adbc=+ + + + +=+ + + + + + =基本公式:2 1;()()()()n ab cd ac bd=+四格表行变量列变量合计有无组四格表行变量列变量合计有无组1aba+b组组2cdc+ d合计合计a+cb+ dn连续性校正连续性校正2分布是一连续型分布,而行列表资料属离散型分布, 对其进行校正称为连续性校正分布是一连续型分布,而行列表资料属离散型分布, 对其进行校正称为连续性校正(correction for con

10、tinuity),又 称又 称Yates校正(校正(Yates correction,1934)。 当)。 当n40,而,而1T5时,用连续性校正公式 当时,用连续性校正公式 当n40或或T1时,用时,用Fisher精确检验精确检验(Fisher exact test )校正公式校正公式:2 2(0.5)cA TT=,(也适合其它行 列表资料))()()()2/(2 2 dbcadcbannbcadc+=Mantel-Haenszel 2 (called the Mantel-Haenszel test for linear associationor linear by linear ass

11、ociation chi-square)计算公式为在计算公式为在H0成立的条件下成立的条件下22列联表列联表Mantel-Haenszel 2(1959) 2 2111111()MHnm v=11 11n nmn+=1212 112(1)n n n nvn n+=处理结果处理结果12合计合计1n11n12n1+2n21n22n2+合计合计n+1n+2n似然比 似然比 2 (Wilks, 1938)计算公式为计算公式为22列联表列联表似然比 似然比 2 (Likelihood ratio chi-square)22 2112ln()ij Lij ijijAAT=Mantel-Haenszel 2

12、与与Pearson 2的关系的关系22 1PMHn n= 2统计量间的关系统计量间的关系Mantel-Haenszel 2与与Pearson 相关系数相关系数r 的关系的关系22(1)MHpnr=例 题例 题在研究老年慢性支气管炎的中草药疗效时, 将病人随机分配到江剪刀草组和服麻片组。研究结果如下表。试作统计分析。在研究老年慢性支气管炎的中草药疗效时, 将病人随机分配到江剪刀草组和服麻片组。研究结果如下表。试作统计分析。 组组 别别 无无 效有效有 效合效合 计计江剪刀草江剪刀草 263 70 333 胆麻片胆麻片 180 102 282 合合 计计 443 172 615 例 题例 题例例

13、2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将 78 例脑血管疾病患者随机分为两组,结果见下表。试作统计分析。例脑血管疾病患者随机分为两组,结果见下表。试作统计分析。 两种药物治疗脑血管疾病有效率的比较两种药物治疗脑血管疾病有效率的比较 组别组别 有效有效 无效无效 合计合计 胞磷胆碱组胞磷胆碱组 46 6 52 神经节苷酯组神经节苷酯组 18 8 26 合合 计计 64 14 78 配对四格表资料的配对四格表资料的 2检验检验1,) 1(2 402=+=0.8时,表明有极好的一致性。时,表明有极好的一致性。 Kappa值究

14、竟多大有实际意义,需要根据具体问题而定。值究竟多大有实际意义,需要根据具体问题而定。一致性一致性Kappa 值检验值检验(0,1)uNS= 1/2 21()(1)3eeijijeSPPn nnnPn+=+S1.9695%可信区间为可信区间为正态近似(渐近)为正态近似(渐近)为一致性一致性Kappa 值检验值检验Fleiss and Light developed a generalized version of kappa for more than two raters;Cohen also developed a “weighted kappa“ version to allow for

15、degrees of agreement rather than simple agree/disagree classification.例 题例 题例例 3 205 份标本分别接种于甲、 乙两种培养基, 共有份标本分别接种于甲、 乙两种培养基, 共有 4 种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表:种结果,即甲、乙都生长;甲生长乙不生长,乙生长甲不生长,甲及乙都不生长。试比较两种培养基的效果,结果如表: 两种培养基的效果比较两种培养基的效果比较 甲培养基甲培养基 乙培养基乙培养基 生长生长 不生长不生长 合计合计 生长生长 36 34 70 不生长不生长 0 135 135 合计合计 36 169 205 例 题例 题例例 6 采用两种方法对冠心病患者检查室壁收缩运动情况, 其列 联表的结果为:试作一致性分析。采用两种方法对冠心病患者检查室壁收缩运动情况, 其列 联表的结果为:试作一致性分析。 核素法病例数核素法病例数 对比法对比法 正常正常 减弱减弱 异常异常 合计合计 正常正常 58 2 3 63 减弱减弱 1 42 7 50 异常异常 8 9 17 34 合计 67 53 27 147 合计 67 53 27

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号