SAS的卡方检验(正式)

上传人:油条 文档编号:48449870 上传时间:2018-07-15 格式:PPT 页数:87 大小:656KB
返回 下载 相关 举报
SAS的卡方检验(正式)_第1页
第1页 / 共87页
SAS的卡方检验(正式)_第2页
第2页 / 共87页
SAS的卡方检验(正式)_第3页
第3页 / 共87页
SAS的卡方检验(正式)_第4页
第4页 / 共87页
SAS的卡方检验(正式)_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《SAS的卡方检验(正式)》由会员分享,可在线阅读,更多相关《SAS的卡方检验(正式)(87页珍藏版)》请在金锄头文库上搜索。

1、华中科技大学公卫学院 流行病与卫生统计系卡方检验卡方检验SASSAS应用应用学习目标 掌握四格表普通卡方检验和配对卡方检验方法以及相应的 SAS程序; 了解FREQ过程语句格式; 熟悉RC表资料的分类类型以及相应的统计检验方法; 掌握双向无序RC表资料检验以及SAS程序; 掌握单向有序RC表资料检验以及SAS程序; 掌握趋势卡方检验方法以及SAS程序; 掌握分层RC表的分析以及SAS程序;概述 前面已介绍了两个率比较的检验,在观察例数不 够大或拟对多个率进行比较时,检验就不适宜了 ,因为直接对多个样本率作两两间的检验有可能 增加第一类误差。2检验可解决此类问题。 卡方检验是用途很广的一种假设检

2、验方法,这里 我们主要学习它在分类资料统计推断中的应用, 包括:两个率或两个构成比比较的卡方检验;多 个率或多个构成比比较的卡方检验以及分类资料 的相关分析等。四格表资料 定性指标分为有序的(如:疗效分为“治愈、显效、好转 、无效、死亡”)和名义的(如:血型分为“O、A、B、 AB”型)类,对于每个受试者来说,有序指标的观 测结果只能是该有序指标若干等级中的级(如某人的疗 效为“显效”);名义指标的观测结果只能是该名义指标 若干标志中的个(如某人的血型为型),显然,无法 像处理定量指标那样去直接分析定性指标,故这类资料常 被整理成列联表的形式后再进行分析。 当表中只有个定性指标时,称为维列联表

3、;有个或 个以上定性指标时,称为多维列联表。常用R、C表示 维列联表的行数和列数,并称为RC表;当R=C=时 ,称为表(或四格表)。表看起来很简单, 但根据资料所具备的条件有许多不同的处理方法。四格表卡方检验的SAS程序 在SAS/STAT模块中FREQ、TABULATE和SUMMARY 等过程可用于分类资料的统计描述,其中FREQ过程兼具 统计描述和统计推断的功能,对分类变量计算频数分布, 产生从一维到n维的频数表和列联表;对于二维表,可进 行2检验,对于三维表,可作Mentel-Hanszel分层分析 。FREQ过程是SAS用于分析分类资料的一个常用过程。 本节将先向大家介绍FREQ过程的

4、语句及其格式。 FREQ过程的语句基本格式如下:Proc freq data= order= ;Table 分类变量*分类变量/ ;Weight 变量;Run;四格表卡方检验的SAS程序 DATA数据集:规定PROC FREQ语句使用的数据集; ORDERFREQ,按频数递减顺序排列;ORDER DATA,按数据集中出现的顺序排列;ORDER INTERNAL,按内部值排列(缺省);ORDER FORMATTED,按外部格式值排列; Table语句指定构成表格的变量和表格结构。表格的结构 由变量个数和变量排列顺序决定,一个table语句允许列 出多个表格结构。PROC FREQ过程中可有多条T

5、ABLES 语句,TABLES语句后可接多个表格请求式,每个请求式 可包含任何数量的变量,从而得到所需的表格。四格表卡方检验的SAS程序 如果TABLES语句缺省,则FREQ过程对数据集中的所有 变量都给出相应的一维频数表。不规定任何选项时,若需 某变量的一维频数,FREQ给出该变量每一水平的频数、 累积频数、频数的百分比和累积百分比;若需二维频数表 ,FREQ产生交叉分组列表,即包括各格的频数、总频数 的格百分数、行频数的格百分数和列频数的格百分数。 请求式由一个或多个用“*”连接起来的变量名组成。几 个变量可放在括号中,如: TABLES A*(B C);等价于TABLES A*B A*C

6、; TABLES (A-C)*D;等价于TABLES A*D B*D C*D;四格表卡方检验的SAS程序 下列选项可用于TABLES语句中“/”的后面: OUT数据集:建立一个包含变量值和频数计数的输出数 据集。如果TABLES语句中不止一个请求式,数据集的内 容相应于TABLES语句中最后一个请求。 CHISQ对每层作c2检验,包括Pearson c2、似然比c2和 Mantel-Haenszel c2。此外还给出与c2检验有关的关联 指标包括Phi系数、列联系数和Cramers V。对于22 表,给出Fisher精确概率。 AGREE 进行配对c 2检验。 EXACT 对大于22的列联表计

7、算Fisher精确概率。同时 也给出CHISQ选项的全部统计量。 四格表卡方检验的SAS程序 MEASURES对每层的二维表计算一系列关联指标及相应 的标准误,包括Pearson和Spearman相关系数,以及 Gamma和Kendall系数等。对于22表,还给出常用的 危险度指标及其标准误。 CMH 给出Cochran-Mantel-Haenszel统计量,可检验 在调整了TABLES语句中其它变量后,行变量与列变量之 间的关联程度。对于22表,FREQ过程给出相对危险度 估计及其可信区间,还给出各层关联度指标是否齐性的 Breslow检验。 ALL 给出CHISQ、MEASURES、CMH

8、所请求的全部统 计量。 ALPHAp给出检验水准。缺省为0.05。四格表卡方检验的SAS程序 EXPECTED给出期望频数。 DEVIATION给出每格的实际频数与期望频 数的差值。 CELLCHISQ给出每格对总c2的贡献,即 计算每格的(实际频数-期望频数)2/期望频 数。 CUMCOL给出累积列百分数。 NOFREQ不给出列联表中的格频数。 NOPERCENT不给出列联表中的格百分数 。四格表卡方检验的SAS程序 NOROW不给出列联表中各格的行百分数。 NOCOL不给出列联表中各格的列百分数。 NOCUM不给出频数表的累积频数和累积百分数。 NOPRINT不给出表格,但给出CHISQ、

9、MEASURES或 CMH等语句所指定的统计量。 Trend指令系统对2C频数表的C个百分率进行Cochran -Armitage趋势检验; WEIGHT语句:通常每个观察值提供数值1给频数计数, 当WEIGHT语句出现时,每个观察值提供的是该观察值的 加权变量值。该值必须非负,但可不必为整数。只能使用 一个WEIGHT语句,且该语句作用于所有的表。四格表卡方检验 理论频数,记为T。理论数的计算公式为:四格表卡方检验 卡方检验的统计量是2值,它是每个格子实际频 数A与理论频数T差值平方与理论频数之比的累计 和。每个格子中的理论频数T是在假定两组的发病 率相等的情况下计算出来的,故2值越大,说明

10、 实际频数与理论频数的差别越明显,两组发病率 不同的可能性越大。 例题 某医院欲比较异梨醇口服液(试验组)和 氢氯噻嗪+地塞米松(对照组)降低颅内压 的疗效。将200例颅内压增高症患者随机分 为两组。问两组降低颅内压的总体有效率 有无差别?连续性校正公式 2分布是正态变量的一种分布。设 是k个独立的标准正态变量,则 。2界值表就是根据这种连续性分布计算出来的 。2统计量计算公式实质上是正态近似法。分类 资料是间断性的,由此计算的2值不连续,尤其 自由度为1的四格表,求出的概率可能偏小,此时 需要对2值进行连续性校正,公式为 2检验的应用条件 连续性校正主要针对四格表资料,尤其理 论数较小时,连

11、续性校正不可忽略。 四格表2检验的应用条件为: 当n40且所有T5时,用普通的2检验 ,若所得,改用确切概率法; 当n40但有1T;TIME 生存时间变量*截尾指示变量(数字);TEST ;STRATA ;FREQ ;BY ;Run;非参数分析方法 SAS程序 DATA数据集:规定PROC FREQ语句使用的 数据集; METHOD=方法:指定估计生存率所用的方法; PL,要求用乘积极限法(即Kaplam-Meier法)估 计生存率并计算中位生存时间等,为缺省方法。 LT,要求用寿命表法估计生存率等。 INTERVALS=(初值 TO 终值 BY 步长) 只能在 指定分析方法为寿命表法时使用。

12、用寿命表法分 析时,程序会自动给定生存时间的区间。如果人 为规定生存时间的分组区间,则需用该选项指定 。步长的缺省值为1。非参数分析方法 SAS程序 WIDTH=宽度:指定用LT法的生存时间区间的宽 度。 PLOTS=绘图类型:要求输出生存分析图。可供 输出的图形有:S,对生存函数S(t)做图,横、 纵坐标分别为t、S(t)。LS:对-LOGS(t)做图, 横、纵坐标分别为t、-LOGS(t)。LLS:对 LOG(-LOGS(t)做图,横、纵坐标分别为 LOG(t)、LOG(-LOGS(t)。H:对风险函数 做图, 横、纵坐标分别为t、H(t)。非参数分析方法 SAS程序 NOTABLE:指令

13、不输出生存函数估计结果 ,只输出生存时间的截尾数据和完全数据 的个数以及散点图和检验结果。 TIME语句用于定义生存时间和截尾指示变 量。对截尾指示变量可以指定发生失效事 件的数值,默认失效事件用0来表示,截尾 事件用1来表示。非参数分析方法 SAS程序 STRATA语句定义生存率比较的分组变量,TEST 语句定义生存率比较的分组变量或协变量。 STRATA语句在这里的作用和BY语句类似,都是 要求按分组变量名列进行分析,在计算生存率时 各组分开计算。 TEST语句定义需检验的变量,即生存时间与该变 量是否有关,如果它后面定义的变量为数值变量 ,则把该变量当作协变量检验与生存时间的关系 。如果

14、它定义的为分组变量,则分组比较生存时 间有无差别。例题1生存率计算 为了比较不同手术方法治疗肾上腺肿瘤的疗效, 某研究者随机将43例病人分成两组,甲组23例、 乙组20例的生存时间(月)如下所示: 甲组:1,3,5(3),6(3),7,8,10(2 ),14+,17,19+,20+ ,22+,26+,31+,34 , 34+,44,59 乙组:1(2),2,3(2),4(3), 6(2) ,8,9(2),10,11,12,13,15,17,18 其中有“+”者是删失数据,表示病人仍生存或失 访,括号内为重复死亡数。试计算甲组的生存率 与标准误。例题2寿命表法 某研究者随访收集了某地男性心绞痛患

15、者2418例 ,试计算该地男性心绞痛患者的生存率及其标准 误。例题3log-rank检验 试比较甲、乙两种手术方式的生存率有无差别?Cox模型 像通常的回归分析一样,人们也希望能建立起生 存时间(因变量或反应变量)随危险因素(自变 量或协变量)变化的回归方程,以便对危险因素 的作用大小有一个全面的了解和掌握、并根据危 险因素的不同取值对生存概率进行预测。由于很 难获得准确的生存时间, 前述目的较难直接实现 。1972年Cox提出了比例危险模型,简称为Cox 模型。 由于此模型在表达形式上与参数模型相似 ,但在对模型中各参数进行估计时却不依赖于特 定的假设,所以又称为半参数模型。Cox模型 Cox模型是目前生存分析多因素预后评价中较好 的统计分析方法,医学上经常遇到“时间-反应” 类型资料。如生命现象生存期、疾病潜伏期、药 物试验的生效时间等。这种类型的资料可以用各 种参数或非参数方法进行分析,但都有一定的局 限性。Cox模型以半参数方式出现,适用于许多 分布未知的资料和多因素分析,可以在众多预后 因素共存的情况下,排除混杂因子的影响,提高 预后分析质量,并能处理截尾数据。此模型的适 用面很宽,在生存分析中占有特殊的地位。Cox模型 设是影响生存时间t的k个危险因素。设hi(t)为第i 名受试者在时刻

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号