三种简单相关分析与SAS实现幻灯片

上传人:E**** 文档编号:89745059 上传时间:2019-05-31 格式:PPT 页数:58 大小:692KB
返回 下载 相关 举报
三种简单相关分析与SAS实现幻灯片_第1页
第1页 / 共58页
三种简单相关分析与SAS实现幻灯片_第2页
第2页 / 共58页
三种简单相关分析与SAS实现幻灯片_第3页
第3页 / 共58页
三种简单相关分析与SAS实现幻灯片_第4页
第4页 / 共58页
三种简单相关分析与SAS实现幻灯片_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《三种简单相关分析与SAS实现幻灯片》由会员分享,可在线阅读,更多相关《三种简单相关分析与SAS实现幻灯片(58页珍藏版)》请在金锄头文库上搜索。

1、三种简单相关分析与SAS实现,医学统计学教研室 柳伟伟,相关,在生物医学科研与实践中,经常涉及两个变量之间的关系研究,以说明事物发生、发展及变化的原因或变量间依存变化的数量关系。 例如: 医学上人的身高与体重的关系、年龄与血压的关系等; 药物剂量与反应的关系等; 病程与疗效的关系。 相关与回归分析是研究这种关系的统计方法,属双变量分析(bivariate analysis)范畴。,相关分析的任务 说明客观事物或现象相互间数量关系的密切程度和方向,并用适当的统计指标表示出来。 而把客观事物或现象间的数量依存关系表示出来,则是回归分析所要解决的问题。,三种简单相关,1. Pearson直线相关,2

2、. Spearman秩相关,3. Kendall等级相关,Pearson直线相关,了解两个随机变量X与Y之间相关关系及其密切程度,可用直线相关分析方法。 直线相关(linear regression)又称简单相关,此方法适用于X和Y都服从正态分布的资料。,Pearson直线相关,直线相关的概念 直线相关的定量描述 相关系数的假设检验 相关系数的区间估计 直线相关分析的一般步骤 直线相关分析的注意事项,Pearson直线相关,1. 定义 如果两个随机变量中,当其中一个变量由小到大变化时,另一个变量也相应地由小到大(或由大到小)变化,并且其相应变化的散点图在直角坐标系中呈现直线趋势,则称这两个随机

3、变量存在直线相关。 推断两个随机变量是否存在直线相关关系以及描述这种相关关系大小的分析方法就是直线相关分析(linear correlation analysis),也称简单相关分析(simple correlation analysis)。,Pearson直线相关,直线相关图示,Pearson直线相关,直线相关分析的适用条件 (1) 两个变量均为服从正态分布的随机变量,即要求他们服从双变量正态分布; (2) 每对数据对应的点在直角坐标系中呈现直线趋势。,Pearson直线相关,2.直线相关的定量描述 相关系数的意义 在分析两个事物间的关系时,常常要了解两者间的数量关系是否密切。说明两个变量

4、间关系密切程度和方向的统计指标称相关系数,又称pearson相关系数,或积差相关系数。 样本相关系数用r表示,总体相关系数用表示。,Pearson直线相关,计算相关系数的基本公式是: 式中,lXX 、 lYY 分别表示X、Y 的离均差平方和, lXY 表示X与Y的离均差乘积和。,Pearson直线相关,相关系数的意义 相关系数的符号反映两变量间的相关方向: r0为正相关,r0为负相关 相关系数的绝对值反映两变量相关的密切程度: |r|越大,相关越密切。 r = 1 完全正相关 r = -1 完全负相关 r = 0 零相关,应该注意的是,r所表示的只是X与Y间的直线关系,若两变量间为曲线关系时,

5、即使所有的点都在曲线上,其r值也并不等于1。例如下图所示Y=x2的曲线,将各X值代入,得: X 0 1 2 3 4 Y 1 2 4 5 16,两变量的相关系数为0.933,Pearson直线相关,例 随机测量了13名8岁健康男童的体重与心脏横径,结果见下表。试进行直线相关分析。,Pearson直线相关,相关系数的计算 X=301.5 X 2 =7072.75 Y=116.3 Y 2 =1044.63 XY = 2713.65 lXX = X 2 (X)2/n =7.72.75-301.52/13 = 80.2692 lYY = Y 2 (Y)2/n =1044.63-116.32/13 = 4

6、.1923 lXY = XY (X)(Y)/n =2713.65-301.5116.3/13=16.3846,Pearson直线相关,相关系数的统计学意义检验 检验假设如下:,1. 直接查表法:求得 r 后,按 = n-2查r界值表。 本例,r=0.8932, P0.01,说明总体相关系数与0之间的差别有统计学意义,Pearson直线相关,2. t 检验 若H0成立,从 =0的总体中抽样,所得到的样本相关系数 r 呈对称分布(近似正态分布),此时可用 t 检验。,本例, = n-2 =11 按 = 11查t界值表,得P0.01 ,说明总体相关系数与0之间的差别有统计学意义,1,Pearson直

7、线相关,Pearson直线相关,相关系数的区间估计 从相关系数 不等于0的总体中抽样,样本相关系数的分布是偏态的。,Pearson直线相关,z 近似服从均数为 , 标准误为 的正态分布。,Z 变换,Pearson直线相关,将 r 变换为 z ; 根据 z 服从正态分布,估计 z 的可信区间; 再将 z 变换回 r 。,Pearson直线相关,直线相关分析的一般步骤 1. 绘制散点图,观察两变量的变化趋势; 2. 若散点图呈直线趋势,计算相关系数; 3. 对相关系数进行假设检验; 4. 必要时对总体相关系数进行区间估计。,Pearson直线相关,直线相关分析的注意事项 1. 直线相关分析要求两个

8、变量均为服从正态分布的随机变量,实际数据要满足这一前提。 2. 分析前必须先作散点图,变化不呈直线趋势时不宜作直线相关。 3. 要注意相关的有效范围。相关系数的意义仅限于原资料中两个变量值的实测范围,超出这一范围就不一定保持现有的直线关系了。,Pearson直线相关,4. 作相关分析时,必须考虑异常点的影响。 5. 相关分析要有实际意义,两变量相关并不代表两变量间一定存在内在联系,相关关系不一定是因果关系。有时两个变量虽然存在直线关系,但可能是同时受另外一个因素的影响,二者均随另一个因素的变化而变化,它们本身却不一定存在因果关系。 年龄 工龄越长 血压越高,Pearson直线相关,6. 分层资

9、料不宜盲目合并进行相关分析。只有确定各层研究对象具有同质基础才能合并。 7. 不要把假设检验中相关显著性大小理解为相关程度的大小。若经假设检验推断 0,说明两变量间存在一定的直线关系。相关的密切程度可参照下面标准判断:|r|0.7为高度相关。,等级相关,1. 定义: 用双变量等级数据作直线相关分析 2. 适用范围: (1)不服从双变量正态分布 (2)总体分布类型未知 (3)原始数据用等级表示,等级相关,Spearman秩相关 Kendall等级相关,Spearman秩相关,Spearman秩相关 对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计

10、算秩相关系数。 通过秩相关系数rs来说明两个变量间相关关系的密切程度,Spearman秩相关,设有n例观察对象同时取得两个测定值(Xi,Yi),分别按Xi、 Yi(i=1,2,3,n)的值由小到大编秩为1,2,3 ,n。用RXi表示Xi的秩次, RYi表示Yi的秩次。因为n是固定的,所以总秩相等即,平均秩,但Xi的秩顺序不一定与Yi的秩顺序相同,故所对应的RXi与RYi不一定相等。,Spearman秩相关,只要求出 就可按以下公式计算秩相关系数rs,令同一观察对象的两个秩次差为:,得到秩相关系数的简化公式为:,式中n为 观察例数。rs的取值为| rs |1。,Spearman秩相关,相同秩次较

11、多时,TX(或TY)(t3t)/12,t为X(或Y)中相同秩次的个数。,例 某地方病防治所随机抽样调查了某县10个村饮水中氟含量与氟骨症患病率间的关系,饮用水中氟含量(X )与氟骨症患病率(Y ),Spearman秩相关,Spearman秩相关分析步骤: 1.编秩 将各Xi由小到大编秩得RXi,列于表中第(3)列。采用相同的排秩规则将Yi的记分列于表中第(5)列RYi。当遇到相等的测定值时则用平均秩。如Y2=Y4=22.64,按编秩为3和4,这两个测定值的平均秩为(3+4)/2=3.5,故有RY2= RY4=3.5。 2.秩次差 求每例观察对象的秩次差 列于表中第(6)列,应有 。本例的合计为

12、 表示排秩无误,可作核对之用。,Spearman秩相关,3.计算秩次之差的平方并求和 计算出的 列于表中第(7)列。本例有,4.计算秩相关系数rs 本例 代入简化公式中得到:,简化公式适用于资料中取相同秩次的例数不多的情况,但如果取相同秩次的例数较多时,就使得计算的结果偏差较大,这时应用原始公式计算秩相关系数。,Spearman秩相关,Spearman秩相关系数的假设检验 对总体相关系数的假设检验的方法有两种: 1.查表法 当n50时,查“rs界值表”进行假设检验。 2.计算法 当n50时,按下式计算检验统计量u:,查标准正态分布表,确定P 值。,Spearman秩相关,对前面例子得到的秩相关

13、系数进行假设检验 检验步骤: 1.建立无效假设和确定检验水准 H0:s=0,即饮用水中氟含量与氟骨症患病率间无相关关系 H1:s0,即饮用水中氟含量与氟骨症患病率间有相关关系=0.05 2.计算秩相关系数rs=0.918,Spearman秩相关,3.确定P 值并下结论: 查表得到rs,0.05/2(10)=0.648,小于样本统计量rs=0.918,故按=0.05水准拒绝H0,判断rs系来自s0的总体,从专业上分析,可以认为饮水中氟含量与氟骨症患病率之间存在着正相关关系。,Kendall等级相关,Kendall等级相关 当两个变量都用等级来表示时,用一个统计量来衡量它们的等级不一致的情况。 K

14、endall等级相关系数也在1之间变动。完全不相关时,=0。它不仅可对两个变量作等级相关分析,而且可对多个变量作等级相关分析,Kendall等级相关,Kendall等级相关的分析步骤: 1.先将第一个变量(x)和第二个变量(y)由小到大列出等级,数值相同时取平均等级。 2.把两变量的等级列出,以x的等级为顺序排列。 3.计算Kendall等级相关系数,例 下表是一些环状化合物的相对分子质量与用药后大鼠24h胆汁排泄量资料,要研究相对分子质量与胆汁排泄量有无关系。,环状化合物的相对分子质量与大鼠24h胆汁排泄量关系,Kendall等级相关,1.将第一个变量即相对分子质量(x)和第二个变量即胆汁排

15、泄量(y)由大到小列出等级,数值相同时取平均等级见上表等级列。 2.把两变量的等级列成下表形式,即以x的等级为顺序排列。,Kendall等级相关计算表,Kendall等级相关,表中第1,2行是从第一张表中转抄过来的,但顺序是按x的等级从小到大排列的。第3行是对应于每一个排泄量(y)等级的右边的更小(包括相等)的等级个数。 例如,对于y的等级2,在它右边只有一个等级(即1)比它小,所以在等级2的下面写1,也就是第3行第一个数字是1.而对应于第2行的等级1,在它右边没有更小的等级,所以在它下面即第3行第2个数字为0,其余以此类推。,Kendall等级相关,第4行则是应对于该列的y的等级Ry右边更大的等级个数。第3行的合计为11,记为负的;第4行的合计为34,记为正的。两者的代数和称为S,即S=34-11=23.,Kendall等级相关,3.计算Kendall等级相关系数,实际上分母就是等级对子数,例中共有10个数,则对子数为:,Kendall等级相关,从S的计算过程可知,S值最小是 ,最大是 ,因此值一定在-1和+1之间。 完全负相关是-1, 完全正相关是+1, 不相关则为0。,Kendall等级相关,当两变量等级呈完全正相关时,计算S值过程如下表所示,假设的完全正相关资料计算S值,从表中可以看出S=450=45,Kendall等级相关,当两变量等级呈完全负相关时,计算S值过程如下表

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号