三种简单相关分析与SAS实现

上传人:大米 文档编号:568635043 上传时间:2024-07-25 格式:PPT 页数:59 大小:556.50KB
返回 下载 相关 举报
三种简单相关分析与SAS实现_第1页
第1页 / 共59页
三种简单相关分析与SAS实现_第2页
第2页 / 共59页
三种简单相关分析与SAS实现_第3页
第3页 / 共59页
三种简单相关分析与SAS实现_第4页
第4页 / 共59页
三种简单相关分析与SAS实现_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《三种简单相关分析与SAS实现》由会员分享,可在线阅读,更多相关《三种简单相关分析与SAS实现(59页珍藏版)》请在金锄头文库上搜索。

1、三种简单相关分析与三种简单相关分析与SASSAS实现实现相关相关v在生物医学科研与实践中,经常涉及两个变量之在生物医学科研与实践中,经常涉及两个变量之间的关系研究间的关系研究,以说明事物发生、发展及变化的,以说明事物发生、发展及变化的原因或变量间依存变化的数量关系。原因或变量间依存变化的数量关系。 例如:n医学上人的身高与体重的关系、年龄与血压的关系等;n药物剂量与反应的关系等;n病程与疗效的关系。v相关与回归分析是研究这种关系的统计方法,属相关与回归分析是研究这种关系的统计方法,属双变量分析(双变量分析(bivariate analysisbivariate analysis)范畴。)范畴。

2、v相关分析的任务相关分析的任务 说明客观事物或现象相互间数量关系的密切说明客观事物或现象相互间数量关系的密切程度和方向,并用适当的统计指标表示出来。程度和方向,并用适当的统计指标表示出来。 而把客观事物或现象间的数量依存关系表示而把客观事物或现象间的数量依存关系表示出来,则是出来,则是回归分析回归分析所要解决的问题。所要解决的问题。三种简单相关三种简单相关1. 1. PearsonPearson直线相关直线相关2. 2. SpearmanSpearman秩相关秩相关3. 3. KendallKendall等级相关等级相关PearsonPearson直线相关直线相关v了解两个随机变量了解两个随机

3、变量X X与与Y Y之间相关关系及其之间相关关系及其密切程度,可用直线相关分析方法。密切程度,可用直线相关分析方法。v直线相关(直线相关(linear regressionlinear regression)又称简单)又称简单相关,此方法适用于相关,此方法适用于X X和和Y Y都服从正态分布都服从正态分布的资料。的资料。PearsonPearson直线相关直线相关直线相关的概念直线相关的概念直线相关的定量描述直线相关的定量描述相关系数的假设检验相关系数的假设检验相关系数的区间估计相关系数的区间估计直线相关分析的一般步骤直线相关分析的一般步骤直线相关分析的注意事项直线相关分析的注意事项Pears

4、onPearson直线相关直线相关1. 定义定义 如果两个随机变量中,当其中一个变量由小到大变如果两个随机变量中,当其中一个变量由小到大变化时,另一个变量也相应地由小到大(或由大到小)化时,另一个变量也相应地由小到大(或由大到小)变化,并且其相应变化的散点图在直角坐标系中呈现变化,并且其相应变化的散点图在直角坐标系中呈现直线趋势,则称这两个随机变量存在直线趋势,则称这两个随机变量存在直线相关直线相关。 推断两个随机变量是否存在直线相关关系以及描述推断两个随机变量是否存在直线相关关系以及描述这种相关关系大小的分析方法就是这种相关关系大小的分析方法就是直线相关分析直线相关分析(linear cor

5、relation analysis),也称,也称简单相关分析简单相关分析(simple correlation analysis)。PearsonPearson直线相关直线相关v直线相关图示直线相关图示完全正相关完全正相关完全负相关完全负相关正相关正相关负相关负相关零相关零相关零相关零相关零相关零相关零相关零相关PearsonPearson直线相关直线相关v直线相关分析的适用条件直线相关分析的适用条件 (1) (1) 两个变量均为服从正态分布的随机变量,两个变量均为服从正态分布的随机变量,即要求他们服从双变量正态分布;即要求他们服从双变量正态分布; (2) (2) 每对数据对应的点在直角坐标系

6、中呈现每对数据对应的点在直角坐标系中呈现直线趋势。直线趋势。PearsonPearson直线相关直线相关v2.2.直线相关的定量描述直线相关的定量描述 相关系数的意义相关系数的意义 在分析两个事物间的关系时,常常要了解两在分析两个事物间的关系时,常常要了解两者间的数量关系是否密切。说明两个变量者间的数量关系是否密切。说明两个变量 间关系密切程度和方向的统计指标称相关系数,间关系密切程度和方向的统计指标称相关系数,又称又称pearson相关系数,或积差相关系数。相关系数,或积差相关系数。 样本相关系数用样本相关系数用r r表示,总体相关系数用表示,总体相关系数用表表示。示。PearsonPear

7、son直线相关直线相关v计算相关系数的基本公式是:计算相关系数的基本公式是:v式中,式中,lXX 、 lYY 分别表示分别表示X、Y 的离均差平方和,的离均差平方和, lXY 表示表示X与与Y的离均差乘积和。的离均差乘积和。PearsonPearson直线相关直线相关v相关系数的意义相关系数的意义u 相关系数的符号反映两变量间的相关方向:相关系数的符号反映两变量间的相关方向: r0为为正相关,正相关,r0为负相关为负相关u 相关系数的绝对值反映两变量相关的密切程度:相关系数的绝对值反映两变量相关的密切程度: |r|越大,相关越密切。越大,相关越密切。 r = 1 完全正相关完全正相关 r =

8、-1 完全负相关完全负相关 r = 0 零相关零相关v应该注意的是,应该注意的是,r r所表示的只是所表示的只是X X与与Y Y间的直线关系间的直线关系,若两变量间为曲线关系时,即使所有的点都在曲若两变量间为曲线关系时,即使所有的点都在曲线上,其线上,其r r值也并不等于值也并不等于1 1。例如下图所示。例如下图所示Y=xY=x2 2的的曲线,将各曲线,将各X X值代入,得:值代入,得:vX 0 1 2 3 4 X 0 1 2 3 4 vY 1 2 4 5 16Y 1 2 4 5 16两变量的相关系数为两变量的相关系数为0.9330.933 PearsonPearson直线相关直线相关例例 随

9、机测量了随机测量了1313名名8 8岁健康男童的体重与心脏岁健康男童的体重与心脏横径,结果见下表。试进行直线相关分析。横径,结果见下表。试进行直线相关分析。PearsonPearson直线相关直线相关相关系数的计算相关系数的计算 X X=301.5 =301.5 X X 2 2 =7072.75 =7072.75 Y Y=116.3 =116.3 Y Y 2 2 =1044.63 =1044.63 XY XY = 2713.65= 2713.65l lXX XX = = X X 2 2 ( ( X X) )2 2/ /n n =7.72.75-301.5=7.72.75-301.52 2/13

10、 = 80.2692/13 = 80.2692l lYY YY = = Y Y 2 2 ( ( Y Y) )2 2/ /n n =1044.63-116.3=1044.63-116.32 2/13 = 4.1923/13 = 4.1923l lXY XY = = XYXY ( ( X X)( )( Y Y)/ )/n n =2713.65-301.5=2713.65-301.5 116.3/13=16.3846116.3/13=16.3846PearsonPearson直线相关直线相关v相关系数的统计学意义检验相关系数的统计学意义检验v检验假设如下:检验假设如下:H0:总体相关系数总体相关系数

11、 =0H1: 0 = 0.051. 1. 直接查表法:直接查表法:求得求得 r r 后,按后,按 = n-2= n-2查查r r界界值表。值表。 本例,本例,r=0.8932r=0.8932, P0.01P0.01,说明总体相关,说明总体相关系数与系数与0 0之间的差别有统计学意义之间的差别有统计学意义PearsonPearson直线相关直线相关2. 2. t t 检验检验 若若H0成立,从成立,从 =0的总体中抽样,所得到的样的总体中抽样,所得到的样本相关系数本相关系数 r 呈对称分布(近似正态分布),此呈对称分布(近似正态分布),此时可用时可用 t 检验。检验。本例,本例, = n-2 =

12、11 按按 = 11= 11查查t t界值表,得界值表,得P P0.01 0.01 ,说明总体相关系数,说明总体相关系数与与0 0之间的差别有统计学意义之间的差别有统计学意义1PearsonPearson直线相关直线相关PearsonPearson直线相关直线相关v相关系数的区间估计相关系数的区间估计 从相关系数从相关系数 不等于不等于0的总体中抽样,样本的总体中抽样,样本相关系数的分布是偏态的。相关系数的分布是偏态的。PearsonPearson直线相关直线相关 z z近似服从均数为近似服从均数为,标准误为标准误为的正态分布。的正态分布。 Z 变换变换PearsonPearson直线相关直线

13、相关v将将 r 变换为变换为 z z ;v根据根据 z z 服从正态分布,估计服从正态分布,估计 z z 的可信区间;的可信区间;v再将再将 z z 变换回变换回 r 。PearsonPearson直线相关直线相关v直线相关分析的一般步骤直线相关分析的一般步骤1. 绘制散点图,观察两变量的变化趋势;绘制散点图,观察两变量的变化趋势;2. 若散点图呈直线趋势,计算相关系数;若散点图呈直线趋势,计算相关系数;3. 对相关系数进行假设检验;对相关系数进行假设检验;4. 必要时对总体相关系数进行区间估计。必要时对总体相关系数进行区间估计。PearsonPearson直线相关直线相关v直线相关分析的注意

14、事项直线相关分析的注意事项1. 直线相关分析要求两个变量均为服从正态分布的随机变量,直线相关分析要求两个变量均为服从正态分布的随机变量,实际数据要满足这一前提。实际数据要满足这一前提。2. 分析前必须先作散点图,变化不呈直线趋势时不宜作直线分析前必须先作散点图,变化不呈直线趋势时不宜作直线相关。相关。3. 要注意相关的有效范围。相关系数的意义仅限于原资料中要注意相关的有效范围。相关系数的意义仅限于原资料中两个变量值的实测范围,超出这一范围就不一定保持现有两个变量值的实测范围,超出这一范围就不一定保持现有的直线关系了。的直线关系了。PearsonPearson直线相关直线相关4. 作相关分析时,

15、必须考虑异常点的影响。作相关分析时,必须考虑异常点的影响。5. 相关分析要有实际意义,两变量相关并不代表两变量相关分析要有实际意义,两变量相关并不代表两变量间一定存在内在联系,相关关系不一定是因果关系。间一定存在内在联系,相关关系不一定是因果关系。有时两个变量虽然存在直线关系,但可能是同时受有时两个变量虽然存在直线关系,但可能是同时受另外一个因素的影响,二者均随另一个因素的变化另外一个因素的影响,二者均随另一个因素的变化而变化,它们本身却不一定存在因果关系。而变化,它们本身却不一定存在因果关系。 年龄年龄 工龄越长工龄越长 血压越高血压越高?PearsonPearson直线相关直线相关6. 分

16、层资料不宜盲目合并进行相关分析。只有确定各分层资料不宜盲目合并进行相关分析。只有确定各层研究对象具有同质基础才能合并。层研究对象具有同质基础才能合并。7. 不要把假设检验中相关显著性大小理解为相关程度的不要把假设检验中相关显著性大小理解为相关程度的大小。若经假设检验推断大小。若经假设检验推断 0,说明两变量间存在,说明两变量间存在一定的直线关系。相关的密切程度可参照下面标准一定的直线关系。相关的密切程度可参照下面标准判断:判断:|r|0.7为高度相关。为高度相关。等级相关等级相关1. 定义:定义: 用双变量等级数据作直线相关分析用双变量等级数据作直线相关分析2. 适用范围:适用范围: (1)不

17、服从双变量正态分布)不服从双变量正态分布 (2)总体分布类型未知)总体分布类型未知 (3)原始数据用等级表示)原始数据用等级表示等级相关等级相关vSpearmanSpearman秩相关秩相关vKendallKendall等级相关等级相关SpearmanSpearman秩相关秩相关vSpearmanSpearman秩相关秩相关 对于不符合正态分布的资料,不用原始数对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计算秩相关系数。编秩,然后根据秩次来计算秩相关系数。 通过秩相关系数通过秩相关系数rs来说明两个变量

18、间相关来说明两个变量间相关关系的密切程度关系的密切程度SpearmanSpearman秩相关秩相关v 设有设有n例观察对象同时取得两个测定值(例观察对象同时取得两个测定值(Xi,Yi),),分别按分别按Xi、 Yi(i=1,2,3,n)的值由小到大编秩为)的值由小到大编秩为1,2,3 ,n。用。用RXi表示表示Xi的秩次,的秩次, RYi表示表示Yi的秩的秩次。因为次。因为n是固定的,所以总秩相等即是固定的,所以总秩相等即平均秩平均秩但但Xi的秩顺序不一定与的秩顺序不一定与Yi的秩顺序相同,故所对应的的秩顺序相同,故所对应的RXi与与RYi不一定相等。不一定相等。SpearmanSpearma

19、n秩相关秩相关v只要求出只要求出 就可按以下就可按以下公式计算秩相关系数公式计算秩相关系数r rs s令同一观察对象的两个秩次差为:令同一观察对象的两个秩次差为:得到秩相关系数的简化公式为:得到秩相关系数的简化公式为:式中式中n为为 观察例数。观察例数。rs的取值为的取值为| rs |1。SpearmanSpearman秩相关秩相关相同秩次较多时相同秩次较多时T TX X( (或或T TY Y) ) ( (t t3 3t t)/12)/12,t t为为X X( (或或Y Y) )中相同秩中相同秩次的个数。次的个数。 v例例 某地方病防治所随机抽样调查了某县某地方病防治所随机抽样调查了某县101

20、0个村个村饮水中氟含量与氟骨症患病率间的关系饮水中氟含量与氟骨症患病率间的关系饮用水中氟含量(饮用水中氟含量(X X )与氟骨症患病率)与氟骨症患病率( (Y Y ) )SpearmanSpearman秩相关秩相关vSpearmanSpearman秩相关分析步骤秩相关分析步骤:v1.1.编秩编秩 将各将各X Xi i由小到大编秩得由小到大编秩得R RX Xi i,列于表中第(,列于表中第(3 3)列。)列。采用相同的排秩规则将采用相同的排秩规则将Y Yi i的记分列于表中第(的记分列于表中第(5 5)列)列R RY Yi i。当遇到相等的测定值时则用平均秩。如当遇到相等的测定值时则用平均秩。如

21、Y Y2 2=Y=Y4 4=22.64=22.64,按,按编秩为编秩为3 3和和4 4,这两个测定值的平均秩为(,这两个测定值的平均秩为(3+43+4)/2=3.5/2=3.5,故有故有RYRY2 2= RY= RY4 4=3.5=3.5。v2.2.秩次差秩次差 求每例观察对象的秩次差求每例观察对象的秩次差 列于表中第(列于表中第(6 6)列,应有)列,应有 。本例的合计为。本例的合计为 表示排秩无误,可作核对之用。表示排秩无误,可作核对之用。SpearmanSpearman秩相关秩相关v3.3.计算秩次之差的平方并求和计算秩次之差的平方并求和 计算出的计算出的 列于表中第(列于表中第(7 7

22、)列。本例有)列。本例有4.4.计算秩相关系数计算秩相关系数r rs s 本例本例 代入简化公式中得到:代入简化公式中得到: 简化公式简化公式适用于资料中适用于资料中取相同秩次的例数不多取相同秩次的例数不多的情的情况,但如果况,但如果取相同秩次的例数较多取相同秩次的例数较多时,就使得计算的时,就使得计算的结果偏差较大,这时应用结果偏差较大,这时应用原始公式原始公式计算秩相关系数计算秩相关系数。SpearmanSpearman秩相关秩相关v Spearman秩相关系数的假设检验秩相关系数的假设检验v对总体相关系数的假设检验的方法有两种:对总体相关系数的假设检验的方法有两种:v1.1.查表法查表法

23、 当当n n5050时,查时,查“r rs s界值表界值表”进行假进行假设检验。设检验。v2.2.计算法计算法 当当n n5050时,按下式计算检验统计量时,按下式计算检验统计量u u: :查标准正态分布表,确定查标准正态分布表,确定P P 值。值。SpearmanSpearman秩相关秩相关v对前面例子得到的秩相关系数进行假设检验对前面例子得到的秩相关系数进行假设检验 检验步骤:检验步骤: 1. 1.建立无效假设和确定检验水准建立无效假设和确定检验水准 H H0 0:s s=0=0,即饮用水中氟含量与氟骨症患病率,即饮用水中氟含量与氟骨症患病率间无相关关系间无相关关系 H H1 1:s s0

24、 0,即饮用水中氟含量与氟骨症患病,即饮用水中氟含量与氟骨症患病率间有相关关系率间有相关关系=0.050.05 2.2.计算秩相关系数计算秩相关系数r rs s=0.918=0.918 SpearmanSpearman秩相关秩相关 3. 3.确定确定P P 值并下结论:值并下结论: 查表得到查表得到r rs,0.05/2(10)s,0.05/2(10)=0.648=0.648,小于样本统计,小于样本统计量量r rs s=0.918=0.918,故按,故按=0.050.05水准拒绝水准拒绝H H0 0,判断,判断r rs s系来自系来自s s0 0的总体,从专业上分析,可以认的总体,从专业上分析

25、,可以认为饮水中氟含量与氟骨症患病率之间存在着正为饮水中氟含量与氟骨症患病率之间存在着正相关关系。相关关系。KendallKendall等级相关等级相关vKendallKendall等级相关等级相关 当两个变量都用等级来表示时当两个变量都用等级来表示时, ,用一个统计量来用一个统计量来衡量它们的等级不一致的情况。衡量它们的等级不一致的情况。 Kendall Kendall等级相关系数等级相关系数也在也在11之间变动。完之间变动。完全不相关时,全不相关时,=0=0。它不仅可对两个变量作等级。它不仅可对两个变量作等级相关分析,而且可对多个变量作等级相关分析相关分析,而且可对多个变量作等级相关分析K

26、endallKendall等级相关等级相关vKendallKendall等级相关的分析步骤:等级相关的分析步骤: 1.1.先将第一个变量(先将第一个变量(x x)和第二个变量()和第二个变量(y y)由小到大列出等级,数值相同时取平均等级。由小到大列出等级,数值相同时取平均等级。 2.2.把两变量的等级列出,以把两变量的等级列出,以x x的等级为顺序排的等级为顺序排列。列。 3.3.计算计算KendallKendall等级相关系数等级相关系数v例例 下表是一些环状化合物的相对分子质量与用药后大下表是一些环状化合物的相对分子质量与用药后大鼠鼠24h24h胆汁排泄量资料,要研究相对分子质量与胆汁排

27、胆汁排泄量资料,要研究相对分子质量与胆汁排泄量有无关系。泄量有无关系。环状化合物的相对分子质量与大鼠环状化合物的相对分子质量与大鼠24h24h胆汁排泄量关系胆汁排泄量关系KendallKendall等级相关等级相关v1.1.将第一个变量即相对分子质量(将第一个变量即相对分子质量(x x)和第二个变量即胆)和第二个变量即胆汁排泄量(汁排泄量(y y)由大到小列出等级,数值相同时取平均等)由大到小列出等级,数值相同时取平均等级见上表等级列。级见上表等级列。v2.2.把两变量的等级列成下表形式,即以把两变量的等级列成下表形式,即以x x的等级为顺序排的等级为顺序排列。列。KendallKendall

28、等级相关计算表等级相关计算表KendallKendall等级相关等级相关v表中第表中第1,21,2行是从第一张表中转抄过来的,但顺序是按行是从第一张表中转抄过来的,但顺序是按x x的的等级从小到大排列的。第等级从小到大排列的。第3 3行是对应于每一个排泄量(行是对应于每一个排泄量(y y)等级的右边的更小(包括相等)的等级个数。等级的右边的更小(包括相等)的等级个数。v例如,对于例如,对于y y的等级的等级2 2,在它右边只有一个等级(即,在它右边只有一个等级(即1 1)比它)比它小,所以在等级小,所以在等级2 2的下面写的下面写1 1,也就是第,也就是第3 3行第一个数字是行第一个数字是1.

29、1.而对应于第而对应于第2 2行的等级行的等级1 1,在它右边没有更小的等级,所以,在它右边没有更小的等级,所以在它下面即第在它下面即第3 3行第行第2 2个数字为个数字为0 0,其余以此类推。,其余以此类推。KendallKendall等级相关等级相关v第第4 4行则是应对于该列的行则是应对于该列的y y的等级的等级RyRy右边右边更大的等级个数。第更大的等级个数。第3 3行的合计为行的合计为1111,记,记为负的;第为负的;第4 4行的合计为行的合计为3434,记为正的。,记为正的。两者的代数和称为两者的代数和称为S S,即,即S=34-11=23S=34-11=23. .KendallK

30、endall等级相关等级相关v3.3.计算计算KendallKendall等级相关系数等级相关系数实际上分母就是等级对子数实际上分母就是等级对子数例中共有例中共有1010个数,则对子数为:个数,则对子数为:KendallKendall等级相关等级相关v从从S S的计算过程可知,的计算过程可知,S S值最小是值最小是 ,最大,最大是是 ,因此,因此值一定在值一定在-1-1和和+1+1之间。之间。 完全负相关是完全负相关是-1-1, 完全正相关是完全正相关是+1+1, 不相关则为不相关则为0 0。KendallKendall等级相关等级相关v当两变量等级呈完全正相关时,计算当两变量等级呈完全正相关

31、时,计算S S值过程值过程如下表所示如下表所示假设的完全正相关资料计算假设的完全正相关资料计算S S值值从表中可以看出从表中可以看出S=45S=450=450=45KendallKendall等级相关等级相关v当两变量等级呈完全负相关时,计算当两变量等级呈完全负相关时,计算S S值过程如值过程如下表所示下表所示假设的完全正相关资料计算假设的完全正相关资料计算S S值值 从表中可以得出从表中可以得出S=0S=045=-4545=-45KendallKendall等级相关等级相关v4. 4. 的假设检验。的假设检验。 v KendallKendall等级相关的无效假设是两变量的等等级相关的无效假设

32、是两变量的等级不相关,即在无效假设成立时级不相关,即在无效假设成立时S S期望值为期望值为0 0或或者说者说的期望值为的期望值为0 0,如果没有相同等级,如果没有相同等级,S S的的方差为:方差为:KendallKendall等级相关等级相关v如果有相同等级,那么如果有相同等级,那么S S的方差为:的方差为: 式中:式中:t t为为x x的相同等级个体数;的相同等级个体数;u u为为y y的相同的相同等级个体等级个体数。数。KendallKendall等级相关等级相关v假设检验可用含有连续性校正的正态近似检验:假设检验可用含有连续性校正的正态近似检验:v例中含有相同等级,故其方差为:例中含有相同等级,故其方差为:KendallKendall等级相关等级相关v故故得得因因u 1.96,P 1.96,P |r|xyx10.89317.0001y0.893171.0001例例 题题Pearson相关统计量相关统计量;基于基于Fisherz转换转换变量变量变量变量N样本相关样本相关Fisherz95%置信限置信限p值,对于值,对于H0:Rho=0xy130.893171.437390.6737610.967853.0001结束语结束语谢谢大家聆听!谢谢大家聆听!59

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号