医学统计学课件:线性回归与相关

上传人:hs****ma 文档编号:569384879 上传时间:2024-07-29 格式:PPT 页数:44 大小:1.45MB
返回 下载 相关 举报
医学统计学课件:线性回归与相关_第1页
第1页 / 共44页
医学统计学课件:线性回归与相关_第2页
第2页 / 共44页
医学统计学课件:线性回归与相关_第3页
第3页 / 共44页
医学统计学课件:线性回归与相关_第4页
第4页 / 共44页
医学统计学课件:线性回归与相关_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《医学统计学课件:线性回归与相关》由会员分享,可在线阅读,更多相关《医学统计学课件:线性回归与相关(44页珍藏版)》请在金锄头文库上搜索。

1、 线性回归与相关线性回归与相关第一节 线性回归一、线性回归的概念一、线性回归的概念线性回归方程(线性回归方程(linear regression equation ): 用于描述两个变量间依存变化的数量关系。也称用于描述两个变量间依存变化的数量关系。也称用于描述两个变量间依存变化的数量关系。也称用于描述两个变量间依存变化的数量关系。也称简单回归简单回归简单回归简单回归(simple regressionsimple regression)。 Francis GaltonX-自变量(自变量(independent variable););Y-应变量(应变量(dependent variable)

2、;); - 给定给定X 时时Y 的估计值;的估计值; a - 截距(截距(intercept)或常数项()或常数项(constant term););b - 回归系数(回归系数(regression coefficient)。)。 simple regression 表示表示X与与Y 的离均差的离均差积和;和; 表示表示X的离均差平方和;的离均差平方和; 和和 分分别为两个两个变量的均量的均值。 simple regression例例1 1 研究饮水氟含量与成人骨研究饮水氟含量与成人骨X X线改变指数间的线改变指数间的关系,得到了表关系,得到了表11-111-1中所示的资料,试进行回归中所示的

3、资料,试进行回归分析。分析。二、回归方程的估计二、回归方程的估计 表表1 饮水氟含量水氟含量(mg/L)(mg/L)与骨与骨X X线改改变指数指数调查对象象饮水氟含量水氟含量(X)骨骨X线改改变指数(指数(Y) XY X2Y210.240.400.100.060.1620.800.560.450.640.3131.001.911.911.003.6541.800.861.553.240.7453.125.2516.389.7327.5664.103.4013.9416.8111.5675.6058.38326.9331.363408.22810.2770.33722.29105.474946.

4、31910.81116.301257.20116.8613525.69合合计37.74257.392340.75285.1721924.20(1 1)绘制散点图:)绘制散点图:由散点图可见,饮水氟含量与骨由散点图可见,饮水氟含量与骨X线改变指数之间存线改变指数之间存在着直线趋势,可以考虑建立二者之间的线性回归方在着直线趋势,可以考虑建立二者之间的线性回归方程。程。 simple regression(2 2)计算回归系数与常数项)计算回归系数与常数项 本例:本例: simple regression代入公式得:代入公式得: 则回归方程为:则回归方程为: simple regression按上述

5、回归方程,在按上述回归方程,在 X 实测值的范围内,任取两实测值的范围内,任取两个相距较远的点个相距较远的点 和和 ,连接,连接A、B B两点即得到回归直线。本例可取两点即得到回归直线。本例可取 ,计算出,计算出 ; 计算出计算出 ;两点的连线即为所求的;两点的连线即为所求的回归直线。回归直线。(3 3)作回归直线)作回归直线 simple regression三、线性回归的假设检验三、线性回归的假设检验( (一一) ) 方差分析方差分析回归方程检验的基本思想:回归方程检验的基本思想: 如果如果 X 与与Y 之间无线性回归关系,则之间无线性回归关系,则 与与 都只包含随机因素对都只包含随机因素

6、对Y Y 的影响,因此其均的影响,因此其均方应近似相等,如果两者差别较大,并超出能够方应近似相等,如果两者差别较大,并超出能够用随机波动解释的程度,则认为回归方程具有统用随机波动解释的程度,则认为回归方程具有统计学意义。计学意义。Hypothesis test对对例例11-1数据建立的回归方程进行假设检验:数据建立的回归方程进行假设检验:(1 1)建立假设检验)建立假设检验Hypothesis test(2 2)计算统计量)计算统计量Hypothesis test(3 3)确定)确定P P 值,得出统计结论值,得出统计结论 查查 F 界值表界值表 , , ,拒绝拒绝 ,可以认为饮水氟含量与成人

7、骨,可以认为饮水氟含量与成人骨X线改变指数之间线改变指数之间存在线性回归关系。存在线性回归关系。Hypothesis test上面结果可以归纳成表上面结果可以归纳成表2方差分析表的形式。方差分析表的形式。 表表2 2 方差分析表方差分析表变异来源变异来源 SS MS F P总变异总变异14563.13 8回归回归12538.06 112538.06 43.34 0.01残差残差 2025.07 7 289.30Hypothesis test(二)(二) t 检验检验 为样本回归系数的标准误,反映样本回为样本回归系数的标准误,反映样本回归系数的抽样误差;归系数的抽样误差; 为剩余标准差,表为剩余

8、标准差,表示应变量示应变量Y Y 值对于回归直线的离散程度。值对于回归直线的离散程度。 Hypothesis test例例1数据建立回归方程后,进行数据建立回归方程后,进行t 检验,过程如下检验,过程如下: :(1)建立假设检验建立假设检验(2 2)计算算统计量量Hypothesis test(3)确定确定P P 值,作,作结论 查 t 界界值表表, ,拒拒绝 ,结论与方差分析相同。可以看出,与方差分析相同。可以看出,统计量量 与与 之之间存在确定的数量关系存在确定的数量关系,即有,即有 ,本例,本例 。Hypothesis test 第二节 线性相关一、线性相关的概念一、线性相关的概念 两个

9、变量之间存在的线性相关关系称为线性相关两个变量之间存在的线性相关关系称为线性相关或简单相关。或简单相关。用于分析双变量正态分布资料。用于分析双变量正态分布资料。 Karl Pearson 图图11-2 11名男青年身高与前臂长散点图名男青年身高与前臂长散点图 linear correlation 图图11-3 11-3 线性相关性质示意图线性相关性质示意图 二、相关系数及其计算二、相关系数及其计算相关系数相关系数(correlation coefficient):又称):又称PearsonPearson积差相关系数(积差相关系数(coefficient of product coefficie

10、nt of product moment correlationmoment correlation),是说明具有线性相关关),是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向系的两个数值变量间相关的密切程度与相关方向的统计量。的统计量。相关系数相关系数r没有度量衡单位,其数值为没有度量衡单位,其数值为 。 表示正相关;表示正相关; 表示负相关;表示负相关; 表示表示无相关,即无直线关系。当无相关,即无直线关系。当 时称为完全相时称为完全相关。关。相关系数的绝对值愈接近相关系数的绝对值愈接近1,表示相关愈密切;相,表示相关愈密切;相关系数愈接近关系数愈接近0,表示相关愈不密切。,

11、表示相关愈不密切。 linear correlation 相关系数的计算公式:相关系数的计算公式: linear correlation 例例2 从男青年总体中随机抽取从男青年总体中随机抽取1111名男青年组成样名男青年组成样本,分别测量每个男青年的身高和前臂长,测量本,分别测量每个男青年的身高和前臂长,测量结果如表结果如表11-3所示,试计算身高与前臂长之间的所示,试计算身高与前臂长之间的相关系数。相关系数。 表3 11名男青年身高与前臂长的测量结果(cm) 编号编号 身高身高 X前臂长前臂长 YXY1170477990289002209217342726629929176431604470

12、40256001936415541635524025168151734781312992922096188509400353442500717847836631684220981834684183348921169180498820324002401 10165437095272251849 11166447304275561936合计合计 1891 500 86185 326081 22810本例本例:结论结论结论结论: : : : 前臂长与身高呈正相关关系前臂长与身高呈正相关关系前臂长与身高呈正相关关系前臂长与身高呈正相关关系, , , , 而且相关程度较高。而且相关程度较高。而且相关程度

13、较高。而且相关程度较高。 linear correlation 三、相关系数的假设检验三、相关系数的假设检验 1.1. t 检验法检验法: : 根据根据 r 作总体相关系数作总体相关系数 是否为是否为零的假设检验。零的假设检验。2.2. 根据计算出的根据计算出的 r 值,直接查值,直接查 r 界值表得到界值表得到P 值,值,若若 ,则可以认为两变量之间存在,则可以认为两变量之间存在线性相关关系。线性相关关系。对例对例2计算得到的计算得到的 r 值进行假设检验:值进行假设检验: (1)建立检验假设建立检验假设 ,即身高与前臂长之间不存在线性相关系即身高与前臂长之间不存在线性相关系 ,即身高与前臂

14、长之间存在线性相关关系即身高与前臂长之间存在线性相关关系 (2)计算统计量计算统计量linear correlation (3)确定)确定 P 值,作出结论值,作出结论 查查 t 界值表界值表,得,得 , ,拒绝,拒绝 ,接受,接受 ,可以认为男青,可以认为男青年身高与前臂长之间存在正相关关系。或查年身高与前臂长之间存在正相关关系。或查 r 界界值表值表 , , 结结论相同。论相同。 linear correlation 一、线性回归分析的应用一、线性回归分析的应用1.1. 线性回归方程可应用于以下三个方面:线性回归方程可应用于以下三个方面: 分析两个变量之间是否存在线性依存关系;分析两个变量

15、之间是否存在线性依存关系; 利用回归方程由自变量利用回归方程由自变量 X 对应变量对应变量Y 进行估计,进行估计,必要时可以作区间估计;必要时可以作区间估计;第三节第三节 线性回归与相关应用的注意事项线性回归与相关应用的注意事项 利用回归方程进行统计控制,即利用回归方利用回归方程进行统计控制,即利用回归方程进行逆运算,通过控制自变量程进行逆运算,通过控制自变量 X X 取值来限定取值来限定应变量应变量Y Y在一定范围内波动。在一定范围内波动。2.2. 作回归分析时,如果两个有内在联系的变量作回归分析时,如果两个有内在联系的变量之间存在因果关系,那么应该以原因变量为之间存在因果关系,那么应该以原

16、因变量为X , ,以结果变量为以结果变量为Y ;如果变量之间因果关系难以确;如果变量之间因果关系难以确定,则应以易于测定或变异较小者为定,则应以易于测定或变异较小者为X 。 3. 在回在回归分析中,自分析中,自变量量X 既可以是随机既可以是随机变量量(称(称为型回型回归模型,两个模型,两个变量都服从正量都服从正态分分布),也可以是布),也可以是给定的量(称定的量(称为 I 型回型回归模型,模型,在在 X 取取值固定固定时Y 服从正服从正态分布)。如果分布)。如果Y不不服从正服从正态分布,在分布,在进行回行回归分析前,分析前,应先先进行行变量的量的变换以使以使应变量符合回量符合回归分析的要求。分

17、析的要求。4. 使用回使用回归方程估方程估计Y 值时,尽量不要把估,尽量不要把估计的范的范围扩大到建立方程大到建立方程时的自的自变量的取量的取值范范围之外,由于超出之外,由于超出样本取本取值范范围,其,其线性关系是性关系是否成立否成立难以判断,外推要慎重。如例以判断,外推要慎重。如例1中,中,X 的的取取值范范围为0.2410.81,计算估算估计值时X 的取的取值最好在最好在0.2410.81之之间。 二、线性相关分析的应用二、线性相关分析的应用 1. 相关分析理论上适用于两个变量都服从正态相关分析理论上适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先分布的情形,如果资料不服从

18、正态分布,应先通过变量变换,使之近似正态化后计算相关系通过变量变换,使之近似正态化后计算相关系数。如果不能正态化,或针对有序数据则可以数。如果不能正态化,或针对有序数据则可以计算计算Spearman或或Kendall相关系数进行分析相关系数进行分析(参考(参考SPSS软件说明)。软件说明)。 2. 相关系数相关系数 r 值究竟多大有实际意义,需值究竟多大有实际意义,需要根据具体问题而定。实际经验而言,要根据具体问题而定。实际经验而言, 时,表示相关性较差;时,表示相关性较差; 时,表示中度相关;时,表示中度相关; 时,时,时,时,表示表示有较高度的相关性;有较高度的相关性;有较高度的相关性;有

19、较高度的相关性; 时,表示有很高的相关性。时,表示有很高的相关性。 3.3. 相关系数可以描述两个变量间相互关系的密相关系数可以描述两个变量间相互关系的密切程度和方向。然而,不能因为两变量间的相关切程度和方向。然而,不能因为两变量间的相关系数有统计学意义,就认为两者之间存在着因果系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。医学中很多变量的数量凭借专业知识加以阐明。医学中很多变量的数量变化可能由于相同的因子调控引起。变化可能由于相同的因子调控引起。 三、线性回归与相关的区别三、线性回归与相关的

20、区别 1. 相关系数的计算只适用于两个数值变量都服从相关系数的计算只适用于两个数值变量都服从正态分布的情形,而在回归分析中,应变量是随正态分布的情形,而在回归分析中,应变量是随机变量,自变量既可以是随机变量(机变量,自变量既可以是随机变量(型回归模型回归模型),也可以是给定的量(型),也可以是给定的量(I 型回归模型)。型回归模型)。 2. 线性相关表示两个变量之间的相互关系是双向线性相关表示两个变量之间的相互关系是双向的,线性回归则反映两个变量之间单向的依存关的,线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。系,更适合分析因果关系的数量变化。四、线性回归与相关的联系

21、四、线性回归与相关的联系 1. 相关系数相关系数 r 与回归方程中的与回归方程中的 b 正负号相同,正负号相同,r 和和 b 为正,说明为正,说明 X 与与 Y 的数量变化的方向是一的数量变化的方向是一致的,致的,X 增大,增大,Y 也增大;符号为负,变化方向也增大;符号为负,变化方向相反。相反。2. 对同一样本可以得出对同一样本可以得出 r 与与 b 互相转化的公式,互相转化的公式,两种假设检验完全等价。两种假设检验完全等价。3. 相关与回归可以互相解释。相关与回归可以互相解释。r 的平方称为决定系数的平方称为决定系数 (coefficient of determination),可表示为,

22、可表示为: 表示回归平方和在总平方和中所占的比重表示回归平方和在总平方和中所占的比重, 即即 其值越接近其值越接近1, 回归效果越好。决定系数和相关系回归效果越好。决定系数和相关系数有确定的关系数有确定的关系, 例如例如 r = 0.5, 有有 =0.25, 说明一说明一个变量的变异有个变量的变异有25%可以由另一变量所解释。可以由另一变量所解释。 1.1.线性回归方程常用于分析两个变量之间是否存线性回归方程常用于分析两个变量之间是否存在线性依存关系。在线性依存关系。 2.2.相关系数可以描述两个变量间相互关系的密切相关系数可以描述两个变量间相互关系的密切程度和方向。程度和方向。 3.3.相关

23、系数的计算适用于两个数值变量都服从正相关系数的计算适用于两个数值变量都服从正态分布的情形,在回归分析中,应变量是随机变态分布的情形,在回归分析中,应变量是随机变量,自变量既可以是随机变量量,自变量既可以是随机变量( (型回归模型型回归模型) ),也可以是给定的量(也可以是给定的量( 型回归模型型回归模型) )。 小小 结结 4. 线性相关表示两个变量之间的相互关系是双向线性相关表示两个变量之间的相互关系是双向的,线性回归则反映两个变量之间单向的依存关的,线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。系,更适合分析因果关系的数量变化。 5.对同一资料进行相关与回归分析,相关系数对同一资料进行相关与回归分析,相关系数r 与回归方程中的与回归方程中的b 正负号相同,正负号相同,r 和和b 为正,说为正,说明明X 与与Y 的数量变化的方向是一致的,的数量变化的方向是一致的,X 增大,增大,Y 也增大;反之亦然。也增大;反之亦然。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号