医学统计学多元线性回归(研)

上传人:101****457 文档编号:87641076 上传时间:2019-04-10 格式:PPT 页数:58 大小:1.13MB
返回 下载 相关 举报
医学统计学多元线性回归(研)_第1页
第1页 / 共58页
医学统计学多元线性回归(研)_第2页
第2页 / 共58页
医学统计学多元线性回归(研)_第3页
第3页 / 共58页
医学统计学多元线性回归(研)_第4页
第4页 / 共58页
医学统计学多元线性回归(研)_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《医学统计学多元线性回归(研)》由会员分享,可在线阅读,更多相关《医学统计学多元线性回归(研)(58页珍藏版)》请在金锄头文库上搜索。

1、多元线性回归分析,在医学、生物学中,许多现象的发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的共同结果。例如,影响高血压的因素很多,如年龄、性别、精神紧张、劳动强度、吸烟状况、家族史等。在影响血压高低的众多因素中,哪些是主要因素,各因素的作用大小等,是我们关心的问题。回归分析就是研究各变量间在数量上相互关系的一种统计方法。,它包含下面这些内容: 从一组数据出发确定某些变量间是否存在某种相关关系,如果存在,找出适当的定量关系式; 对这种关系式的可靠程度进行检验; 在许多自变量共同影响一个应变量的关系中,判断哪些自变量的影响是主要的,哪些是次要的,哪些是多余的; 利用所求得的关系式对

2、某一过程进行预测或控制等等。,一、多元线性回归模型 在讨论一个应变量与一个自变量之间的关系时,我们介绍了直线回归与相关分析。在那里,我们作了这样的假定:对于自变量的每一个值,有,其中,x为非随机变量,是随机误差,并称,为y关于x的回归直线方程,a、b分别是、的最小二乘估计量。,当考虑一个应变量受多个因素影响时,则需将直线回归分析方法推广到多个自变量的情形。下面,我们来考虑一个应变量Y 与多个自变量X1,X2 , , Xm 之间的线性回归问题多元线性回归。,假定对于Y和X1,X2 , , Xm 的每一组值,有,其中, X1 , , Xm为非随机变量, 为随机误差,则称, (2), (1),为Y关

3、于X1,X2 , , Xm的线性回归方程;其中,,b0 称为回归截距或常数项,bj (j=1 ,m)称为Y对自变量X1,X2 , , Xm 的偏回归系数。 bj的意义为:在其它自变量固定的条件下,Xj改变一个单位而使Y获得的平均改变量。 这里b0,b1,b2 , ,bm 分别是0,1, 2 , ,m 的最小二乘估计量。,二、回归方程的建立 现在讨论怎样通过样本观测值来建立回归方程。设通过实验或观察得到一组实际资料:,多元线性回归分析的任务是利用这些样本观测值来确定式(2)中的b0,b1,b2 , ,bm ,即求出Y 关于X1,X2 , , Xm的线性回归方程。,由模型(1),对于每一观测对象所

4、得的样本观测值(xi1, xi2, , xim, yi),i=1,2,n,有,即,我们寻求0,1,2 , ,m 的估计值的原则是:求得的b0,b1,b2 , ,bm ,使,达到最小值,即所谓最小二乘准则。,(3),可以证明,由正规方程组,及公式,即可求得满足上述最小二乘准则的估计量b0,b1,b2 , ,bm 。从而求得线性回归方程:, (4), (5),显然, (6), (7),其中:,Ex.1为推算少年儿童心脏面积,某研究者对33名8岁正常男童测得体重、心脏纵径、胸腔横径及心脏面积等指标的观测值。所得资料如下表,33名8岁正常男童生长发育指标的实测值,取体重(X1)、心脏纵径(X2)、胸腔

5、横径(X3)为自变量,心脏面积(Y)为应变量来建立线性回归方程。,欲建立回归方程,其步骤为: 1.建立正规方程组 (1)由表中数据算得各指标均值:,(2)根据公式(6)和公式(7)可以计算出各lij及liy。,3.列出回归方程,2.解正规方程组得:,再由(5)式,算得:,(3)按公式(4)列出正规方程组,三、多元线性回归方程的假设检验 多元线性回归方程的假设检验。它包含两个内容: 一是检验线性回归方程是否有统计学意义; 二是检验每个自变量对应变量的线性影响是否有统计学意义。 1. 回归方程的假设检验 回归方程的假设检验,即是要检验原假设: H0:12 m 0,由平方和分解定理,可将应变量Y的总

6、离均差平方和lyy 分解成回归平方和U与残差平方和Q两个部分,即,回归平方和,反映了所有m 个自变量对应变量 Y的总变差的影响,自由度为m。,(8), (9),残差平方和:, (10),反映了除自变量外,其它随机因素对应变量Y的影响,自由度为n-m-1 。,按照方差分析的思想,我们用如下的F统计量来对假设 H0作检验,可以证明,当H0成立时,统计量F 服从自由度为1m, 2n-m-1 的F分布。若F F(m,n-m-1)则在 水准上拒绝H0 ,认为这m个自变量作为一个整体对应变量Y 有一定影响,但这里并不排除其中有一个或几个自变量对Y 并无影响,即可能有某些j 0 。反之,若 F F(m,n-

7、m-1) ,则在 水准上不拒绝H0 ,即认为所有自变量与应变量Y 之间不存在线性回归关系。, (11),上述检验可列成如下的方差分析表,由上表得到对回归方程的检验结果:F = 61.149,P = 0.0001,故在 =0.01的水准上拒绝原假设,可以认为体重、心脏纵径、胸腔横径与心脏面积之间存在线性回归关系。,对例1已求得的回归方程作假设检验,可得,2. 各偏回归系数的假设检验 若回归方程有统计学意义,则认为所有自变量作为一个整体对应变量Y存在线性影响,但这里并不排除其中有一个或几个自变量对Y 并无线性影响,即可能有某些 j 0 。 为了检验是否每个自变量都对应变量存在线性影响,需要分别对各

8、偏回归系数进行假设检验,即检验假设 H0:j0 j=1,2,m,为了检验这个假设,先介绍偏回归平方和的概念。,偏回归平方和 回归平方和 U 是所有自变量对应变量 Y 的变差的回归贡献。一般地说,所考虑的自变量越多,回归平方和 U 的值就越大。因此若在所考虑的自变量中去掉一个,则 U 的值只可能减少,不可能增加,减少的数值越大,则说明该变量对应变量的影响越大。我们称在原有的 m 个自变量中去掉一个自变量 Xj后,回归平方和减少的数值,为自变量 Xj 的偏回归平方和。其中U(m) 表示原来有 m 个自变量时的回归平方和; U(m -1)表示去掉一个自变量 Xj 后,剩余 m -1 个自变量时的回归

9、平方和。,由偏回归平方和的定义可知, Uj 的值越大,说明相应自变量 Xj 对应变量 Y 的线性影响也就越大。因此,我们用如下的统计量,或,来检验原假设H0:j0 ( j=1,2,m) 。 可以证明,当 H0 成立时,统计量 Fj 服从 F(1,n- m -1) 分布;tj 服从 t (n- m -1)分布。 这里 , tj2= Fj 即在对各偏回归系数作假设检验时,选用tj 与Fj 作为检验统计量,其结果是等价的。,(12),(13),下面是对例1所得回归方程中各偏回归系数的假设检验结果: t1=0.030, P1=0.9766 t2=7.149, P2=0.0001 t3=0.896, P

10、3=0.3776,故在 =0.05的水准上拒绝原假设 H0:20 ,而不拒绝原假设 H0:10及 H0:30 。这就是说,在自变量 X1(体重)、 X2 (心脏纵径)、 X3(胸腔横径)中,只有X2(心脏纵径)与应变量 Y (心脏面积)的线性回归关系具有统计学意义。,四、偏回归系数的标准化 前面已经指出,偏回归系数bj 的意义是当其余自变量固定时, Xj 每改变一个单位时引起 Y 的变化值。这就意味着,bj 的绝对值大小,反映了该自变量对Y 的影响程度。但由于各自变量的测量单位不同,因此在回归方程中,欲比较两个自变量 Xi与 Xj 对应变量 Y 的影响程度时,不能直接比较 bi与 bj 的绝对

11、值大小。这时,需要消除测量单位的影响,即将各偏回归系数进行标准化后再作比较。这种消除测量单位影响后的偏回归系数称为标准化偏回归系数 bj ,其计算公式为:,其中: Sj 为 Xj 的标准差; Sy为 Y 的标准差。, (14),求得标准化偏回归系数后,一般说来,就可以根据 bj 的绝对值大小来比较各自变量对 Y 的影响程度(严格地讲,应对 各bj之间的差异进行假设检验。)。例如,在例1中,对三个偏回归系数进行标准化,可得:,这说明在三个自变量X1 (体重)、 X2(心脏纵径)、 X3(胸腔横径)中, X2 (心脏纵径)对 Y(心脏面积)的影响最大。,标准化偏回归系数还可以用下面的方法来求得:先

12、按下式,将原始变量标准化,然后用标准化后的变量来建立回归方程,这样得到的偏回归系数即为标准化偏回归系数,这时得到的回归方程称为标准化回归方程。在用标准化变量来建立回归方程时,需要注意的是,在标准化回归方程中,常数项b0=0 。这是因为标准化后,各自变量与应变量的均数全都为0的缘故。,五、多元线性相关 多元线性相关,即多个变量之间的相关性问题。这里包含两方面的问题: 一个变量与其余所有变量之间的线性关系的密切程度; 各变量两两间线性关系的密切程度。,复相关系数 设有m + 1 个正态随机变量X1,X2 , , Xm , Xm+1 (Y ),可以分析其中任一变量与其余所有变量之间的线性相关性-多元

13、复相关性。反映这种复相关性强弱的量称为总体复相关系数,记为。 不失一般性,我们讨论 Xm+1与 X1,X2 , , Xm的线性相关性。视 Xm+1为应变量 Y , X1,X2 , , Xm 均为自变量,作 Y与 X1,X2 , , Xm的多元线性回归分析。,统计量R 反映了应变量与全体自变量之间线性关系的密切程度,称为 Y(即Xm+1 )与X1,X2 , , Xm 之间的样本复相关系数。, (15),由前面的讨论知,所得的回归平方和 U 在一定程度上反映了应变量 Y与全体自变量之间线性关系的密切程度。利用 U ,可得如下的统计量,R 具有如下性质: 0 R 1. 若R 0,则U 0,或 Q l

14、yy,即Y 的总变异 lyy 全是由随机误差 Q 所引起的,而与各自变量无关,即 Y 与全体自变量在线性意义下呈零相关; 若 R 1 ,则 U lyy,或 Q 0 ,则意味着 Y 与全体自变量呈最为理想的线性关系。,一般地说,R 的值愈接近于1,则 Y与全体自变量的线性关系愈密切,但究竟大到什么程度才能认为这种线性关系具有统计学意义呢?这需要进行假设检验。这里,检验假设为总体复相关系数 为零,即 H0: 0。检验统计量为:,若 F F(m,n m 1)则在 水平上拒绝 H0 ,认为总体复相关系数 不为0;否则不拒绝 H0 ,认为总体复相关系数 为0。 例如,在例1中,可求得应变量与三个自变量之

15、间的复相关系数:, (16),查表可得 F0.01(3,29)4.54,故在0.01 水平上拒绝原假设H0 ,表明总体复相关系数 不为0,可以认为体重( X1)、心脏纵径(X2)、胸腔横径(X3 )与心脏面积(Y )之间存在线性相关性。 这里,我们引入一个重要的统计量,R2称为决定系数(coefficient of determination)或相关指数,它反映了回归平方和U 在总变异 lyy 中所占的比例。显然, R2 愈大,则 U 亦愈大,说明回归效果愈好。从这个意义上讲,相关与回归是可以相互解释的。, (17),另一方面,可以证明,复相关系数的F检验统计量,与多元线性回归方程的检验统计量,是相等的,这就是说,对复相关系数的检验等价于对回归方程的检验。在例1中,分别用上述两式求得的 F 值分别为61.151与61.149,略有差异,这是计算误差所致。,2. 偏相关系数 复相关系数解决了一个变量与其余所有变量之间的线性相关关系。下面讨论在多个变量同时存在的情况下,任意两个变量之间的相关关系。 在只有两个变量(X、Y)的情形,其相关系数为:,一般说来,在多个变量X1,X2 , , Xm同时存在的情形, 任意两个变量Xi,Xj 之间的简单相关系数 rij 就不能正确地反映它们之

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 职业教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号