多元线性回归、logistic回归

上传人:飞*** 文档编号:46699898 上传时间:2018-06-27 格式:PPT 页数:74 大小:815.50KB
返回 下载 相关 举报
多元线性回归、logistic回归_第1页
第1页 / 共74页
多元线性回归、logistic回归_第2页
第2页 / 共74页
多元线性回归、logistic回归_第3页
第3页 / 共74页
多元线性回归、logistic回归_第4页
第4页 / 共74页
多元线性回归、logistic回归_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《多元线性回归、logistic回归》由会员分享,可在线阅读,更多相关《多元线性回归、logistic回归(74页珍藏版)》请在金锄头文库上搜索。

1、多因素分析多因素分析温州医学院环境与公共卫生学院 叶晓蕾1n n概念概念多因素分析是同时对观察对象的两个或两个以上多因素分析是同时对观察对象的两个或两个以上的变量进行分析。的变量进行分析。常用的统计分析方法有:常用的统计分析方法有:多元线性回归、多元线性回归、LogisticLogistic回归、回归、COXCOX比比例风险回归模型、因子分析、主成分分析,例风险回归模型、因子分析、主成分分析,等。等。2多变量资料数据格式多变量资料数据格式例例 号号X X1 1X X2 2X Xp pY Y1 1X X1111X X1212X X1p1pY Y1 1 2 2X X2121X X2222X X2p

2、2pY Y2 2n nX Xn1n1X Xn2n2X XnpnpY Yn nY Y为定量变量为定量变量Linear RegressionLinear Regression Y Y为二项分类变量为二项分类变量Binary Logistic RegressionBinary Logistic Regression Y Y为多项分类变量为多项分类变量Multinomial Logistic RegressionMultinomial Logistic Regression Y Y为有序分类变量为有序分类变量Ordinal Logistic RegressionOrdinal Logistic Reg

3、ression Y Y为生存时间与生存结局为生存时间与生存结局Cox RegressionCox Regression 3Y,X直线回归 Y,X1,X2,Xm多元回归(多重回归) 第十五章第十五章 多元线性回归多元线性回归(multiple linear (multiple linear regressoinregressoin) ) P.261P.261例:欲研究血压受年龄、性别、体重、性格、 职业(体力劳动或脑力劳动)、饮食、吸烟、 血脂水平等因素的影响。4 0 0为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为0 0时时y

4、y的平的平均值;均值;mm为自变量的个数;为自变量的个数; 1 1、 2 2、 mm为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:意义:如如 1 1表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,X X1 1 每增减一每增减一个单位对个单位对Y Y 的效应(的效应(Y Y 增减增减 个单位)。个单位)。e e为去除为去除mm个自变量对个自变量对Y Y影响后的随机误差,称残差(影响后的随机误差,称残差(residual)residual)。多元回归方程的一般形式

5、多元回归方程的一般形式一、多元回归模型一、多元回归模型5为为y y的估计值或预测值(的估计值或预测值(predicted value)predicted value); b b0 0为回归方程的常数项(为回归方程的常数项(constant)constant),表示各自变量均为,表示各自变量均为0 0时时y y的估计值;的估计值;由样本估计而得的多元回归方程:由样本估计而得的多元回归方程:b b1 1、b b2 2、b bmm为偏回归系数(为偏回归系数(Partial regression coefficientPartial regression coefficient)意义:如意义:如 b

6、b1 1表示在表示在X X2 2、X X3 3 X Xmm固定条件下,固定条件下,X X1 1 每增每增减一个单位对减一个单位对Y Y 的效应(的效应(Y Y 增减增减 b b 个单位)。个单位)。6适用条件:适用条件:线性(线性(linearlinear)、独立性()、独立性(independentindependent)、正态性()、正态性(normalnormal)、等方差(、等方差(equal varianceequal variance)“LINE”“LINE”。线性线性自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性任意两个观察值

7、互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y均服从正均服从正态分布。即要求残差服从正态分布。常用残差图分析。态分布。即要求残差服从正态分布。常用残差图分析。等方差等方差就自变量的任何一个线性组合,应变量就自变量的任何一个线性组合,应变量y y的方差均的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。相同。即要求残差的方差齐性。用散点图或残差图判断。78(1 1)因素筛选:)因素筛选:(因素分析)(因素分析)例如影响高血压的诸多因素中:例如影响高血压的诸多因素中:1 1)哪

8、些是主要因素?)哪些是主要因素?2 2)各因素的作用大小?)各因素的作用大小?(2 2)提高回归方程的估计精度)提高回归方程的估计精度多元回归比只有一个自变量的简单直线回归更多元回归比只有一个自变量的简单直线回归更 能缩小应变量能缩小应变量Y Y对其估计值的离差,在预测和统计对其估计值的离差,在预测和统计 控制方面应用的效果更好。控制方面应用的效果更好。 (3 3)控制混杂因素)控制混杂因素n n多元线性回归除具有直线回归的基本性质外,还具多元线性回归除具有直线回归的基本性质外,还具 有以下特点(用途):有以下特点(用途):9(1 1)用各变量的数据建立回归方程)用各变量的数据建立回归方程(2

9、 2)对总的方程进行假设检验)对总的方程进行假设检验(3 3)当总的方程有显著性意义时,应对每个自变量的)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归偏回归系数再进行假设检验,若某个自变量的偏回归 系数无显著性,则应把该变量剔除,重新建立不包含系数无显著性,则应把该变量剔除,重新建立不包含 该变量的多元回归方程。该变量的多元回归方程。 二、多元回归分析步骤二、多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程对新建立的多元回归方程及偏回归系数按上述程 序进行检验,直到余下的偏回归系数都具有统计意义序进行检验,直到余下的偏回归系数都具有统计意义

10、 为止。最后得到最优方程。为止。最后得到最优方程。 10例例15-115-1(P.262P.262) 2727名糖尿病人的血清总胆固醇、甘油三脂、名糖尿病人的血清总胆固醇、甘油三脂、 空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-215-2中中,试建立血糖与其它几项指标关系的多元线性回归方程。,试建立血糖与其它几项指标关系的多元线性回归方程。表15-2 27名糖尿病人的血糖及有关变变量的测测量结结果 序号i总总胆固醇甘油三脂胰岛岛素糖化血血 糖 (mmol/L)(mmol/L)(U/ml)红红蛋白(%)(mmol/L) X1X2X3X4Y

11、 15.681.904.538.211.2 23.791.647.326.98.8 36.023.566.9510.812.3 265.840.928.616.413.3 273.841.206.459.610.411由上表得到如下多元线性回归方程:1 1、建立回归方程、建立回归方程122 2、回归方程的假设检验、回归方程的假设检验FF检验检验 结果无显著性结果无显著性1 1)表明所观察的自变量与应变量不存在线性回归关系;)表明所观察的自变量与应变量不存在线性回归关系;2 2)也可能由于样本例数过少;)也可能由于样本例数过少; 结果有显著性结果有显著性表明至少有一个自变量与应变量之间存在线性回

12、归关系。表明至少有一个自变量与应变量之间存在线性回归关系。HH0 0: 1 1=2 2= mm= 0= 0HH1 1: 1 1、 2 2、 mm不等于不等于0 0或不全等于或不全等于0 013143 3、各个偏回归系数的假设检验、各个偏回归系数的假设检验tt检验检验n n将将总胆固醇总胆固醇(X(X1 1) ) 剔除。剔除。注意:注意:通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。对于同一资料,不同自变量的对于同一资料,不同自变量的t t值可以相互比较,值可以相互比较,t t的绝对的绝对 值越大,或值越大,或P P越小,说明该自变量对越小,说明该自变量对Y Y所起的作用越

13、大。所起的作用越大。 15n n重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。注意:表中偏回归系数已变化。16n n对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。17n对新方程的偏回归系数进行检验检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)三个因素。最后获得回归方程为:181 1、确定系数(、确定系数(R R2 2):): 意义:意义:在在y y的总变异中,由的总变异中,由x x变量组建立的线性回归方程所能解变量组建立的线性回归方程所能解释的比例。释的比例

14、。 0101,越大越优。,越大越优。特点:特点:R R2 2是随自变量的增加而增大。是随自变量的增加而增大。因此,因此,在相近的情况下,以包含的自变量少者为优。在相近的情况下,以包含的自变量少者为优。三、回归方程的评价三、回归方程的评价、RR复相关系数复相关系数(multiple correlation coefficientmultiple correlation coefficient) 表示表示mm个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程 度。度。0R10R1。即。即Y Y与与 的相关系数。的相关系数。19、校正确定系数(、校正确定系数(adjusted

15、R-squareadjusted R-square,R R2 2a a)越大越优。越大越优。 R R2 2a a不会随无意义的自变量增加而不会随无意义的自变量增加而增大。增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。校正确定系数的计算:校正确定系数的计算:p p 为方程中包含的自变量个数,为方程中包含的自变量个数,p mp m。 R R2 2一定时,一定时, p p R R2 2a a P.268 P.268 2021四、各自变量的评价四、各自变量的评价1 1、偏回归平方和、偏回归平方和是指将某自变量是指将某自变量x xj j从回归方程中剔除后所引起的从回归方程中剔除后所引起的回归平方和的减少量回归平方和的减少量间接反应了自变量间接反应了自变量x xj j对应对应变量的贡献大小。变量的贡献大小。各个自变量的偏回归平方和可以通过拟合包含不各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。同自变量的回归方程计算得到。 22回回归归归归方程中包含的自方程中包含的自变变变变量量平方和平方和 SSSS回回SSSS残残X X1 1 、X X2 2 、X X3 3 、X X4 4133.711133.71188.84188.841X X2 2 、X X3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号