最新多元线性回归11ppt课件

资源描述

《最新多元线性回归11ppt课件》由会员分享，可在线阅读，更多相关《最新多元线性回归11ppt课件（97页珍藏版）》请在金锄头文库上搜索。

1、进入夏天，少不了一个热字当头，电扇空调陆续登场，每逢此时，总会想起进入夏天，少不了一个热字当头，电扇空调陆续登场，每逢此时，总会想起那一把蒲扇。蒲扇，是记忆中的农村，夏季经常用的一件物品。记忆中的故那一把蒲扇。蒲扇，是记忆中的农村，夏季经常用的一件物品。记忆中的故乡，每逢进入夏天，集市上最常见的便是蒲扇、凉席，不论男女老少，个个手持乡，每逢进入夏天，集市上最常见的便是蒲扇、凉席，不论男女老少，个个手持一把，忽闪忽闪个不停，嘴里叨叨着一把，忽闪忽闪个不停，嘴里叨叨着“怎么这么热怎么这么热”，于是三五成群，聚在大树，于是三五成群，聚在大树下，或站着，或随即坐在石头上，手持那把扇子，边唠嗑边乘凉。孩

2、子们却在周下，或站着，或随即坐在石头上，手持那把扇子，边唠嗑边乘凉。孩子们却在周围跑跑跳跳，热得满头大汗，不时听到围跑跑跳跳，热得满头大汗，不时听到“强子，别跑了，快来我给你扇扇强子，别跑了，快来我给你扇扇”。孩。孩子们才不听这一套，跑个没完，直到累气喘吁吁，这才一跑一踮地围过了，这时子们才不听这一套，跑个没完，直到累气喘吁吁，这才一跑一踮地围过了，这时母亲总是，好似生气的样子，边扇边训，母亲总是，好似生气的样子，边扇边训，“你看热的，跑什么？你看热的，跑什么？”此时这把蒲扇，此时这把蒲扇，是那么凉快，那么的温馨幸福，有母亲的味道！蒲扇是中国传统工艺品，在是那么凉快，那么的温馨幸福，有母亲的味

3、道！蒲扇是中国传统工艺品，在我国已有三千年多年的历史。取材于棕榈树，制作简单，方便携带，且蒲扇的表我国已有三千年多年的历史。取材于棕榈树，制作简单，方便携带，且蒲扇的表面光滑，因而，古人常会在上面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名，实即面光滑，因而，古人常会在上面作画。古有棕扇、葵扇、蒲扇、蕉扇诸名，实即今日的蒲扇，江浙称之为芭蕉扇。六七十年代，人们最常用的就是这种，似圆非今日的蒲扇，江浙称之为芭蕉扇。六七十年代，人们最常用的就是这种，似圆非圆，轻巧又便宜的蒲扇。蒲扇流传至今，我的记忆中，它跨越了半个世纪，圆，轻巧又便宜的蒲扇。蒲扇流传至今，我的记忆中，它跨越了半个世纪，也走过了我们的半个人

4、生的轨迹，携带着特有的念想，一年年，一天天，流向长也走过了我们的半个人生的轨迹，携带着特有的念想，一年年，一天天，流向长长的时间隧道，袅长的时间隧道，袅多元线性回归201011多变量分析方法的提出多变量分析方法的提出统计学处理方法的选择统计学处理方法的选择两个或以上自变量资料的统计学分析方法两个或以上自变量资料的统计学分析方法自变量自变量因变量因变量统计方法统计方法属性（有混杂）属性（有混杂）数值数值协方差分析协方差分析属性或数值属性或数值数值数值多元回归多元回归属性或数值属性或数值属性（二分）属性（二分） logistic回归回归数值或属性数值或属性二分（属性）二分（属性）

5、发生的风险（有截缩）发生的风险（有截缩） Cox（比例风险）回归（比例风险）回归属性属性属性属性对数对数-线性线性属性或数值属性或数值属性（多分）属性（多分）判别分析判别分析数值数值因子分析或聚类分析因子分析或聚类分析出生体重危险因素研究出生体重危险因素研究ID ID 编号编号LOW LOW 出生低体重出生低体重(bwt=2500=0)(bwt=2500=0)AGE AGE 母亲年龄母亲年龄( (岁岁) )LWT LWT 母亲末次月经时的体重母亲末次月经时的体重RACE RACE 种族种族: 1 : 1 白种人白种人 2 2 黄种人黄种人 3 3 黑人黑人SMOKE SMOKE 吸烟

6、史吸烟史: 1 : 1 吸烟吸烟 0 0 否否PTL PTL 早产史早产史: 1 : 1 有有 0 0 无无HT HT 妊娠高血压妊娠高血压: 1 : 1 有有 0 0 无无UI UI 频繁宫缩频繁宫缩: 1 : 1 有有 0 0 无无FTV FTV 产前访视次数产前访视次数BWT BWT 出生体重出生体重( (克克) )探讨的问题婴儿的出生低体重（low)是否与母亲的种族(race)有关？黑人母亲和非黑人母亲的婴儿出生体重是否有显著性差别？黑人、白人及黄种人母亲，其婴儿的出生体重是否有显著性差别？母亲的年龄、吸烟史、既往早产史、妊娠高血压史，频繁宫缩史是否分别与婴儿的出生体重有关？母亲的年龄

7、、吸烟史、既往早产史、妊娠高血压史，频繁宫缩史哪些因素与婴儿的出生体重有关？在控制了年龄、目前吸烟史、既往早产史、妊娠高血压史，频繁宫缩史之后，婴儿的出生体重是否依旧与种族有关？亲的年龄、吸烟史、既往早产史、妊娠高血压史，频繁宫缩史哪些因素与婴儿的出生低体重有关？多变量线性回归分析多变量线性回归分析一、概念一、概念回归是研究变量与变量之间关系的一种回归是研究变量与变量之间关系的一种手段，通过回归方程表达变量与变量之手段，通过回归方程表达变量与变量之间的一种间的一种依存关系依存关系。当研究变量之间的线性关系时就是直线当研究变量之间的线性关系时就是直线回归（回归（linear regression

8、）如：如：UCSF大学的妇产科学及生殖研究所收集大学的妇产科学及生殖研究所收集1980年年-1990年在该生殖中心出生的婴儿及其母年在该生殖中心出生的婴儿及其母亲的资料。亲的资料。母亲的信息：怀孕时的年龄、吸烟史、怀孕前的母亲的信息：怀孕时的年龄、吸烟史、怀孕前的体重、早产史、是否有妊娠高血压、怀孕期间是体重、早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。否发生频繁宫缩、产前接受的访试次数等。新生儿的信息：出生时的体重新生儿的信息：出生时的体重要回答的问题：用回归方程定量的刻画一个新生要回答的问题：用回归方程定量的刻画一个新生儿出生体重（因变量儿出生体重（因变量Y)

9、与母亲孕期的多个自变量与母亲孕期的多个自变量X1，X2，.间的线性间的线性依存关系依存关系出生体重危险因素研究数据库字段注释出生体重危险因素研究数据库字段注释变量名变量名字段注释字段注释ID 编号编号BWT 出生体重（克）出生体重（克）AGE 母亲年龄（岁）母亲年龄（岁）LWT 母亲末次月经时的体重（磅）母亲末次月经时的体重（磅）RACE 种族：种族：1白种人白种人 2黄种人黄种人 3黑人黑人SMOKE 吸烟史：吸烟史：1吸烟吸烟 0否否PTL 早产史早产史：1有有 0否否HT 妊娠高血压：妊娠高血压：1有有 0否否UI 频繁宫缩：频繁宫缩：1有有 0否否FTV 产前访试次数：产前访试次

10、数：1一次一次 2二次及以上二次及以上 0无无设有设有p个自变量个自变量X1，X2，,Xp,一个因变量一个因变量Y，以及一份由，以及一份由n个个体构成的随机样本（个个体构成的随机样本（xi1，xi2，xip，yi），），i=1，2，,n a：回归方程常数项：回归方程常数项 bp：偏回归系数，指其它自变量固定的条件：偏回归系数，指其它自变量固定的条件下，某自变量下，某自变量Xp每改变一个单位时，因每改变一个单位时，因变量变量Y的平均变化量。的平均变化量。：在给定自变量取值条件下：在给定自变量取值条件下y的均数的一的均数的一个点估计。个点估计。新生儿出生体重与母亲怀孕时相关因素的关系：新

11、生儿出生体重与母亲怀孕时相关因素的关系：对每一个新生儿而言：对每一个新生儿而言：Yi=b0+b1*agei+b2*smokei+b3*lwti+ 根据所有新生儿及其母亲的观测值，可以得到新生根据所有新生儿及其母亲的观测值，可以得到新生儿出生体重与母亲相关因素的回归方程：儿出生体重与母亲相关因素的回归方程： i =b0+b1*agei+b2*smokei+b3*lwti+.残差：残差：二、线性回归方程线性回归方程需满足的条件需满足的条件（一）（一） LINE原则原则L（linear）：）：自变量和因变量呈线性关系；自变量和因变量呈线性关系；I （independence）：）：某某xi值改变

12、对值改变对y的影响与另一的影响与另一xi的水平无关；的水平无关； y呈独立性，即任一个体的呈独立性，即任一个体的y值对另一个体的值对另一个体的y值值不提供任何信息；不提供任何信息；N（normality）：）： xi分别取某定值时得到的一组分别取某定值时得到的一组y值呈正态分布；值呈正态分布；E （equal variance）：）：各各y值的方差相等，即各值的方差相等，即各xi取不同值时取不同值时y的不同分布的不同分布服从方差齐性，即其方差为常数服从方差齐性，即其方差为常数（二）因变量的选择（二）因变量的选择因变量必须是定量指标，同时必须满足以上关于因变量必须是定量指标，同时必须满足以

13、上关于线性回归的条件要求，即线性回归的条件要求，即LINE。（三）自变量的选择（三）自变量的选择对对于于自自变变量量没没有有强强制制性性要要求求，但但自自变变量量和和因因变量之间必须是线性关系。变量之间必须是线性关系。自自变变量量可可以以为为定定量量指指标标、定定性性指指标标以以及及等等级级变量中的任何一种。变量中的任何一种。如果自变量为定量指标：如果自变量为定量指标：（1）同同时时自自变变量量与与因因变变量量之之间间为为线线性性关关系系，则则可以直接以原变量的形式进入分析；可以直接以原变量的形式进入分析；（2）如如果果自自变变量量与与因因变变量量之之间间为为非非线线性性关关系系，则需做

14、适当转换，如则需做适当转换，如x2，log（x），），ex等。等。自变量为定性或等级指标：自变量为定性或等级指标：不需要做自变量与因变量的线性关系检验不需要做自变量与因变量的线性关系检验自变量为定性指标：自变量为定性指标：为为二二分分类类变变量量，常常用用0，1或或1，2表表示示。如如x为为性性别别指指标标，0代代表表女女性性，1代代表表男男性性，回回归归方方程程中中对对应应的的回归系数回归系数b表示男性比女性的表示男性比女性的y平均多平均多b。为多分类指标，需要专业判定指标的意义为多分类指标，需要专业判定指标的意义等级变量：直接带入分析等级变量：直接带入分析定性变量：亚变量（定性变量：

15、亚变量（dummy）亚（哑）变量的设置引入引入亚（哑）变量亚（哑）变量亚（哑）变量亚（哑）变量的目的在于区分某个变量的不同属的目的在于区分某个变量的不同属性。性。当自变量为属性变量，特别是不同属性之间无等级高当自变量为属性变量，特别是不同属性之间无等级高低之分，为说明不同属性对因变量的影响大小，常需低之分，为说明不同属性对因变量的影响大小，常需引入亚（哑）引入亚（哑）变量变量变量变量。亚变量的设置：例亚变量的设置：例1一项探讨影响新生儿出生体重的研究：一项探讨影响新生儿出生体重的研究：因变量即结局变量为新生儿出生时的体重；因变量即结局变量为新生儿出生时的体重；研究的因素包括母亲怀孕时的年龄、母

16、亲末次研究的因素包括母亲怀孕时的年龄、母亲末次月经时的体重、母亲的种族、是否吸烟、是否月经时的体重、母亲的种族、是否吸烟、是否有过早产史、是否有妊娠高血压、怀孕期间是有过早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。否发生频繁宫缩、产前接受的访试次数等。亚变量的设置例亚变量的设置例1：出生体重危险因素研究：出生体重危险因素研究变量名变量名字段注释字段注释ID 编号编号BWT 出生体重（克）出生体重（克）AGE 母亲年龄（岁）母亲年龄（岁）LWT 母亲末次月经时的体重（磅）母亲末次月经时的体重（磅）RACE 种族：种族：1白种人白种人 2黄种人黄种人 3黑人黑人SM

17、OKE 吸烟史：吸烟史：1吸烟吸烟 0否否PTL 早产史早产史：1有有 0否否HT 妊娠高血压：妊娠高血压：1有有 0否否UI 频繁宫缩：频繁宫缩：1有有 0否否FTV 产前访试次数：产前访试次数：1一次一次 2二次及以上二次及以上 0无无亚变量的设置：例亚变量的设置：例1将将种种族族分分成成白白人人、黑黑人人和和黄黄种种人人3种种属属性性，可可引引入入2（= 3- -1）个个亚亚变变量量，分分别别表表示示各各种种族族，选选择择其其中中之之一（例如，白人）作为参照一（例如，白人）作为参照变量 x1 x2 白人 0 0 （参照）参照）参照）参照）黑人 1 0 黄种人 0 1 亚变量的设置：例

18、亚变量的设置：例2Framingham心脏病研究，随访心脏病研究，随访1,406人人18年年探讨冠心病发生率与年龄、性别、收缩血压关系探讨冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归的多变量线性回归如何处理年龄与冠心病发生率的关系？如何处理年龄与冠心病发生率的关系？连续变量？连续变量？其他？其他？亚变量的设置：例亚变量的设置：例2（续）（续）x1 = 0，x2 = 0，x3 = 0，为，为4049岁（参照）岁（参照）x1 = 1，x2 = 0，x3 = 0，为，为5054岁岁x2 = 1，x1 = 0，x3 = 0，为，为5559岁岁x3 = 1，x1 = 0，x2 = 0，为，为6

19、062岁岁年龄（岁）年龄（岁） x1 x2 x3 4049（参照）（参照） 0 0 0 5054 1 0 0 5559 0 1 0 6062 0 0 1 亚变量的设置：例亚变量的设置：例2（续）（续）得到冠心病发生率与年龄、性别、收缩血压关系的多变量线性得到冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归方程如下：回归方程如下：y = 0.0613 + 0.0277x1 + 0.0826x2 + 0.0845x3 + 0.1273x4 + 0.1680x5上式中上式中y = log（冠心病发生率（冠心病发生率/（1-冠心病发生率）冠心病发生率）亚变量的设置：例亚变量的设置：例2（续）（

20、续）有时自变量（如年龄）虽然是连续变量，但按其每改有时自变量（如年龄）虽然是连续变量，但按其每改变一个单位（一岁），来估计其对因变量的影响很微变一个单位（一岁），来估计其对因变量的影响很微弱，如将其划分成大小不同的几种属性，并设立亚弱，如将其划分成大小不同的几种属性，并设立亚变变变变量量量量，则可看出不同属性对因变量的影响大小。，则可看出不同属性对因变量的影响大小。这种这种指标分解方法指标分解方法指标分解方法指标分解方法的优点是有助于分清究竟哪种属性的优点是有助于分清究竟哪种属性对所研究疾病危险性的作用较大，也便于研究因素间对所研究疾病危险性的作用较大，也便于研究因素间的交互作用。的交互作用。

21、三、线性回归基本三、线性回归基本SASSAS程序程序PROC REG data=文件名文件名; 调调用用REG过过程程并并指指明明对对哪哪个个文文件件执执行行分分析析，若若省省略略“data= data= “ ，则则SASSAS会会自自动动找找出出在在本本程序之前最后形成的程序之前最后形成的SASSAS语句语句。 Model 因变量因变量=自变量自变量/选择项选择项；每次调用每次调用REG过程至少要有一个过程至少要有一个MODEL语语句。句。MODEL Y=X；一一个个应应变变量量对对一一个个自自变变量量的回归的回归MODEL Y=X1 X2 X3；一一个个应应变变量量对对多多个个自变量的

22、回归自变量的回归MODEL Y1 Y2=X1 X2 X3；多个应变量对多个应变量对多个自变量的回归多个自变量的回归 MODEL语句中的选择项之一：语句中的选择项之一：界定有关参数估计值的有关选项：界定有关参数估计值的有关选项：/STB：要要求求计计算算模模型型中中各各自自变变量量的的标标准准回回归归系数；系数；/CLM/CLM：计算出预测值平均数的：计算出预测值平均数的95%95%可信区间的可信区间的上、下限；上、下限；/CLI/CLI：计计算算出出各各预预测测值值的的95%95%可可信信区区间间的的上上、下限；下限；多元回归基本多元回归基本SAS程序程序proc reg;proc re

23、g; model y=x1 x2/stb; model y=x1 x2/stb;run;run;四、几个重要的概念四、几个重要的概念偏回归系数：偏回归系数：标准回归系数：标准回归系数：决定系数：决定系数：校正复相关系数：校正复相关系数：剩余标准差：剩余标准差：偏回归系数（偏回归系数（bj）当方程中其他自变量固定时，当方程中其他自变量固定时，Xj每改变一个每改变一个单位，引起单位，引起Y的平均变化量，也就是说的平均变化量，也就是说bj的的大小反映了大小反映了Xj对对Y的影响程度。的影响程度。标准回归系数标准回归系数由于各自变量取值的单位及其离散程度通由于各自变量取值的单位及其离散程度通常不同，

24、所以各量纲不同的回归系数之间常不同，所以各量纲不同的回归系数之间不能直接比较大小。为此，需要对偏回归不能直接比较大小。为此，需要对偏回归系数进行标准化以消除量纲的影响。系数进行标准化以消除量纲的影响。标准回归系数绝对值的大小可用来衡量自标准回归系数绝对值的大小可用来衡量自变量对应变量变量对应变量Y的贡献大小，以说明各变量的贡献大小，以说明各变量在多元回归方程中的重要性。在多元回归方程中的重要性。决定系数（决定系数（R2）R2=SS回回/SS总总取值范围在取值范围在0与与1之间，无单位。反映了回归贡献之间，无单位。反映了回归贡献的相对程度，也就是在的相对程度，也就是在Y的总变异中回归所能解释的

25、总变异中回归所能解释的百分比。的百分比。主要通过决定系数数值的大小来反映回归或相关主要通过决定系数数值的大小来反映回归或相关的实际效果。的实际效果。例如：决定系数例如：决定系数= =0.9587，说明所求的回归方程能，说明所求的回归方程能够解释的应变量变异占应变量总变异的够解释的应变量变异占应变量总变异的95.87%存在的存在的问题问题：随方程中自变量的增加而加大，即随方程中自变量的增加而加大，即使引入无显著性变量，其值也会略有增加使引入无显著性变量，其值也会略有增加校正决定系数（校正决定系数（R2adj）其中其中n为拟合模型的观察单位数；为拟合模型的观察单位数；m为方程中所含变量个数为方程中

26、所含变量个数剩余标准差剩余标准差扣除各自变量扣除各自变量Xj组合对应变量组合对应变量Y的线性关系的线性关系影响后所剩下的变异。影响后所剩下的变异。回归估计精度的指标回归估计精度的指标越小回归方程估计误差也越小，估计精度越小回归方程估计误差也越小，估计精度越高。越高。剩余标准差一般随方程中自变量的增加而减少剩余标准差一般随方程中自变量的增加而减少但若引入某些对应变量但若引入某些对应变量Y无显著作用的自变量时，由于回无显著作用的自变量时，由于回归平方和增加很小，剩余平方和减少很小，但剩余自由度归平方和增加很小，剩余平方和减少很小，但剩余自由度却减少，故求得的剩余标准差反而加大。却减少，故求得的剩

27、余标准差反而加大。即方程中增加有显著作用的变量时，即方程中增加有显著作用的变量时，R2adj增加，增加，MSE减少；减少；而方程中引入无显著作用变量时，而方程中引入无显著作用变量时，R2adj可能减小，可能减小，MSE反反而加大。而加大。因此，常以因此，常以R2adj越大，越大，MSE越小作为多元回归方程估计效越小作为多元回归方程估计效果评价的指标。果评价的指标。五五、线性回归方程的评价、线性回归方程的评价（一）评价整个方程在（一）评价整个方程在水准下是否有显著性水准下是否有显著性水准下是否有显著性水准下是否有显著性在在SASSAS软件中，对多元线性回归方程的假设检软件中，对多元线性回归方程

28、的假设检验采用方差分析进行验采用方差分析进行 U：回归平方和，反映由于方程中：回归平方和，反映由于方程中m个自变量个自变量与应变量与应变量Y间的线性关系，而使应变量间的线性关系，而使应变量Y变异减变异减小的部分；小的部分； m为回归自由度，即方程中所含自变量的个数；为回归自由度，即方程中所含自变量的个数； Q为剩余平方和，说明除自变量外，其他随机为剩余平方和，说明除自变量外，其他随机因素对因素对Y变异的影响；变异的影响； n-m-1为剩余自由度。为剩余自由度。如果整个方程在指定的如果整个方程在指定的水准下有显著性意义时水准下有显著性意义时，并不说明方程中每个自变量并不说明方程中每个自变量xj都

29、对都对yi有显著性影响有显著性影响。还需对各个自变量的偏回归系数逐个进行检验还需对各个自变量的偏回归系数逐个进行检验。但但如如果果整整个个方方程程经经F检检验验无无显显著著性性，就就不不必必对对bj逐逐个进行检验个进行检验。（二）评价方程中每个变量的显著性意义（二）评价方程中每个变量的显著性意义（二）评价方程中每个变量的显著性意义（二）评价方程中每个变量的显著性意义即对方程中的各偏回归系数的假设检验。即对方程中的各偏回归系数的假设检验。对每个偏回归系数的检验，在对每个偏回归系数的检验，在SAS软件中，多软件中，多元线性回归分析以元线性回归分析以t检验方法来表达，逐步回归检验方法来表达，逐步回归

30、采用采用F检验。检验。另外，在多元线性回归分析中，直接建另外，在多元线性回归分析中，直接建立立y与全部自变量之间的线性回归模型通与全部自变量之间的线性回归模型通常是不可取的，在建立回归方程的过程常是不可取的，在建立回归方程的过程中有必要对变量进行筛选。中有必要对变量进行筛选。在建立回归方程时，要遵循一个原则，在建立回归方程时，要遵循一个原则，即即“少而精少而精”。（三）几个重要的评价方程质量的指标（三）几个重要的评价方程质量的指标1. 决定系数（决定系数（determination coefficient）2. 校正复相关系数（校正复相关系数（adjusted multiple correla

31、tion coefficient）3. 剩余标准差（剩余标准差（residual standard deviation）4. 赤池信息准则（赤池信息准则（Akaikes Information Criterion，AIC）5. Cp统计量（统计量（Cp statistic）赤池信息准则（赤池信息准则（AIC）是日本学者赤池于是日本学者赤池于1973年提出的应用于年提出的应用于时间序列分析中自回归阶数的确定，多时间序列分析中自回归阶数的确定，多元回归、广义线性回归中自变量的筛选，元回归、广义线性回归中自变量的筛选，以及非线性回归模型的比较和选优。以及非线性回归模型的比较和选优。有两种估计方法，一

32、个是用极大似然估有两种估计方法，一个是用极大似然估计，一个是用最小二乘法，均同时考虑计，一个是用最小二乘法，均同时考虑了模型中参数的个数以及样本量的大小，了模型中参数的个数以及样本量的大小，其原则也是越小越好。其原则也是越小越好。Cp统计量统计量C.L.Mallows(1964)提出了提出了Cp统计量的统计量的概念。概念。选用选用Cp统计量选择模型的准则是：选择统计量选择模型的准则是：选择Cp最接近最接近p（表示选择的模型中参数的个（表示选择的模型中参数的个数）的那个模型。数）的那个模型。注意注意在应用这些准则的时候要注意在应用这些准则的时候要注意：只有对只有对因变量因变量y的假设条件相同的假

33、设条件相同，且估计方法相且估计方法相同时同时，才能相互比较才能相互比较。如用如用AIC判断两个判断两个拟合方程的好坏拟合方程的好坏，一个是用极大似然估一个是用极大似然估计计，一个是用最小二乘法一个是用最小二乘法，则不能直接则不能直接比较比较。在自变量较少时在自变量较少时，可以求出所有可能的可以求出所有可能的回归回归，然后应用上述准则从中选出然后应用上述准则从中选出“最最优优”回归方程回归方程。如果自变量为如果自变量为m个个，则可能的回归方程则可能的回归方程有有2m-1中中。六六、变量的选择、变量的选择和最优模型的建立和最优模型的建立变量选择的原则研究假说研究假说最优回归模型最优回归模型全模型

34、及其各参数估计值均有显著性意义全模型及其各参数估计值均有显著性意义如效果相似，模型中所包含的变量数越少越好如效果相似，模型中所包含的变量数越少越好各个变量在专业上都有实际意义各个变量在专业上都有实际意义选择变量的常用方法选择变量的常用方法1、前向回归法、前向回归法/前进法（前进法（Forward Selection）在在供供选选的的多多个个自自变变量量xi中中，按按其其对对y的的作作用用大大小小（即即偏偏回回归归平方和的大小），由大到小将自变量逐个引入方程平方和的大小），由大到小将自变量逐个引入方程每每引引入入一一个个自自变变量量即即对对其其作作显显著著性性检检验验，如如呈呈显显著著性性时时才

35、才正正式将其列入方程式将其列入方程直至没有新的、有显著性的自变量可引入方程时为止。直至没有新的、有显著性的自变量可引入方程时为止。已已引引入入方方程程的的自自变变量量，在在引引入入新新的的自自变变量量后后，无无论论有有无无显显著著性，不再剔出方程。性，不再剔出方程。选择变量的常用方法选择变量的常用方法（续）2、后向回归法、后向回归法/后退法（后退法（Backward Dimination）与前进法相反。与前进法相反。即即先先将将供供选选的的多多个个自自变变量量xi按按其其对对y的的作作用用大大小小（即即偏偏回回归归平平方方和和的的大大小小），一一起起引引入入方方程程，然然后后将将各各个个自自变

36、变量量逐逐一一剔剔除除，并并作作显显著著性性检检验验，直直至至方方程程中中保保留留的的所所有有变变量量都都有有显显著著性性时时为止。为止。选择变量的常用方法选择变量的常用方法（续）3、逐步回归方法（、逐步回归方法（Stepwise REG）在在供供选选的的多多个个自自变变量量xi中中按按其其对对y的的作作用用大大小小（即即偏偏回回归归平平方方和和的的大大小小），由由大大到到小小将将自自变变量量逐逐个个引引入入方方程程，每每引引入入一一个个自自变变量量即即对对其其作作显显著著性性检检验验，如如有有显显著著性性时时才才正正式式将将其其列列入方程入方程而而每每当当引引入入一一个个新新的的自自变变量量

37、后后对对原原方方程程中中的的原原有有的的自自变变量量也也要要重重新新作作显显著著性性检检验验，将将退退变变为为作作用用无无显显著著性性的的自自变变量量剔剔除除出方程。出方程。再再引引入入一一个个新新的的自自变变量量，再再检检验验，再再剔剔除除，如如此此逐逐步步循循环环，直直至至没没有有新新的的、有有显显著著性性的的自自变变量量可可引引入入方方程程、方方程程中中的的所所有变量也都呈显著性时为止。有变量也都呈显著性时为止。选择变量的常用方法选择变量的常用方法（续）（续）4、判定法（、判定法（Rsquare REG）它与多元回归法类似，以它与多元回归法类似，以R2的值的大小来的值的大小来判定某变量入

38、选后对模型贡献大小。判定某变量入选后对模型贡献大小。R2越越大，该变量入选后对模型的贡献也越大。大，该变量入选后对模型的贡献也越大。MODEL语句中的选择项之：语句中的选择项之：界定回归模型的选项：界定回归模型的选项：(1) selection=Forward;（前进法）（前进法） selection=Backward;（后退法）（后退法） selection=stepwise;（逐步回归法）（逐步回归法） selection=none；（系统默认值，进行全回归分析）；（系统默认值，进行全回归分析）(2) Details;(3)include=正正整整数数（如如3）;(这这个个选选项项规规定

39、定将将model指指令令前前几几个个（如如3个个）自自变变量量纳纳入入每每一一回回归归模模型型汇汇总总，此选项不能与此选项不能与selection=none的设定联用。的设定联用。MODEL语句中的选择项之：语句中的选择项之：界定回归模型的选项：界定回归模型的选项：(4) STOP=正正整整数数(如如5); (REG程程序序搜搜寻寻出出一一个个含含STOP=正整数个数的最佳回归模型后即停止）正整数个数的最佳回归模型后即停止）(5) SLENTRY= ；（或；（或SLE= ；）；）进进入入模模型型的的显显著著性性水水平平的的设设置置，其其中中前前进进法法默默认认值值为为0.5，逐步回归法默认

40、值为，逐步回归法默认值为0.15(6) SLSTAY= ；（或（或SLS= ；）；）保保留留在在模模型型中中的的显显著著性性水水平平的的设设置置，其其中中后后退退法法默默认值为认值为0.10，逐步回归法默认值为，逐步回归法默认值为0.15(7) NOINT；回归模型中不包含截距。回归模型中不包含截距。练习后小结练习后小结从以上的练习可看到：从以上的练习可看到：不同的逐步回归方法所得到的结果不同；不同的逐步回归方法所得到的结果不同；不同的界值所得到的结果不同；不同的界值所得到的结果不同；方程的优劣与界值的大小无必然联系；方程的优劣与界值的大小无必然联系；逐步回归所得到的结果不一定是真正最优

41、的；逐步回归所得到的结果不一定是真正最优的；如果事先已经确定某自变量对因变量结果如果事先已经确定某自变量对因变量结果有重要影响有重要影响，则该变量必须一直留在方程则该变量必须一直留在方程中中，不参加变量的筛选不参加变量的筛选，不管它是否有显不管它是否有显著性著性。变量筛选接受后变量筛选接受后，再考虑该变量的再考虑该变量的回归系数是否与实际情况相符回归系数是否与实际情况相符。如果模型与实际情况不符如果模型与实际情况不符，则需查找原则需查找原因因。样本量太小或自变量数太多样本量太小或自变量数太多异常值异常值自变量间存在共线性等自变量间存在共线性等六、回归系数反常的原因六、回归系数反常的原因（此部分

42、不做要求（此部分不做要求仅供参考）仅供参考）出现回归系数反常的常见原因出现回归系数反常的常见原因样本量不够，或自变量数太多；样本量不够，或自变量数太多；异常值；异常值；自变量的变异太小；自变量的变异太小；自变量间存在共线性。自变量间存在共线性。（一）（一）样本量问题样本量问题有学者认为，作多元回归分析时所需样有学者认为，作多元回归分析时所需样本量一般是所研究变量数本量一般是所研究变量数m的的1020倍。倍。但这一要求在复相关系数（决定系数的但这一要求在复相关系数（决定系数的平方根）大于平方根）大于0.5时尚可，而对于较小的时尚可，而对于较小的复相关系数则仍然偏小。复相关系数则仍然偏小。（二）（

43、二）异常值及强影响点异常值及强影响点定义：定义：在回归分析应用中在回归分析应用中，数据常含有数据常含有一些异常或极端的观察值一些异常或极端的观察值，即这些观察即这些观察值与其他数据远远分开值与其他数据远远分开，并可产生较大并可产生较大的残差的残差，严重影响了回归函数的拟合严重影响了回归函数的拟合。原因：原因：真实存在真实存在录入错误录入错误异常点判别方法：异常点判别方法：图图示示法法：散散点点图图、残残差差图图：适适用用于于当当模模型型中中所含变量少时所含变量少时。统计学指标：统计学指标：学学生生化化残残差差（studentized residual）：当当其其大大于于2时，提示所对应的观察值

44、点可能是异常点。时，提示所对应的观察值点可能是异常点。强影响点判别方法：强影响点判别方法：库克氏距离（库克氏距离（CookD）：通常认为其）：通常认为其大于大于0.5时，可认为第时，可认为第I个观察点对回归函数拟合有较强个观察点对回归函数拟合有较强的影响。的影响。 4.MODEL语句中的选择项之：语句中的选择项之：界定异常值和强影响点的有关参数：界定异常值和强影响点的有关参数：/R：进行预测值的残差分析；：进行预测值的残差分析；/INFLUENCE：规规定定对对每每个个观观测测值值进进行行影影响响分分析析，以判断其观测对估计及预测值的影响以判断其观测对估计及预测值的影响。（三）（三）共线性问

45、题共线性问题在回归分析中存在多元共线性是一个十在回归分析中存在多元共线性是一个十分普遍的现象。分普遍的现象。自变量之间的任何相关都标志着多元共自变量之间的任何相关都标志着多元共线性的存在。线性的存在。1.共线性共线性的存在所带来的后果：的存在所带来的后果：回归系数估计值不稳定回归系数估计值不稳定，表现为表现为：回归参数估计值的标准误很大回归参数估计值的标准误很大；原本非常重要的自变量对回归无统计学意义而原本非常重要的自变量对回归无统计学意义而不能进入方程；不能进入方程；严重时可使样本回归系数可大可小严重时可使样本回归系数可大可小，可正可负可正可负，其专业意义无法解释而出现悖论其专业意义无法解释

46、而出现悖论。对这些前提条件和数据可靠性从统计方法对这些前提条件和数据可靠性从统计方法上进行检查即为上进行检查即为回归诊断回归诊断，同时也必须结，同时也必须结合专业考虑。合专业考虑。2. 共线性判别方法：共线性判别方法：2.1 Xj的容许值（的容许值（TOL）TOL（j）=1-R2（j）R2（j）为）为Xj与其余与其余m-1个回归变量间线性相关个回归变量间线性相关的程度，如果的程度，如果Xj与其余与其余m-1个自变量共线性严个自变量共线性严重重，则，则R2（j）=1，则，则TOL=0，反之，反之TOL=1。这个方法简单这个方法简单，但无明确诊断界限但无明确诊断界限，可作为共可作为共线性诊断的参考

47、指标线性诊断的参考指标。2.2 方差膨胀因子（方差膨胀因子（VIF）VIF=1/1-R2（j）Ri 1，自变量共线性严重，自变量共线性严重，VIF非常大，而非常大，而容许值容许值接近接近0（5或或10，或，或容许值容许值10，即可，即可认为有共线关系存在。认为有共线关系存在。共线性严重存在的诊断界值共线性严重存在的诊断界值：条件指数条件指数大于等于大于等于10，且所对应的方差比大于，且所对应的方差比大于0.5解决共线性问题的方法有很多，可以采用解决共线性问题的方法有很多，可以采用岭回归、主成分回归等方法。岭回归、主成分回归等方法。MODEL语句中的选择项之一：语句中的选择项之一：界定界定共线

48、性共线性的有关的有关参数参数：/TOL（tolerance of Xj）：要要求求计计算算模模型型中中各各自自变变量量的容许值；的容许值；/VIF（variance inflation factors）：计计算算、输输出出各各自变量的方差膨胀因子；自变量的方差膨胀因子；/COLLIN：对对回回归归模模型型的的自自变变量量（包包括括回回归归常常数数）做做共线性分析；共线性分析；/COLLINNOINT：对对回回归归模模型型的的自自变变量量（不不包包括括回回归归常数）做共线性分析；常数）做共线性分析；应用多变量线性回归分析应用多变量线性回归分析注意事项注意事项适用条件适用条件：因变量必须是连续变量

49、因变量必须是连续变量，自变量既可以是自变量既可以是连续变量连续变量、又可以是属性变量又可以是属性变量。多变量回归分析的应用需符合一定假设：多变量回归分析的应用需符合一定假设：LINE应用多变量线性回归分析应用多变量线性回归分析注意事项（续）注意事项（续）应用多变量回归分析时应用多变量回归分析时，最重要的是注意：最重要的是注意：数据是否符合数学模型的假设数据是否符合数学模型的假设；是否有代表性是否有代表性；考虑考虑R2的大小的大小，如如R2很小很小，说明自变量与因变量的相关关说明自变量与因变量的相关关系不大系不大，或是拟合的模型欠妥或是拟合的模型欠妥；变量变化范围太小变量变化范围太小，回

50、归平方和就小回归平方和就小，不易有显著性不易有显著性；变量测量误差太大变量测量误差太大，易出现异常值易出现异常值；是否样本含量过小？是否样本含量过小？应用多变量线性回归分析应用多变量线性回归分析注意事项注意事项（续）如果如果y与与xi之间存在依存关系之间存在依存关系，且有显著性意义且有显著性意义，并并不证明其间存在因果关系不证明其间存在因果关系，必须根据变量的本质必须根据变量的本质，结合专业知识作出正确的因果判断结合专业知识作出正确的因果判断。xi并非随机变量并非随机变量，xi的取值范围不能超出观察值范的取值范围不能超出观察值范围围，故回归方程不能随意外推故回归方程不能随意外推，不适当的外

51、推可导不适当的外推可导致错误的结论致错误的结论。线性回归观察数据与外推线性回归观察数据与外推应用多变量线性回归分析应用多变量线性回归分析注意事项注意事项（续）（续）如各自变量内在相关（自相关）程度较大如各自变量内在相关（自相关）程度较大，b bj j的误的误差可能较大差可能较大，有时使有时使b bj j不显著不显著，此时宜将内部相关此时宜将内部相关的变量剔除的变量剔除。如数据呈极大或极小的极端值（或异常值）时如数据呈极大或极小的极端值（或异常值）时，不不应随意取舍应随意取舍，应对其影响大小作出诊断后应对其影响大小作出诊断后，再决定再决定如何处理如何处理。如自变量入选方程如自变量入选方程，说明其

52、对说明其对y y有作用有作用，可以是独可以是独立作用立作用，也可能是交互作用也可能是交互作用。应用多变量线性回归分析应用多变量线性回归分析注意事项注意事项（续）剔除或入选自变量时所规定的剔除或入选自变量时所规定的P值界限不同，所得值界限不同，所得的回归方程也不相同的回归方程也不相同哪些自变量应列入方程，除考虑该变量可能对哪些自变量应列入方程，除考虑该变量可能对y的的估计有作用外，还需考虑获取该变量数据的难易程估计有作用外，还需考虑获取该变量数据的难易程度、及所需的相对费用大小度、及所需的相对费用大小线性相关线性相关两个随机变量间两个随机变量间(如年龄和血压如年龄和血压)是否存在线是否存在线性联

53、系；联系的方向（正向或负向）及程性联系；联系的方向（正向或负向）及程度度。两个连续型变量两个连续型变量X和和Y都随机变动且不分主都随机变动且不分主次次，可通过线性相关（可通过线性相关（linear correlation）分析来刻他们之间可能存在）分析来刻他们之间可能存在的线性联系的方向与程度的线性联系的方向与程度。分为正相关分为正相关、负相关和零相关负相关和零相关。线性相关分析的注意事项线性相关分析的注意事项进行线性相关分析之前最好先做原始数据的散点图，其目的进行线性相关分析之前最好先做原始数据的散点图，其目的变量之间是否存在线性联系；变量之间是否存在线性联系；可初步看出变量分布是否正态；可

54、初步看出变量分布是否正态；是否存在异常点是否存在异常点(outlier)。变量取值非随机时不能作相关。如在某些医学问题中，一个变变量取值非随机时不能作相关。如在某些医学问题中，一个变量是随机变动，另一个数值人为选定时不能做相关分析。量是随机变动，另一个数值人为选定时不能做相关分析。例：研究药物的剂量例：研究药物的剂量-反应关系，人为选定反应关系，人为选定n种剂量，观察每种剂量下种剂量，观察每种剂量下动物的反应。动物的反应。线性相关分析的注意事项线性相关分析的注意事项相关分析中对变量的选择及统计结果的解释要结合专业背景，相关分析中对变量的选择及统计结果的解释要结合专业背景，切不可把任意两个变量拉

55、在一起盲目下结论。切不可把任意两个变量拉在一起盲目下结论。即使专业上有理由作相关，两变量的地位也是平等的，所揭示即使专业上有理由作相关，两变量的地位也是平等的，所揭示的可能仅是一种统计学上的关联性，不一定是因果联系。的可能仅是一种统计学上的关联性，不一定是因果联系。样本足够大时绝对值较小的样本相关系数也易得到较小的样本足够大时绝对值较小的样本相关系数也易得到较小的p值，值，故而结果有统计学意义并不一定反映相关就很密切。故而结果有统计学意义并不一定反映相关就很密切。SAS程序：程序：proc plot;plot oxygen*runtime=s;plot oxygen*weight=*;plot oxygen*age=#;run;proc corr; var oxygen sbp1;run;多重相关分析多重相关分析（续）复相关系数（全相关系数）表示变量复相关系数（全相关系数）表示变量y与变量与变量xk（k=1,2,3,k）之间的线性密切程度）之间的线性密切程度复相关系数度量一个变量与多个变量间的线性相关关复相关系数度量一个变量与多个变量间的线性相关关系系复相关系数是总体相关系数复相关系数是总体相关系数的有偏估的有偏估计计，其取，其取值值01之之间间96结束语结束语谢谢大家聆听！谢谢大家聆听！97

展开阅读全文

最新多元线性回归11ppt课件

最新文档