多元(重)线性回归

上传人:飞*** 文档编号:57124773 上传时间:2018-10-19 格式:PPT 页数:68 大小:992KB
返回 下载 相关 举报
多元(重)线性回归_第1页
第1页 / 共68页
多元(重)线性回归_第2页
第2页 / 共68页
多元(重)线性回归_第3页
第3页 / 共68页
多元(重)线性回归_第4页
第4页 / 共68页
多元(重)线性回归_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《多元(重)线性回归》由会员分享,可在线阅读,更多相关《多元(重)线性回归(68页珍藏版)》请在金锄头文库上搜索。

1、Multiple linearregression,第七章 多元(重)线性回归,人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间,例 子,多元回归分析数据格式,第一节 多元线性回归,一、回归模型简介,(一)多元线性回归模型的一般形式,(二)多元线性回归分析的一般步骤,二、多元线性回归方程的建立,各变量的离差矩阵,各变量的离差矩阵,建立多元回归方程,三、多元线性回归方程的 假设检验及其评价,(一)回归方程的方差分析 (所有回归系数

2、为0),有关计算公式,(二)有关评价指标,软件有关结果,Root MSE (残差标准差) 2.00954 R-Square (决定系数) 0.6008 Adj R-Sq (校正决定系数) 0.5282 Dependent Mean 应变量的均值11.92593,1.残差标准差( Root MSE ),反映了回归方程的精度,其值越小说明回归效果越好,2.决定系数 ( determination coefficient),说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好,3.复相关系数 ( multiple correlation coefficient),说明所有自变量与

3、Y间的线性相关程度。 即观察值Y与估计值 之间的相关程度。 如果只有一个自变量,此时,4.校正决定系数( Adjusted determination coefficient),四、各自变量贡献大小的 假设检验及其评价,(一)各回归系数的t检验,Parameter Standard StandardizedVariable DF Estimate Error t Value Pr |t| Estimate变量 自由度 回归系数 标准误 t值 P值 标准化回归系数 Intercept 22 5.94327 2.82859 2.10 0.0473 0X1 22 0.14245 0.36565 0.

4、39 0.7006 0.07758X2 22 0.35147 0.20420 1.72 0.0993 0.30931X3 22 -0.27059 0.12139 -2.23 0.0363 -0.33948X4 22 0.63820 0.24326 2.62 0.0155 0.39774,(二)标准化回归系数,(三)偏回归平方和(sum of squares for partial regression)及其F检验,实例计算,第二节 自变量的选择,1. 变量多增加了模型的复杂度 2. 计算量增大 3. 估计和预测的精度下降 4. 模型应用费用增加,一、全局择优法,根据一些准则(criterion

5、)建立 “最优”回归模型,校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优) AIC(Akaikes Information Criterion)准则; AIC越小越好,校正决定系数( Adjusted determination coefficient),(一) Cp准则的计算公式,(二) AIC准则的计算公式,应用以上准则如何选择模型?,求出所有可能的回归模型(共有2m1个)对应的准则值;按上述准则选择最优模型,SAS获得的几个准则值结果,全局择优法的局限性,如果自变量个数为4,则所有的回归有241 15个;当自变

6、量数个数为10时,所有可能的回归为 2101 1023个;。;当自变量数个数为50时,所有可能的回归为25011015个。,二、逐步选择法,1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验,(一)前进法,自变量从无到有、从少到多,Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。 在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,。

7、局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,(二)后退法,先将全部自变量放入方程,然后逐步剔除,偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大) 。 建立新的回归方程。重复上述过程。局限性:自变量高度相关时,可能得不出正确的结果 。,(三)逐步回归法,双向筛选 ;引入有意义的变量(前进法),剔除无意义变量(后退法),小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。,逐步回归法实例(令入出0.10),逐步回归法实例(第一步),逐步回归法实例(第二步),逐

8、步回归法实例(X1剔除否),逐步回归法实例(第三步),逐步回归法实例(X4/X1/X3剔除否),逐步回归法实例(第四步),逐步回归法实例(是否剔除),逐步回归法实例(是否剔除),例15-3的方差分析结果,例15-3的回归系数及其检验,第三节 多元线性回归的应用 及其注意事项,一、应用,影响因素分析,控制混杂因素 预测:由自变量值推出应变量Y的值 控制:指定应变量Y的值查看自变量的改变量,二、应用条件,三、应用的注意事项,(一)变量的数量化,(1)自变量为连续型变量 :必要时作变换,(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1,(3)自变量为二分类:如令男1,女0,(4)

9、自变量为名义分类:需要采用哑变量(dummy variables)进行编码,名义分类变量的哑变量化,假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:,(二)样本含量,观察个体数n与变量个数m的比例一般至少应为: n : m510,(三)统计“最优”与专业的“最优”,不同准则、方法得出的“最优”方程不同; 不同的引入、剔除标准获得的“最优”方程不同; 方程还受数据的正确性、共线性影响,(四)多重共线性,自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。,回归系数的符

10、号与由专业知识不符 变量的重要性与专业不符,多重共线性的识别与解决办法,整个方程决定系数R2高,但各自变量对应的回归系数均不显著。,解决共线性的主要方法: 筛选自变量 用主成分回归 岭回归。,(五)交互作用,当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。,(六)残差分析(检验应用条件),(六)(用标准化残差发现异常点),一般标准化残差绝对值大于2考虑为异常点(outlier)(也称离群值),(七)偏相关系数,几个相关系数的区别,(八)多元回归计算程序,SPSS计算见书P448,SAS计算程序见书P479,http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号