多重线性回归分析ppt课件

上传人:新** 文档编号:568630631 上传时间:2024-07-25 格式:PPT 页数:98 大小:1.38MB
返回 下载 相关 举报
多重线性回归分析ppt课件_第1页
第1页 / 共98页
多重线性回归分析ppt课件_第2页
第2页 / 共98页
多重线性回归分析ppt课件_第3页
第3页 / 共98页
多重线性回归分析ppt课件_第4页
第4页 / 共98页
多重线性回归分析ppt课件_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《多重线性回归分析ppt课件》由会员分享,可在线阅读,更多相关《多重线性回归分析ppt课件(98页珍藏版)》请在金锄头文库上搜索。

1、多重线性回归分析多重线性回归分析军事医学科学院军事医学科学院统计学教研室统计学教研室高高 辉辉2内内容容基本原理基本原理方法简介方法简介分析步骤分析步骤几点补充几点补充3一、方法简介一、方法简介1.1分析目的与方法选择分析目的与方法选择研究一个因变量与一个自变量间的线性关系时研究一个因变量与一个自变量间的线性关系时简单线性回归分析简单线性回归分析研究一个因变量与多个自变量间的线性关系时研究一个因变量与多个自变量间的线性关系时多重线性回归分析多重线性回归分析研究多个因变量与多个自变量间的线性关系时研究多个因变量与多个自变量间的线性关系时多元多重线性回归分析多元多重线性回归分析4一、方法简介一、方

2、法简介1.2概念概念用回归方程用回归方程定量地刻画一个因变量与多个自定量地刻画一个因变量与多个自变量之间的线性依存关系变量之间的线性依存关系,称为多重线性回归分,称为多重线性回归分析(析(multiplelinearregressionanalysis)。)。自变量是相互独立的连续型变量或分类变量。自变量是相互独立的连续型变量或分类变量。一、方法简介一、方法简介1.3数据结构数据结构表表1进行多重线性回归分析资料的数据结构进行多重线性回归分析资料的数据结构5编号编号X1X2XkY1X11X12X1kY12X21X22X2kY2:nXn1Xn2XnkYn6二、基本原理二、基本原理2.1原理简介原

3、理简介多重线性回归模型:多重线性回归模型:Y=bb0+bb1X1+bb2X2+bbkXk+ee=bbX+ee 其中,其中,bbj (j=0,1,2,k)为未知参数,为未知参数,ee为随机误差项。为随机误差项。7二、基本原理二、基本原理2.1原理简介原理简介多重线性回归模型中包含多个自变量,它们多重线性回归模型中包含多个自变量,它们同时对因变量同时对因变量Y 发生作用。发生作用。若要考察一个自变量对若要考察一个自变量对Y的影响,就必须假的影响,就必须假设其他自变量保持不变。设其他自变量保持不变。8二、基本原理二、基本原理 2.1原理简介原理简介因此,多重线性回归模型中的回归系数为因此,多重线性回

4、归模型中的回归系数为偏偏回归系数回归系数。它反映的是当模型中的它反映的是当模型中的其他自变量不变时其他自变量不变时,其中其中一个自变量对因变量一个自变量对因变量Y 的均值的影响的均值的影响。9二、基本原理二、基本原理 2.2前提条件前提条件多重线性回归分析要求资料满足线性多重线性回归分析要求资料满足线性(Linear)、独立性独立性(Independence)、正态性、正态性(Normality)和方差和方差齐性齐性(Equalvariance),即,即LINE条件条件。除此之外,还要求多个自变量之间相关性不除此之外,还要求多个自变量之间相关性不要太强。要太强。10二、基本原理二、基本原理 2

5、.2前提条件前提条件线性线性指自变量与因变量之间的关系是线性的指自变量与因变量之间的关系是线性的独立性独立性指各观测值之间是相互独立的指各观测值之间是相互独立的正态性正态性指自变量取不同值时,因变量服从正指自变量取不同值时,因变量服从正态分布态分布方差齐性方差齐性指自变量取不同值时,因变量的方指自变量取不同值时,因变量的方差相等差相等11三、分析步骤三、分析步骤1.基本任务基本任务 求出模型中参数的估计值,对模型和参数进求出模型中参数的估计值,对模型和参数进行假设检验;行假设检验; 对自变量进行共线性诊断,对观测值进行异对自变量进行共线性诊断,对观测值进行异常值诊断;常值诊断; 结合统计学知识

6、和专业知识,对回归方程进结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。行合理的解释,并加以应用。 12三、分析步骤三、分析步骤2.具体步骤具体步骤2.1回归参数估计回归参数估计多重线性回归分析的参数估计,常采用最小多重线性回归分析的参数估计,常采用最小二乘法二乘法(OLS)进行。进行。参数估计值为:参数估计值为:13三、分析步骤三、分析步骤2.具体步骤具体步骤2.2模型检验模型检验根据方差分析的思想,将总的离均差平方和根据方差分析的思想,将总的离均差平方和SS总总分解为回归平方和分解为回归平方和SS回回和残差平方和和残差平方和SS残残两部两部分。分。SS总总的自由度为的自由度

7、为n-1, SS回回的自由度为的自由度为k, SS残残的自由度为的自由度为n-k-1。14三、分析步骤三、分析步骤2.具体步骤具体步骤2.2模型检验模型检验15三、分析步骤三、分析步骤2.具体步骤具体步骤2.2模型检验模型检验模型的显著性检验步骤为:模型的显著性检验步骤为:第一步,建立检验假设。第一步,建立检验假设。H0:bb1=bb2=bbk=0H1:bb1, b b2, b bk不同时为不同时为016三、分析步骤三、分析步骤2.具体步骤具体步骤2.2模型检验模型检验模型的显著性检验步骤为:模型的显著性检验步骤为:第二步,计算统计量第二步,计算统计量F的值。的值。17三、分析步骤三、分析步骤

8、2.具体步骤具体步骤2.2模型检验模型检验模型的显著性检验步骤为:模型的显著性检验步骤为:第三步,确定第三步,确定P值,下统计学结论。值,下统计学结论。根据检验统计量根据检验统计量F的值和自由度,确定其对的值和自由度,确定其对应的应的P值。若值。若Pa a,则接受,则接受H0,认为回归模型的系,认为回归模型的系数全部为数全部为0;若;若P ta a/2(n-k-1)或或t - ta a/2(n-k-1),则,则PFModel61985.79167330.9652854.99|t|Intercept1-83.1803616.97446-4.90l l2l lk。63三、分析步骤三、分析步骤2.6

9、共线性诊断共线性诊断2.6.1条件数条件数最大特征根与其余每个特征根比值的平方根,最大特征根与其余每个特征根比值的平方根,称为条件指数称为条件指数(conditionalnumber),公式为:,公式为:64三、分析步骤三、分析步骤2.6共线性诊断共线性诊断2.6.1条件数条件数而最大条件指数,简称为条件数,其值为最而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:大特征根与最小特征根之比值的平方根。即:65三、分析步骤三、分析步骤2.6共线性诊断共线性诊断2.6.1条件数条件数条件数越大,说明设计矩阵条件数越大,说明设计矩阵X具有越强的共具有越强的共线性。线性。经

10、验上,若经验上,若0CNk30,则认,则认为自变量间存在严重的多重共线性。为自变量间存在严重的多重共线性。66三、分析步骤三、分析步骤2.6共线性诊断共线性诊断2.6.2方差分量方差分量SAS软件在给出条件数的同时,还会给出每软件在给出条件数的同时,还会给出每个主成分变量分得的方差,即方差分量,个主成分变量分得的方差,即方差分量,SAS输输出结果时的标志是出结果时的标志是“VarProp”。67三、分析步骤三、分析步骤2.6共线性诊断共线性诊断2.6.2方差分量方差分量若条件数若条件数(即最大条件指数即最大条件指数)大于大于10,且所在,且所在行同时有两个以上的变量方差分量超过行同时有两个以上

11、的变量方差分量超过0.5,就意,就意味着这些变量间存在一定程度的相关。味着这些变量间存在一定程度的相关。68三、分析步骤三、分析步骤2.6共线性诊断共线性诊断2.6.3共线性的解决方法共线性的解决方法(1)变量筛选变量筛选采用自变量筛选的方法一般可选出对因变量采用自变量筛选的方法一般可选出对因变量有统计学影响且相互之间独立或相关性较低的一有统计学影响且相互之间独立或相关性较低的一组自变量。组自变量。69三、分析步骤三、分析步骤2.6共线性诊断共线性诊断2.6.3共线性的解决方法共线性的解决方法(2)有偏估计有偏估计自变量间存在多重共线性且专业上认为需要自变量间存在多重共线性且专业上认为需要保留

12、在模型中时,不宜使用最小二乘法估计模型。保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。此时,可采用有偏估计。此类方法包括岭回归分析、主成分回归分析此类方法包括岭回归分析、主成分回归分析等。等。70三、分析步骤三、分析步骤2.6共线性诊断共线性诊断2.6.3共线性的解决方法共线性的解决方法(3)增大样本含量增大样本含量通过增加样本含量,减少估计量的方差,提通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。高估计精度,可在一定程度上克服多重共线性。71三、分析步骤三、分析步骤2.7异常点诊断异常点诊断2.7.1异常点异常点对因变量的预测值影响特别大

13、,甚至容易导对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,称为异常点。致相反结论的观测点,称为异常点。异常点的诊断,可采用学生化残差统计量、异常点的诊断,可采用学生化残差统计量、CooksD统计量。统计量。72三、分析步骤三、分析步骤2.7异常点诊断异常点诊断2.7.2学生化残差统计量学生化残差统计量Studentizedresidual,计算公式为:,计算公式为:该统计量的该统计量的绝对值大于绝对值大于2时,所对应的观测点时,所对应的观测点可能是异常点。可能是异常点。73三、分析步骤三、分析步骤2.7异常点诊断异常点诊断2.7.3CooksD统计量统计量库克距离统计量。库克距离统

14、计量。一般认为,一般认为,CooksD0.5时,可认为此观测时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点对回归模型的拟合有强影响,即可认为是异常点。点。74三、分析步骤三、分析步骤2.7异常点诊断异常点诊断2.7.4异常点的处置异常点的处置认真核对原始数据。若属抄写或输入等人为认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。点,重新拟合回归模型。如有可能,最好在此实验点上补做实验,进如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。一步确定此可疑异常点是否属实。75

15、三、分析步骤三、分析步骤2.8自变量作用大小评价自变量作用大小评价由于自变量由于自变量量纲不同量纲不同,不能直接根据原始数,不能直接根据原始数据计算得来的偏回归系数来评价各自变量对因变据计算得来的偏回归系数来评价各自变量对因变量的影响大小。量的影响大小。也不能依据也不能依据P 值来判断自变量对因变量的影值来判断自变量对因变量的影响大小。因为响大小。因为P 值的大小,不表示自变量的影响值的大小,不表示自变量的影响强弱,仅表示认为它有影响的可能性有多大。强弱,仅表示认为它有影响的可能性有多大。76三、分析步骤三、分析步骤2.8自变量作用大小评价自变量作用大小评价先对原始数据进行标准化变换,然后再计

16、算先对原始数据进行标准化变换,然后再计算偏回归系数,此时的偏回归系数称为标准化偏回偏回归系数,此时的偏回归系数称为标准化偏回归系数。归系数。标准化偏回归系数值越大,说明该自变量对标准化偏回归系数值越大,说明该自变量对因变量的影响越大因变量的影响越大。77三、分析步骤三、分析步骤例例1为推算少年儿童心脏面积,重庆医科大为推算少年儿童心脏面积,重庆医科大学对学对33名名8岁正常男童进行观测,获得身高岁正常男童进行观测,获得身高(x1,cm)、体重体重(x2,cm)、心脏横径、心脏横径(x3,cm)、心脏纵径、心脏纵径(x4,cm)、心脏宽径、心脏宽径(x5,cm)、胸腔横径、胸腔横径(x6,cm)

17、及心脏面积及心脏面积(y,cm2)的值,结果如表的值,结果如表2。78三、分析步骤三、分析步骤表表233名名8岁正常男童的观测数据岁正常男童的观测数据idx1x2x3x4x5x6y1120.5020.508.338.807.2018.4048.282133.5027.509.6010.308.1021.6066.893121.5021.008.809.708.0019.8054.73:25126.0025.009.1010.207.7020.9049.09:33124.5024.009.509.907.8020.8057.0079三、分析步骤三、分析步骤SAS程序如下程序如下dataa;inp

18、utidx1-x6y;cards;1120.5020.508.338.807.2018.4048.282133.5027.509.6010.308.1021.6066.893121.5021.008.809.708.0019.8054.73;run;procreg;modely=x1-x6/selection=stepwisesle=0.3sls=0.05r;run;排除标准残差分析纳入标准逐步回归法80三、分析步骤三、分析步骤SAS结果结果逐步回归过程摘要逐步回归过程摘要SummaryofStepwiseSelectionStepVariableEnteredVariableRemovedN

19、umberVarsInPartialR-SquareModelR-SquareC(p)FValuePrF1x410.85820.858221.4690187.64FIntercept-58.481996.52360478.6106080.37|t|Intercept1-58.862434.37621-13.45.0001x312.315710.889982.600.0146x416.014020.942906.38.0001x514.637370.877665.28|t|StandardizedEstimateIntercept1-58.862434.37621-13.45.00010x312

20、.315710.889982.600.01460.20224x416.014020.942906.38.00010.54398x514.637370.877665.28.00010.3014287三、分析步骤三、分析步骤SAS结果结果模型拟合效果模型拟合效果RootMSE1.63690R-Square0.9639DependentMean57.08438AdjR-Sq0.9601CoeffVar2.8675188三、分析步骤三、分析步骤SAS结果结果未校正截距项的共线性诊断结果未校正截距项的共线性诊断结果(截距项无意义截距项无意义)CollinearityDiagnosticsNumberEi

21、genvalueConditionIndexProportionofVariationInterceptx3x4x513.994311.000000.000273330.000080030.000060160.0001151920.0036133.243110.844940.062320.032070.0023530.0014752.210310.154370.187760.015040.8915740.0006111680.843090.000417130.749840.952830.1059689三、分析步骤三、分析步骤SAS结果结果校正截距项的共线性诊断结果校正截距项的共线性诊断结果(截

22、距项有意义截距项有意义)CollinearityDiagnostics(interceptadjusted)NumberEigenvalueConditionIndexProportionofVariationx3x4x512.587641.000000.027960.024210.0469220.303462.920120.179800.041890.8768430.108904.874570.792240.933900.0762490三、分析步骤三、分析步骤结论:结论:结合以上结果,可知:自变量结合以上结果,可知:自变量X3、X4、X5对对因变量的影响有统计学意义。所得模型为:因变量的影响

23、有统计学意义。所得模型为:Y=-58.86+2.32X3+6.01X4+4.64X5根据标准化偏回归系数的大小可知:根据标准化偏回归系数的大小可知: X4(0.54)对因变量的影响最大,)对因变量的影响最大, X5(0.30)次之,)次之, X3(0.20)最小。)最小。91三、分析步骤三、分析步骤结论:结论:即心脏横径、心脏纵径和心脏宽径对心脏面即心脏横径、心脏纵径和心脏宽径对心脏面积的影响有影响,最终模型的决定系数为积的影响有影响,最终模型的决定系数为0.96,说明由这三者估计心脏面积有较大的实用价值。说明由这三者估计心脏面积有较大的实用价值。92四、几点补充四、几点补充4.1哑变量哑变量

24、多重线性回归分析中,多重线性回归分析中,自变量为多值名义变自变量为多值名义变量时,需对其进行哑变量变换。量时,需对其进行哑变量变换。每个哑变量都是一个二值变量,所需哑变量每个哑变量都是一个二值变量,所需哑变量的数目为多值名义变量的类别数减的数目为多值名义变量的类别数减1。如。如“血型血型”是一个多值名义变量,有是一个多值名义变量,有A、B、AB、O四种,若四种,若以以O型血为基准,需引入型血为基准,需引入3个(个(4-1=3)哑变量来)哑变量来描述。描述。93四、几点补充四、几点补充4.1哑变量哑变量 令:令:94四、几点补充四、几点补充4.1哑变量哑变量 则可得到下面的对应关系:则可得到下面

25、的对应关系:表表3 3 用用3 3个哑变量描述血型变量个哑变量描述血型变量血型血型哑变量哑变量X1X2X3A100B010AB001O00095四、几点补充四、几点补充4.2常见应用错误常见应用错误4.2.1建立模型时,不筛选自变量建立模型时,不筛选自变量在建立多重线性回归模型时,在建立多重线性回归模型时,不考虑各自变不考虑各自变量对因变量的影响是否有统计学意义,不采用任量对因变量的影响是否有统计学意义,不采用任何变量筛选方法,直接将所有变量都保存在模型何变量筛选方法,直接将所有变量都保存在模型中。中。96四、几点补充四、几点补充4.2常见应用错误常见应用错误4.2.2以单因素分析方法取代多因

26、素分析方法以单因素分析方法取代多因素分析方法先以各自变量分别与因变量做简单相关分析先以各自变量分别与因变量做简单相关分析或简单回归分析。然后对简单相关系数或简单回或简单回归分析。然后对简单相关系数或简单回归系数进行假设检验,归系数进行假设检验,P0.05的自变量予以保留,的自变量予以保留,其他予以踢除。其他予以踢除。最后,将保留下来的自变量与因变量一起进最后,将保留下来的自变量与因变量一起进行多重线性回归分析。行多重线性回归分析。97总结总结何时使用多重线性回归分析?何时使用多重线性回归分析?如何进行自变量筛选?如何进行自变量筛选?如何进行共线性诊断?如何进行共线性诊断?如何进行异常点检测?如何进行异常点检测?如何评价自变量的影响大小?如何评价自变量的影响大小?常见的应用错误有哪些?常见的应用错误有哪些?谢谢!谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号