多元线性回归分析(6)课件

上传人:夏** 文档编号:567426538 上传时间:2024-07-20 格式:PPT 页数:41 大小:824KB
返回 下载 相关 举报
多元线性回归分析(6)课件_第1页
第1页 / 共41页
多元线性回归分析(6)课件_第2页
第2页 / 共41页
多元线性回归分析(6)课件_第3页
第3页 / 共41页
多元线性回归分析(6)课件_第4页
第4页 / 共41页
多元线性回归分析(6)课件_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《多元线性回归分析(6)课件》由会员分享,可在线阅读,更多相关《多元线性回归分析(6)课件(41页珍藏版)》请在金锄头文库上搜索。

1、回归分析中的多重共线性问题回归分析中的多重共线性问题 什么是多重共线性什么是多重共线性 多重共线性产生的后果多重共线性产生的后果 多重共线性的检验多重共线性的检验 多重共线性的补救措施多重共线性的补救措施1多元线性回归分析(6)课件第一节第一节 什么是多重共线性什么是多重共线性 多重共线性的含义多重共线性的含义 产生多重共线性的背景产生多重共线性的背景 2多元线性回归分析(6)课件 所谓的多重共线性所谓的多重共线性(Multi-Collinearity),不仅包,不仅包括完全的多重共线性,还包括不完全的多重共线性。括完全的多重共线性,还包括不完全的多重共线性。 对于解释变量对于解释变量 ,如果

2、存在不全为,如果存在不全为0的的 数数 ,使得,使得 则称解释变量则称解释变量 之间存在着完全的多重之间存在着完全的多重 共线性。共线性。一、多重共线性的含义一、多重共线性的含义3多元线性回归分析(6)课件 当当 时,表明在数据矩阵时,表明在数据矩阵 中,至少中,至少有一个列向量可以用其余的列向量线性表示,则有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。说明存在完全的多重共线性。4多元线性回归分析(6)课件不完全的多重共线性不完全的多重共线性 实际中,常见的情形是解释变量之间存在不完实际中,常见的情形是解释变量之间存在不完全的多重共线性。全的多重共线性。 对于解于解释变量

3、量,存在不全存在不全为0的数的数,使得使得 为随机随机变量。量。这表明解表明解释变量量只是一种近似的只是一种近似的线性关系性关系。其中其中,5多元线性回归分析(6)课件 ,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可以通过Y 对 Xj 的一元回归来估计。回归模型中解释变量的关系回归模型中解释变量的关系 可能表现为三种情形:可能表现为三种情形:(1) ,解释变量间完全共线性。此时模型参数将无法确定。 ,解释变量间存在一定程度的线性关系。实际中常遇到的情形。(2)(3) 6多元线性回归分析(6)课件 二、产生多重共线性的背景二、产生多重共线性的背景 多重共线性产生

4、的背景主要有几种情形:多重共线性产生的背景主要有几种情形: 1.变量之间具有共同变化趋势。变量之间具有共同变化趋势。 2.模型中包含滞后变量。模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。利用截面数据建立模型也可能出现多重共线性。 4.样本数据自身的原因。样本数据自身的原因。 7多元线性回归分析(6)课件第二节第二节 多重共线性产生的后果多重共线性产生的后果 完全多重共线性产生的后果完全多重共线性产生的后果 不完全多重共线性产生的后果不完全多重共线性产生的后果8多元线性回归分析(6)课件一、完全多重共线性产生的后果一、完全多重共线性产生的后果1.参数的估计值不确定参数的估

5、计值不确定当解释变量当解释变量完全线性相关完全线性相关时时 OLS 估计式不确定估计式不确定 从偏回归系数意义看:在从偏回归系数意义看:在 和和 完全共线性时,无法保完全共线性时,无法保持持 不变,去单独考虑不变,去单独考虑 对对 的影响(的影响( 和和 的影响的影响不可区分)不可区分) 从从OLS估计式看:可以证明此时估计式看:可以证明此时2.参数估计值的方差无限大参数估计值的方差无限大OLS估计式的方差成为无穷大:估计式的方差成为无穷大: 9多元线性回归分析(6)课件如果存在完全共线性我们再引入一个任意非零常数回归系数却显然不同10多元线性回归分析(6)课件 下面再用模型参数说明完全多重共

6、线性的后果。对于上述二元线性回归模型:11多元线性回归分析(6)课件 二、不完全多重共线性产生的后果二、不完全多重共线性产生的后果 如果模型中存在不完全的多重共线性,可以得到如果模型中存在不完全的多重共线性,可以得到参数的估计值,但是对计量分析可能会产生一系参数的估计值,但是对计量分析可能会产生一系列的影响。列的影响。 1.参数估计值的方差增大参数估计值的方差增大 当当 增大时增大时 也增大也增大 12多元线性回归分析(6)课件2.对参数区间估计时,置信区间趋于变大对参数区间估计时,置信区间趋于变大3.假设检验容易作出错误的判断假设检验容易作出错误的判断4.可能造成可决系数较高,但对各个参数单

7、独的可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。数符号相反,得出完全错误的结论。 13多元线性回归分析(6)课件 第三节第三节 多重共线性的检验多重共线性的检验 简单相关系数检验法简单相关系数检验法 方差扩大(膨胀)因子法方差扩大(膨胀)因子法 直观判断法直观判断法 逐步回归法逐步回归法14多元线性回归分析(6)课件一、简单相关系数检验法一、简单相关系数检验法 含义:含义:简单相关系数检验法是利用解释变量之间简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共

8、线性的线性相关程度去判断是否存在严重多重共线性的一种简便方法。的一种简便方法。 判断规则:判断规则:一般而言,如果每两个解释变量的简一般而言,如果每两个解释变量的简单相关系数单相关系数(零阶相关系数零阶相关系数)比较高,例如大于比较高,例如大于0.8,则可认为存在着较严重的多重共线性。,则可认为存在着较严重的多重共线性。15多元线性回归分析(6)课件16多元线性回归分析(6)课件 注意:注意: 较高的简单相关系数只是多重共线性存在的较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系

9、解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。据相关系数进行多重共线性的准确判断。17多元线性回归分析(6)课件 现在的统计分析软件一般采用容忍度和方差容忍度和方差膨胀因子膨胀因子度量变量之间的共线性问题。一般模型的共线性的容忍度容忍度(tolerance)与方差膨胀方差膨胀因子因子(Variance Inflation Factor,VIF)互为倒数方程膨胀因子也被译为方程扩大因子方程扩大因子等。简单地说,容忍度可以定义为 二、方差扩大(膨胀)因子法二、方差扩大(膨胀)因子法

10、这里 Rj 是参与回归的第j 个自变量与其它参与回归的自变量的复相关系数。相应地,VIF 定义为18多元线性回归分析(6)课件统计上可以上可以证明,解明,解释变量量的参数估的参数估计式式的方差可表示的方差可表示为 其中的其中的是是变量量(Variance Inflation Factor),即,即的方差扩大因子的方差扩大因子 19多元线性回归分析(6)课件 如果不存在共线性,则 Rj=0,从而容忍度和VIF 都为1。一般用VIF 判断共线性的强度。严格地说,要求VIF10。不过,这一点在实际中有时很难做到。因此,在具体操作中应该将VIF 与P 值或者t 值结合起来进行综合判断。 举例说来,假如

11、我们要计算三元线性模型20多元线性回归分析(6)课件如何计算如何计算VIF? 借助矩阵知识,可以非常方便地算出 VIF 值。首先对m 个自变量分别进行标准化,表示为矩阵nm 矩阵X*。于是变量间简单相关系简单相关系数数的矩阵可以表示为:21多元线性回归分析(6)课件经验规则经验规则方差膨胀因子越大,表明解释变量之间的多重共方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。多重共线性越弱。经验表明,方差膨胀因子经验表明,方差膨胀因子10时,说明解释变量时,说明解释变量与其余解释变量之间有严重的多重共线性,且这

12、与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。种多重共线性可能会过度地影响最小二乘估计。22多元线性回归分析(6)课件三、直观判断法三、直观判断法 1. 当增加或剔除一个解释变量,或者改变一个观当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。方程可能存在严重的多重共线性。 2. 从定性分析认为,一些重要的解释变量的回归从定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显系数的标准误差较大,在回归方程中没有通过显著性检验时,

13、可初步判断可能存在严重的多重共著性检验时,可初步判断可能存在严重的多重共线性。线性。23多元线性回归分析(6)课件3. 有些解释变量的回归系数所带正负号与定性分有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。析结果违背时,很可能存在多重共线性。4. 解释变量的相关矩阵中,自变量之间的相关系解释变量的相关矩阵中,自变量之间的相关系数较大时,可能会存在多重共线性问题。数较大时,可能会存在多重共线性问题。24多元线性回归分析(6)课件四、逐步回归检测法四、逐步回归检测法 逐步回归的基本思想逐步回归的基本思想 将变量逐个的引入模型,每引入一个解释变量后,都将变量逐个的引入模

14、型,每引入一个解释变量后,都要进行检验,并对已经选入的解释变量逐个进行要进行检验,并对已经选入的解释变量逐个进行t 检验,当原来引入的解释变量由于后面解释变量的引检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。新的变量之前回归方程中只包含显著的变量。 在逐步回归中,高度相关的解释变量,在引入时会被在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。剔除。因而也是一种检测多重共线性的有效方法。25多元线性回归分析(6)课件第四节第

15、四节 多重共线性的补救措多重共线性的补救措施施 修正多重共线性的经验方法修正多重共线性的经验方法 逐步回归法逐步回归法26多元线性回归分析(6)课件 1. 增大样本容量增大样本容量如果样本容量增加,会减小回归参数的方差,如果样本容量增加,会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。够多的样本数据可以改进模型参数的估计。问题:问题:增加样本数据在实际计量分析中常面临增加样本数据在实际计量分析中常面临许多困难。许多困难。一、修正多重共线性的经验方法一、修正多重共线性的经验方法27多元线性回归分析(6)课

16、件28多元线性回归分析(6)课件 2. 剔除变量法剔除变量法把方差扩大因子最大者所对应的自变量首先把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。不再存在严重的多重共线性。注意注意: 若剔除了重要变量,可能引起模型的设若剔除了重要变量,可能引起模型的设定误差。定误差。29多元线性回归分析(6)课件 3. 变换模型形式变换模型形式一般而言,差分后变量之间的相关性要比差分一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时

17、可直接估计差分方程。线性的可能性,此时可直接估计差分方程。问题:问题:差分会丢失一些信息,差分模型的误差差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。归模型的相关假设,在具体运用时要慎重。30多元线性回归分析(6)课件 二、逐步回归法二、逐步回归法(1)用被解释变量对每一个所考虑的解释变量做简)用被解释变量对每一个所考虑的解释变量做简单回归。单回归。(2)以对被解释变量贡献最大的解释变量所对应的)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺回归方程为基

18、础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。序逐个引入其余的解释变量。若新变量的引入改进了若新变量的引入改进了 和和 检验,且回归参检验,且回归参数的数的t t 检验在统计上也是显著的,则在模型中保检验在统计上也是显著的,则在模型中保留该变量。留该变量。31多元线性回归分析(6)课件若新变量的引入未能改进若新变量的引入未能改进 和和 检验,且对其他回检验,且对其他回归参数估计值的归参数估计值的t t 检验也未带来什么影响,则认为该检验也未带来什么影响,则认为该变量是多余变量。变量是多余变量。若新变量的引入未能改进若新变量的引入未能改进 和和 检验,且显著地影检验,且显著地影响了其他

19、回归参数估计值的数值或符号,同时本身的响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过回归参数也通不过t t 检验,说明出现了严重的多重共检验,说明出现了严重的多重共线性。线性。32多元线性回归分析(6)课件 第五节第五节 案例分析案例分析一、研究的目的要求一、研究的目的要求提出研究的问题提出研究的问题为了规划中国未来国内旅游产业为了规划中国未来国内旅游产业的发展,需要定量地分析影响中国国内旅游市场发展的发展,需要定量地分析影响中国国内旅游市场发展的主要因素。的主要因素。二、模型设定及其估计二、模型设定及其估计影响因素分析与确定影响因素分析与确定影响因素主要有国内旅游影响因素主要

20、有国内旅游人数人数 ,城镇居民人均旅游支出,城镇居民人均旅游支出 ,农村居民人,农村居民人均均旅游支出旅游支出 ,并以公路里程次,并以公路里程次 和铁路里程和铁路里程 作为相关基础设施的代表作为相关基础设施的代表 理论模型的设定理论模型的设定其中其中 : 第第 t 年全国国内旅游收入年全国国内旅游收入33多元线性回归分析(6)课件数据的收集与处理年年份份国内旅游国内旅游收入收入Y Y(亿元)元)国内旅国内旅游人数游人数X2X2(万人次)(万人次)城城镇居民人居民人均旅游支出均旅游支出X3X3(元)(元)农村居民人村居民人均旅游支出均旅游支出X4 X4 (元)(元)公路里公路里程程 X5X5(万

21、公里)(万公里)铁路里路里程程X6X6(万公里)(万公里)199419941023.51023.55240052400414.7414.754.954.9111.78111.785.905.90199519951375.71375.76290062900464.0464.061.561.5115.70115.705.975.97199619961638.41638.46390063900534.1534.170.570.5118.58118.586.496.49199719972112.72112.76440064400599.8599.8145.7145.7122.64122.646.606

22、.60199819982391.22391.26945069450607.0607.0197.0197.0127.85127.856.646.64199919992831.92831.97190071900614.8614.8249.5249.5135.17135.176.746.74200020003175.53175.57440074400678.6678.6226.6226.6140.27140.276.876.87200120013522.43522.47840078400708.3708.3212.7212.7169.80169.807.017.01200220023878.4387

23、8.48780087800739.7739.7209.1209.1176.52176.527.197.19200320033442.33442.38700087000684.9684.9200.0200.0180.98180.987.307.30数据来源:中国统计年鉴200434多元线性回归分析(6)课件该模型,可决系数很高,F检验值173.3525,明显显著。但是当时、不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 OLS OLS 法估计的结果法估计的结果35多元线性回归分析(6)课件计算各解释变量的相关系数计算各解释变量的相关系数 表明各解释

24、变量间确实存在严重的多重共线性表明各解释变量间确实存在严重的多重共线性36多元线性回归分析(6)课件三、消除多重共线性三、消除多重共线性采用逐步回归法检验和解决多重供线性问题。采用逐步回归法检验和解决多重供线性问题。分别作分别作Y 对对X2、X3、X4、X5、X6的一元回归的一元回归 变量量X2X3X4X5X6参数估参数估计值0.08429.052311.667334.3324 2014.146t 统计量量8.665913.15985.19676.46758.74870.90370.95580.77150.83940.9054的大小排序为:的大小排序为:X3、X6、X2、X5、X4。以以X3为

25、基础,顺次加入其他变量逐步回归,过程从略为基础,顺次加入其他变量逐步回归,过程从略37多元线性回归分析(6)课件 最后消除多重共线性的结果最后消除多重共线性的结果 这说明,在其他因素不明,在其他因素不变的情况下,当城的情况下,当城镇居民人均旅游支出居民人均旅游支出 和农村居民人均旅游支出和农村居民人均旅游支出 分别增长分别增长1元时,国内旅游收入元时,国内旅游收入 将分别增长将分别增长4.21亿元和亿元和3.22 亿元。在其他因素不变的情况下,亿元。在其他因素不变的情况下,作为旅游设施的代表,公路里程作为旅游设施的代表,公路里程 每增加每增加1万公里时万公里时, 国内旅游国内旅游收入收入 将增

26、长将增长13.63亿元。亿元。 四、回归结果的解释与分析四、回归结果的解释与分析t =(-8.2537) (3.9502) (4.6945) (3.0633) F=231.7958 DW=1.952038多元线性回归分析(6)课件小结小结1.多重共线性是指各个解释变量之间有准确或近似多重共线性是指各个解释变量之间有准确或近似准确的线性关系。准确的线性关系。2.多重共线性的后果:多重共线性的后果: 如果各个解释变量之间有完全的共线性,则它们的如果各个解释变量之间有完全的共线性,则它们的 回归系数是不确定的,并且它们的方差会无穷大。回归系数是不确定的,并且它们的方差会无穷大。 如果共线性是高度的但

27、不完全的,回归系数可估计,如果共线性是高度的但不完全的,回归系数可估计, 但有较大的标准误差。回归系数不能准确地估计。但有较大的标准误差。回归系数不能准确地估计。39多元线性回归分析(6)课件 3.诊断共线性的经验方法:诊断共线性的经验方法: (1) 表现为可决系数异常高而回归系数的表现为可决系数异常高而回归系数的t 检验不显检验不显著。著。 (2) 变量之间的零阶或简单相关系数。多个解释变变量之间的零阶或简单相关系数。多个解释变量时,较低的零阶相关也可能出现多重共线性,需量时,较低的零阶相关也可能出现多重共线性,需要检查偏相关系数要检查偏相关系数 。 (4)如果如果 高而偏相关系数低,则多重

28、共线性是可高而偏相关系数低,则多重共线性是可能的。能的。 (5) 用解释变量间辅助回归的可决系数判断。用解释变量间辅助回归的可决系数判断。40多元线性回归分析(6)课件 4.降低多重共线性的经验方法:降低多重共线性的经验方法: (1)利用外部或先验信息;利用外部或先验信息; (2)横截面与时间序列数据并用;横截面与时间序列数据并用; (3)剔除高度共线性的变量剔除高度共线性的变量(如逐步回归如逐步回归); (4)获取补充数据或新数据;获取补充数据或新数据; (5)选择有偏估计量选择有偏估计量(如岭回归)(如岭回归)。 经验方法的效果取决于数据的性质和共线性的严经验方法的效果取决于数据的性质和共线性的严重程度。重程度。41多元线性回归分析(6)课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号