实用回归分析

上传人:大米 文档编号:568028317 上传时间:2024-07-23 格式:PPT 页数:132 大小:1.97MB
返回 下载 相关 举报
实用回归分析_第1页
第1页 / 共132页
实用回归分析_第2页
第2页 / 共132页
实用回归分析_第3页
第3页 / 共132页
实用回归分析_第4页
第4页 / 共132页
实用回归分析_第5页
第5页 / 共132页
点击查看更多>>
资源描述

《实用回归分析》由会员分享,可在线阅读,更多相关《实用回归分析(132页珍藏版)》请在金锄头文库上搜索。

1、应用回归分析 1目 录1 回回归分析概述分析概述 2 一一元元线性回性回归 3 多元多元线性回性回归4违背基本假定的情况背基本假定的情况 及其及其处理方法理方法5 运用回运用回归分析需特分析需特别注意的其他注意的其他问题21 1 回回归分析概述分析概述1 .1 变量间的统计关系 1 .2 回归方程与回归名称的由来1 .3 回归分析的主要内容及其一般模型 1 .4 建立实际问题回归模型的过程1 .5 回归分析应用与发展述评 31 .1 变量间的统计关系函数关系商品的销售额与销售量之间的关系y = = px圆的面积与半径之间的关系S= = R2 原材料消耗额与产量(x1) 、单位产量消耗(x2)

2、、原材料价格(x3)之间的关系y = = x1 x2 x3 41 .1 变量间的统计关系51 .1 变量间的统计关系相关关系的例子相关关系的例子子女身高 (y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系61 .2 回归方程与回归名称的由来成年儿子身高父母平均身高英英国国统计学学家家F.Galton(1822-1911F.Galton(1822-1911年年) )。F.GaltonF.Galton和他的和他的

3、学学生、生、现代代统计学学的奠基者之一的奠基者之一K.Pearson(18561936K.Pearson(18561936年年) )在在研研究父母身高究父母身高与与其子女其子女身高的身高的遗传问题时, ,观察了察了1 0781 078对夫夫妇, , 71 .3 1 .3 回回归分析的主要内容及其分析的主要内容及其 一一般模型般模型81 .4 1 .4 建立建立实际问题回回归模型的模型的过程程设置指标变量收集整理数据构造理论模型估计模型参数修改 N 模型运用Y经济因素分析经济变量控制 经济决策预测实 际 问 题模型检验91 .5 回归分析应用与发展述评 从从高斯提出最小二乘法算起高斯提出最小二乘

4、法算起, ,回回归分析已分析已经有有200200年的年的历史。史。 从从19691969年年设立立诺贝尔尔经济学学奖以以来来, ,已有近已有近5050位位学学者者获奖, ,其中其中绝大部分大部分获奖者是者是统计学学家、家、计量量经济学学家、家、数学数学家。他家。他们对统计学学及回及回归分析方法的分析方法的应用都有用都有娴熟的技巧。熟的技巧。102 2 一一元元线性回性回归2 .1 一元线性回归模型2 .2 参数0、1的估计2 .3 最小二乘估计的性质2 .4 回归方程的显著性检验2 .5 残差分析2 .6 回归系数的区间估计2 .7 预测和控制112 .1 一元线性回归模型例例2 .12 .1

5、 表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。 表表2.12.1火灾火灾损失表失表122 .1 一元线性回归模型例例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元) 表表2.2 2.2 人均人均国国民收入表民收入表132 .1 一元线性回归模型一元线性回归模型 y=0+1x+回归方程 E(y|x)=0+1x142 .1 一元线性回归模型样本模型 yi=0+1xi+i, i=1,2,n回归方程 E(yi)=0+1xi ,var(yi)=2,样本观测值(x1,y1),(x2,y2),(xn,yn)经验回归方程 152 .2 参数0、1的估计一、普通最小二乘估

6、计 (Ordinary Least Square Estimation,简记为OLSE) 最小二乘法就是寻找参数0、1的估计值使离差平方和达极小称为yi的回归拟合值,简称回归值或拟合值 称为yi的残差 162 .2 参数0、1的估计172 .2 参数0、1的估计经整理后,得正规方程组182 .2 参数0、1的估计得OLSE 为记192 .2 参数0、1的估计续例2.1回回归方程方程202.4 回归方程的显著性检验 一、一、t t 检验 原假设: H0 :1=0对立假设: H1 :10 由当原假设H0 :1=0成立时有: 212.4 回归方程的显著性检验 一、一、t t 检验 构造t 统计量 其

7、中222.4 回归方程的显著性检验 二、用二、用统计软件件计算算 23什么是P 值?(P-value)P 值即显著性概率值 Significence Probability Value是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平24双侧检验的P 值 / / / / 2 2 2 2 / / 2 2 t t t t拒拒拒拒绝绝拒拒拒拒绝绝H HH0 00值值值临临临界界界值值值计计计算出的算出的算出的算出的算出的算出的样样样本本本本本本统计统计统计量量量量量量计计计算出的算出的

8、算出的算出的算出的算出的样样样本本本本本本统计统计统计量量量量量量临临临界界界值值值1/2 1/2 1/2 P P P 值值值1/2 1/2 1/2 P P P 值值值25左侧检验的P 值H HH0 00值值值临临临界界界界界界值值值 样样样本本本本本本统计统计统计量量量量量量拒拒拒拒拒拒绝绝绝域域域域域域抽抽抽抽样样分布分布分布分布1 - 1 - 1 - 1 - 1 - 1 - 置信水平置信水平置信水平置信水平计计计算出的算出的算出的算出的算出的算出的样样样本本本本本本统计统计统计量量量量量量P P P 值值值26右侧检验的P 值H HH0 00值值值临临临界界界界界界值值值 拒拒拒拒拒拒绝

9、绝绝域域域域域域抽抽抽抽抽抽样样样分布分布分布分布分布分布1 - 1 - 1 - 1 - 1 - 1 - 置信水平置信水平置信水平置信水平置信水平置信水平计计计算出的算出的算出的算出的算出的算出的样样样本本本本本本统计统计统计量量量量量量P P P 值值值272.4 回归方程的显著性检验 二、用二、用统计软件件计算相算相关关系系数数R R282.4 回归方程的显著性检验 二、用二、用统计软件件计算算2.用SPSS软件计算292.4 回归方程的显著性检验 三、三、F F检验平方和分解式 SST = SSR + SSE构造F检验统计量 302.4 回归方程的显著性检验 三、三、F F检验一元一元线

10、性回性回归方差分析表方差分析表312.4 回归方程的显著性检验 四、相四、相关关系系数数的的显著性著性检验 322.4 回归方程的显著性检验 四、相四、相关关系系数数的的显著性著性检验 332.4 回归方程的显著性检验 四、相四、相关关系系数数的的显著性著性检验 附表附表1 1 相相关关系系数数=0=0的的临界界值表表n-25%1%n-25%1%n-25%1%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190

11、.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880.4961000.1950.254100.5760.708250.3810.4871250.1740.228110.5530.684260.3740.4781500.1590.208120.5320.661270.3670.4702000.

12、1380.181130.5140.641280.3610.4633000.1130.148140.4970.623290.3550.4564000.0980.128150.4820.606300.3490.44910000.0620.081342.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 用用SPSSSPSS软件做相件做相关关系系数数的的显著性著性检验 352.4 回归方程的显著性检验 四、相四、相关关系系数数的的显著性著性检验 两变量间相关程度的强弱分为以下几个等级:两变量间相关程度的强弱分为以下几个等级:当当| |r r|0.8|0.8时,视为高度相关;时

13、,视为高度相关;当当0.5|0.5|r r| | 0.80.8时,视为中度相关;时,视为中度相关;当当0.3|0.3|r r| | 0.50.5时,视为低度相关;时,视为低度相关;当当| |r r| | 0.30.3时,表明两个变量之间的相关程度极弱,时,表明两个变量之间的相关程度极弱, 在实际应用中可视为不相关。在实际应用中可视为不相关。362.4 回归方程的显著性检验 五、三五、三种种检验的的关关系系H0: b=0H0: r=0H0: 回归无效372.4 2.4 回回归方程的方程的显著性著性检验 六、六、样本本决决定系定系数数 可以证明382.5 2.5 残差分析残差分析 一、一、残残差差

14、概概念念与残与残差差图 残差误差项残差ei是误差项ei的估计值。 392.5 2.5 残差分析残差分析 一、一、残残差差概概念念与残与残差差图 402.5 2.5 残差分析残差分析 一、一、残残差差概概念念与残与残差差图 图 2.6 2.6 火灾火灾损失失数数据据残残差差图412.5 2.5 残差分析残差分析 二、二、残残差的性差的性质 性性质1 E (ei)=0 证明:422.5 2.5 残差分析残差分析 二、二、残残差的性差的性质 性性质2其中其中称称为杠杆杠杆值 432.5 2.5 残差分析残差分析 二、二、残残差的性差的性质 性性质3.3. 残差满足约束条件: 442.5 2.5 残差

15、分析残差分析 三、改三、改进的的残残差差标准化残差学生化残差452.6 2.6 回回归系数的区系数的区间估估计等价于 1 1的的1-1-置信置信区区间 462.7 2.7 预测和和控制控制 一、一、单值预测472.7 2.7 预测和和控制控制 二、二、区区间预测找一找一个区个区间(T1,T2),使得),使得 需要首先求出其估需要首先求出其估计值的分布 1 1因因变量新量新值的的区区间预测48二、区二、区间预测 1 1 因因变量新量新值的区的区间预测以下以下计算算的方差的方差从而得49二、区二、区间预测 对例对例2.12.1的火灾损失数据,假设保险公司希望预测一个的火灾损失数据,假设保险公司希望

16、预测一个距最近的消防队距最近的消防队x x0 0=3.5=3.5公里的居民住宅失火的损失公里的居民住宅失火的损失 点估计值95%区间估计 单个新值: (22.32,32.67) 平均值E(y0):(26.19,28.80) 的95%的近似置信区间为 =(27.50-22.316,27.50+22.316)=(22.87,32.13) 50三、控制三、控制问题 给定定y的的预期范期范围( (T1 1, , T2 2), ),如何控制自如何控制自变量量x的的值才能以才能以1-1-的的概概率保率保证 用近似的预测区间来确定x。如果=0.05,则要求 把带入51第三部分第三部分 多元线性回归多元线性回

17、归 3.1 多元线性回归模型3.2 回归参数的估计3.3 参数估计量的性质3.4 回归方程的显著性检验3.5 中心化和标准化3.6 相关阵与偏相关系数523.1 3.1 多元多元线性回性回归模型模型一一、多元、多元线性回性回归模型的模型的一一般形式般形式 y=0+1x1+2x2+pxp+533.1 多元线性回归模型一一、多元、多元线性回性回归模型的模型的一一般形式般形式 对n组观测数据 (xi1, xi2,xip; yi), i=1,2,n,线性回归模型表示为:543.1 多元线性回归模型一一、多元、多元线性回性回归模型的模型的一一般形式般形式 写成矩阵形式为: y y= =XX+ +, ,

18、其中,553.1 多元线性回归模型二、多元二、多元线性回性回归模型的基本假定模型的基本假定 1. 解释变量x1,x2,xp是确定性变量,不是随机变量,且要求r(X X)=p+1n。表明设计矩阵X X中的自变量列之间不相关,X X是一满秩矩阵。563.1 多元线性回归模型二、多元二、多元线性回性回归模型的基本假定模型的基本假定 2 .随机误差项具有0均值和等方差,即 这个假定称为Gauss-Markov条件 573.1 多元线性回归模型二、多元二、多元线性回性回归模型的基本假定模型的基本假定 3. 正态分布的假定条件为: 用矩阵形式(3.5)式表示为: N(0, s2In)583.1 多元线性回

19、归模型二、多元二、多元线性回性回归模型的基本假定模型的基本假定 在正态假定下: yN(X, s2In)E(y y)=XXvar(y)= s2In 593.1 多元线性回归模型三、多元三、多元线性回性回归方程的解方程的解释 y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。y=0+1x1+2x2+E(y)=0+1x1+2x2在x2保持不变时,有在x1保持不变时,有603.1 多元线性回归模型三、多元三、多元线性回性回归方程的解方程的解释 考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+ x3现在做GDP对第二产业增加值x2的一元线性回归,得回归方

20、程613.1 多元线性回归模型年份GDP第一产业增加值x1第二产业增加值x2第三产业第三产业增加值增加值x3199018 547.9 5 017.0 7 717.4 5 813.5 199121 617.8 5 288.6 9 102.2 7 227.0 199226 638.1 5 800.0 11 699.5 9 138.6 199334 634.4 6 882.1 16 428.5 11 323.8 199446 759.4 9 457.2 22 372.2 14 930.0 199558 478.1 11 993.0 28 537.9 17 947.2 199667 884.6 13

21、844.2 33 612.9 20 427.5 199774 462.6 14 211.2 37 222.7 23 028.7 199878 345.2 14 552.4 38 619.3 25 173.5 199982 067.5 14 472.0 40 557.8 27 037.7 200089 468.1 14 628.2 44 935.3 29 904.6 200197 314.8 15 411.8 48 750.0 33 153.0 2002105 172.3 16 117.3 52 980.2 36 074.8 2003117 390.2 16 928.1 61 274.1 39

22、188.0 2004136 875.9 20 768.1 72 387.2 43 720.6623.1 多元线性回归模型三、多元三、多元线性回性回归方程的解方程的解释 建立GDP对x1和x2的回归,得二元回归方程=2 914.6+0.607 x1+1.709 x2你能够合理地解释两个回归系数吗 ?633.2 3.2 回回归参数的估参数的估计 一一、回、回归参数的普通最小二乘估参数的普通最小二乘估计 最小二乘估计要寻找643.2 3.2 回回归参数的估参数的估计 一一、回、回归参数的普通最小二乘估参数的普通最小二乘估计 653.2 3.2 回回归参数的估参数的估计 一一、回、回归参数的普通最小二

23、乘估参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 移项得存在时,即得回归参数的最小二乘估计为:663.2 3.2 回回归参数的估参数的估计 二、回二、回归值与残差与残差为回归值称为帽子矩阵,其主对角线元素记为hii673.2 3.2 回回归参数的估参数的估计 二、回二、回归值与残差与残差cov(e,e)=cov(cov(e,e)=cov((I-HI-H)Y,Y,(I-HI-H)Y)Y) = =(I-HI-H)cov(Y,Y)cov(Y,Y)(I-HI-H) = =2 2(I-HI-H)I In n(I-HI-H)=2 2(I-HI-H)得 D(ei)=(1-hii)2,i=1,

24、2,n683.2 3.2 回回归参数的估参数的估计 二、回二、回归值与残差与残差是2的无偏估计693.2 3.2 回回归参数的估参数的估计 例例3.13.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党

25、政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。703.2 3.2 回回归参数的估参数的估计 713.3 3.3 参数估参数估计量的性量的性质 性性质1 是随机向量y的一个线性变换。性性质2 是是的无偏估计。的无偏估计。 723.4 3.4 回回归方程的方程的显著性著性检验一、一、F F检验 H0:1=2=p=0SST = SSR + SSE 当H0成立时服从733.4 3.4 回回归方程的方程的显著性著性检验一、一、F F检验 743.4 3

26、.4 回回归方程的方程的显著性著性检验二、回二、回归系系数数的的显著性著性检验 H0j:j=0, j=1,2,p(,(X)-1)记 (X)-1=(cij) i,j=0,1,2, ,p构造t统计量 其中753.4 3.4 回回归方程的方程的显著性著性检验二、回二、回归系系数数的的显著性著性检验 从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j),称为xj的偏回归平

27、方和。由此构造偏F统计量763.4 3.4 回回归方程的方程的显著性著性检验二、回二、回归系系数数的的显著性著性检验 当原假设H0j :j=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2773.4 3.4 回回归方程的方程的显著性著性检验三、回三、回归系系数数的置信的置信区区间可得j的置信度为1-的置信区间为:783.4 3.4 回回归方程的方程的显著性著性检验四、四、拟合合优度度 决定系数为: y关于x1,x2,xp的样本复相关系数793.5 3.5 中心化中心化和和标准化准化 一、中心化一、中心

28、化 经验回归方程 经过样本中心 将坐标原点移至样本中心,即做坐标变换: 回归方程转变为:回归常数项为803.5 3.5 中心化中心化和和标准化准化 二、二、标准化回准化回归系系数数 当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:其中x1的单位是吨, x2的单位是公斤813.5 3.5 中心化中心化和和标准化准化 二、二、标准化回准化回归系系数数 样本数据的标准化公式为: 得标准化的回归方程 823.5 3.5 中心化中心化和和标准化准化 二、二、标准化回准化回归系系数数 标准化准化回回归系系数数833.6 3.6 相关相关阵与偏相关系数与偏相关系数 一、一、样

29、本相本相关关阵自变量样本相关阵 增广的样本相关阵为: 843.6 3.6 相关相关阵与偏相关系数与偏相关系数 一、一、样本相本相关关阵853.6 3.6 相关相关阵与偏相关系数与偏相关系数 二、偏判定系数二、偏判定系数 当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。 偏相关系数可以度量p+1个变量y,x1,x2, xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。 863.6 3.6 相关相关阵与偏相关系数与偏相关系数 二、偏判定系数二、偏判定系数 偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变

30、差的相对减少量,它衡量y的变差减少的边际贡献。873.6 3.6 相关相关阵与偏相关系数与偏相关系数 二、偏判定系数二、偏判定系数 以x1表示某种商品的销售量, x2表示消费者人均可支配收入, x3表示商品价格。 从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。883.6 3.6 相关相关阵与偏相关系数与偏相关系数 1 1两个自变量的偏判定系数两个自变量的

31、偏判定系数二元线性回归模型为:yi=0+1xi1+2xi2+i记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:此即模型中已含有x2时,y与x1的偏判定系数。893.6 3.6 相关相关阵与偏相关系数与偏相关系数 1 1两个自变量的偏判定系数两个自变量的偏判定系数同样地,模型中已含有x1时,y与x2的偏判定系数为:903.6 3.6 相关相关阵与偏相关系数与偏相关系数 2.2.一般情一般情况况在模型中已含有x2,xp时,y与x1的偏判定系数为:913.6

32、3.6 相关相关阵与偏相关系数与偏相关系数 三、偏相关系数三、偏相关系数 偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。 例例3.23.2 研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量, x1为截至1998年底各开发区累计招商数目, x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。923.6 3.6 相关相关阵与偏相关系数与偏相关系数 三、偏相关系数三、偏相关系数 北京开北京开发区数据区数据933.6 3.6 相关相关阵与偏相关系数与偏相关系数 三

33、、偏相关系数三、偏相关系数 偏相关系数表偏相关系数表943.6 3.6 相关相关阵与偏相关系数与偏相关系数 三、偏相关系数三、偏相关系数 用y与x1做一元线性回归时,x1能消除y的变差SST的比例为再引入x2时,x2能消除剩余变差SSE(X1)的比例为因而自变量x1和x2消除y变差的总比例为=1-(1-0.651)(1-0.546)=0.842=84.2%。这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2953.6 3.6 相关相关阵与偏相关系数与偏相关系数 三、偏相关系数三、偏相关系数 对任意p个变量x1,x2,xp定义它们之间的偏相关系数其中符号ij表示相关阵第i行第j列元素

34、的代数余子式验证963.7 3.7 实例例例3.3 中国民航客运量的回归模型。y民航客运量(万人),x1国民收入(亿元),x2消费额(亿元),x3铁路客运量(万人),x4民航航线里程(万公里),x5来华旅游入境人数(万人)。根据1994年统计摘要获得1978-1993年统计数据 973.73.7年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.71198244542583054

35、9992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.20199121781655710

36、9699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.70983.73.7993.73.71003.7 3.7 本章小本章小结与与评注注 1014 4 违背基本假背基本假设的情况的情况4.1 异方差性产生的背景和原因 4.2 一元加权最小二乘估计4.3 多元加权最小二乘估计4.4 自相关性问题及其处理 4.5 异常值与强影响点 102违背基本假背基本假设的情况的情况Gauss-Markov条件 1034.1 4.1 异方差性异方差性产生的背景生的背景和和原因原因 一、异方

37、差产生的原因一、异方差产生的原因 例例4.1 4.1 居民收入与消费水平有着密切的关系。用xi表示第i户的收入量,yi表示第i户的消费额,一个简单的消费模型为:yi=0+1xi+i,i=1,2,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大。导致消费模型的随机项i具有不同的方差。1044.1 4.1 异方差性异方差性产生的背景生的背景和和原因原因 二、异方差性带来的问题二、异方差性带来的问题 当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。1054.2 4.2 一

38、一元加元加权最小二乘估最小二乘估计 一、异方差性的检验一、异方差性的检验(一)残差图分析法(一)残差图分析法 图2.5(b)存在异方差1064.2 4.2 一一元加元加权最小二乘估最小二乘估计 一、一、异异方差性的方差性的检验(二)等(二)等级相相关关系系数数法法 等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可用于小样本。进行等级相关系数检验通常有三个步骤。 第一步,作y关于x的普通最小二乘回归,求出ei的估计值,即ei的值。1074.2 4.2 一一元加元加权最小二乘估最小二乘估计 (二)等(二)等级相相关关系系数数法法 第二

39、步,取ei的绝对值,分别把xi和|ei|按递增(或递减)的次序分成等级,按下式计算出等级相关系数:其中,n为样本容量,di为对应于xi和|ei|的等级的差数。1084.2 4.2 一一元加元加权最小二乘估最小二乘估计 (二)等(二)等级相相关关系系数数法法 第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为:如果tt/2(n-2)可认为异方差性问题不存在,如果tt/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在。1094.2 4.2 一一元加元加权最小二乘估最小二乘估计 二、一元加二、一元加权最小二乘估最小二乘估计消除异

40、方差性的方法通常有:l 加权最小二乘法,l Box-Cox变换法,l 方差稳定性变换法加权最小二乘法(Weighted Least Square,简记为WLS)是一种最常用的消除异方差性的方法。1104.4 4.4 自相关性自相关性问题及其及其处理理 如果一个回归模型的随机误差项如果一个回归模型的随机误差项cov(cov(i i ,j j)0)0则称随机误差项之间存在着自相关现象。则称随机误差项之间存在着自相关现象。 这里的自相关现象不是指两个或两个以上这里的自相关现象不是指两个或两个以上的变量之间的相关的变量之间的相关, ,而指的是一个变量前后期数值而指的是一个变量前后期数值之间存在的相关关

41、系。之间存在的相关关系。1114.4 4.4 自相关性自相关性问题及其及其处理理一、自相关性产生的背景和原因一、自相关性产生的背景和原因 1.遗漏关键变量时会产生序列的自相关性。 2.经济变量的滞后性会给序列带来自相关性。 3.采用错误的回归函数形式也可能引起自相关性。 4.蛛网现象(Cobweb phenomenon)可能带来序列的自相关性。 5.因对数据加工整理而导致误差项之间产生自相关性。 1124.4 4.4 自相关性自相关性问题及其及其处理理二、自相二、自相关关性性带来来的的问题 1.1.参数的估计值不再具有最小方差线性无偏性。参数的估计值不再具有最小方差线性无偏性。2.2.均方误差

42、均方误差MSEMSE可能严重低估误差项的方差。可能严重低估误差项的方差。3.3.容易导致对容易导致对t t值评价过高值评价过高, ,常用的常用的F F检验和检验和t t检验失效。检验失效。如果忽视这一点如果忽视这一点, ,可能导致得出回归参数统计检验为显著可能导致得出回归参数统计检验为显著, ,但实际上并不显著的严重错误结论。但实际上并不显著的严重错误结论。 4.4.当存在序列相关时当存在序列相关时, ,仍然是仍然是的无偏估计量的无偏估计量, ,但在任但在任一特定的样本中一特定的样本中, , 可能严重歪曲可能严重歪曲的真实情况的真实情况, ,即最小二乘即最小二乘估计量对抽样波动变得非常敏感。估

43、计量对抽样波动变得非常敏感。 5.5.如果不加处理地运用普通最小二乘法估计模型参数如果不加处理地运用普通最小二乘法估计模型参数, ,用此模型进行预测和结构分析将会带来较大的方差甚至错用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。误的解释。1134.4 4.4 自相关性自相关性问题及其及其处理理三、自相三、自相关关性的性的诊断断 (一)图示检验法 1. 绘制(et,et-1)的散点图。1144.4 4.4 自相关性自相关性问题及其及其处理理三、自相三、自相关关性的性的诊断断 (一)图示检验法 2.按照时间顺序绘制回归残差项et的图形。1154.4 4.4 自相关性自相关性问题及其及

44、其处理理三、自相三、自相关关性的性的诊断断 (二)自相关系数法误差序列1,2,n的自相关系数定义为自相关系数的估计值为 1164.4 4.4 自相关性自相关性问题及其及其处理理三、自相三、自相关关性的性的诊断断 (三)D.W检验 D.W检验是J.Durbin和G.S.Watson于1951年提出的一种适用于小样本的一种检验方法。 D.W检验验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。 这种检验方法是建立计量经济学模型中最常用的方法,一般的计算机软件都可自动产生出D.W值。1174.4 4.4 自相关性自相关性问题及其及其处理理定义D.W统计量为:1184.4 4.4 自相关性自相

45、关性问题及其及其处理理(三)D.W检验 得D.W的取值范围为:0D.W41194.4 4.4 自相关性自相关性问题及其及其处理理四、自相四、自相关关问题的的处理方法理方法 (一)迭代法 (二) 差分法一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。(三)科克伦奥克特(Cochrane-Orcutt)迭代 1204.5 4.5 异常异常值与与强影响影响值 异常值分为两种情况: 一种是关于因变量y异常; 另一种是关于自变量x异常。1214.5 4.5 异常异常值与与强影响影响值 一、一、关关于因于因变量量y y的的异异常常值标准化残差学生化残差1224.5 4.5 异常异常值与与强影响影

46、响值 1234.5 4.5 异常异常值与与强影响影响值 可以证明: 1244.5 4.5 异常异常值与与强影响影响值 1254.5 4.5 异常异常值与与强影响影响值 二、二、关关于自于自变量量x x的的异异常常值1264.5 4.5 异常异常值与与强影响影响值 二、二、关关于自于自变量量x x的的异异常常值1274.5 4.5 异常异常值与与强影响影响值 二、二、关关于自于自变量量x x的的异异常常值1284.5 4.5 异常异常值与与强影响影响值 二、二、关关于自于自变量量x x的的异异常常值 虽然强影响点并不总是y的异常值点,不能单纯根据杠杆值hii的大小判断强影响点是否异常,但是我们对

47、强影响点应该有足够的重视。为此引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为: 1294.5 4.5 异常异常值与与强影响影响值 二、二、关关于自于自变量量x x的的异异常常值 对于库克距离,判断其大小的方法比较复杂,一个粗略的标准是 当Di1时, 认为是异常值点。1304.5 4.5 异常异常值与与强影响影响值 异常值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7.模型选用错误,线性模型不适用改用非线性回归模型1311.1.自变量选择与逐步回归自变量选择与逐步回归 如何选择最适当的变量和最适当的回归方程如何选择最适当的变量和最适当的回归方程 选择变量的标准是什么选择变量的标准是什么2. 2. 多重共线性的情形及其处理多重共线性的情形及其处理 多重共线性的判断方法和处理方法多重共线性的判断方法和处理方法3. 3. 岭回归岭回归 适用情况和使用方法适用情况和使用方法4. 4. 非线性回归非线性回归5 5 含定性变量的回归模型含定性变量的回归模型 需要特别注意的其他问题需要特别注意的其他问题132

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号