多元回归分析估计问题

上传人:豆浆 文档编号:50845770 上传时间:2018-08-11 格式:PPT 页数:38 大小:3.10MB
返回 下载 相关 举报
 多元回归分析估计问题_第1页
第1页 / 共38页
 多元回归分析估计问题_第2页
第2页 / 共38页
 多元回归分析估计问题_第3页
第3页 / 共38页
 多元回归分析估计问题_第4页
第4页 / 共38页
 多元回归分析估计问题_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《 多元回归分析估计问题》由会员分享,可在线阅读,更多相关《 多元回归分析估计问题(38页珍藏版)》请在金锄头文库上搜索。

1、 理解多元线性回归模型的表示,掌握 多元线性回归模型的参数估计。第七章 多元回归分析:估计问题 学习目的对多元回归方程的解释偏回归系数的含义与估计多元判定系数R2与复相关系数R从多元回归的角度看简单回归R2及校正R2多项式回归模型第七章 多元回归分析:估计问题第一节 对多元回归方程的解释一、三变量模型:符号与假定将双变变量的总总体回归归模型推广,便可写出三变变量PRF为为 :(7.1.1)其中Y是因变量,X2 和X3 是解释变量,u 是随机干扰项,而 i 指第i次 观测。当数据为时间序列时,下标t将用来指第i次观测。在上述方程中1 是截距项,它代表X2 和X3 均为零时Y的均值,如通 常所说,

2、它给出了所有未包含到模型中来的变量对Y的平均影响。系 数2 和3 称为偏回归系数(partial regression coefficients)。二、多元线性回归模型的基本假设(1)ui 有零均值值,或: (7.1.2)(2)无序列相关,或: (7.1.3)(3)同方差性,或: (7.1.4)(4)ui与每一X变变量之间间都有零协协方差,或:(7.1.5)(5)无设设定偏误误,或:模型被正确地设设定 (7.1.6 ) (6)X诸变诸变 量间间无精确的共线线性,或: X2 和X3 之间间无精确的线线性关系 (7.1.7 )假设(7.1.6)中 X2 和X3之间无精确的线性关系,称为无共线性 (

3、no collinearity)或无多重共线性(no multicollinearity)。无共线性 不存在一组组不全为为零的数 和 使得 : 如果这这一关系式存在,则说则说 X2 和X3 是共线线的或线线性相关。 如果仅仅当 时时成立,则说则说 X2 和X3 线线性独立。 无多重共线性(7.1.8)假设设(7.1.1)中的Y、 X2 和X3 分别别代表消费费支出、收入 和财财富,经济经济 理论设论设 想收入和财财富对对消费费各有独立影响 。 若收入和财财富之间间有线线性关系,则则无从区分各自的影响 了。 令 ,则则(7.1.1)变变成:给给出的是X2 和X3 对对Y的联联合影响。没有办办 法

4、分别别估计计X2 的单单独影响和X3 的单单独影响。三、对多元回归方程的解释给给定经经典回归归模型的诸诸假定,那么,在(7.1.1)的两边对边对 Y求条 件期望得:(7.2.1 )该该式给给出以变变量X2 和X3 的固定值值的条件的Y的条件均值值或期望 值值。因此,如同双变变量情形那样样,多元回归归分析是以多个解释变释变 量的 固定值为值为 条件的回归归分析,并且我们们所获获取的,是给给定回归归元 值时值时 Y的平均值值或Y的平均响应应。第二节 偏回归系数的含义与估计前面指出,系数2 和3 称为为偏回归归(partial regression)系数 。 其含义义如下: 2 度量着在X3 保持不

5、变变的情况下,X2 每变变化一 单单位,Y的均值值E(Y| X2 ,X3 )的变变化。换换句话说话说 , 2 给给出保持X3 不变时变时 E(Y| X2 ,X3 )对对X2 的斜 率。一、偏回归系数的含义什么是 偏回归系数?1二、偏回归系数的OLS估计1. OLS估计量与(7.1.1)的 PRF相对应对应 的样样本回归归函数如下:OLS方法 是要选择选择 未知参数的值值,使残差平方和RSS尽可能小,即 :将该该式对对三个未知数求偏导导数,并令其为为零,解得:由上述正规规方程组组可以得到1、2 和3 的OLS估计计量:小写字母表示对样对样 本均值值离差的惯惯例。2.OLS估计量的方差和标准误我们

6、计算标准误有两个目的:建立置信区间和检验统计假设。在上述公式中2 是总体干扰项 ui的方差。可以证实, 2 的一个无偏估计量是:现在的自由度是(n-3),这是因为在估计 之前,我们必须先 估计1 ,2 和3 ,从而消耗了3个自由度。一旦算出残差ui ,就能从该式算出估计量2 。*3. OLS估计量的性质多元回归模型的OLS估计量和双变量模型的OLS有着平行的性质。(1)三变量回归线(面)通过均值 这个性质可以推广到一 般情形,在k变量线性回归模型(一个回归子和(k-1)个回归元)中:我们有:(2)估计的Yi的均值等于真实Yi的均值。两边对所有样本值求和并除 以样本大小n,由于即得:(3)由于

7、,两边对样本值求和可得。(4)残差 与 和 都不相关,即(5)残差 与 不相关,即 。两边同时乘以 ,然后对样本值求和。(6)在7.1节的经典线性模型的假定下,可以证明偏回归系数的OLS估计量 不仅是线性和无偏的,而且在所有线性无偏估计量类中有最小方差。简言 之,它们是BLUE。或它们满足高斯-马尔可夫定理。第三节 多元判定系数R2与复相关系数R在双变变量的情形中我们们曾看到, r2 是回归归方程拟拟合优优度的一个度量。 它给给出在因变变量Y的总变总变 异种由(单单一个)解释变释变 量X解释释了的比例或 百分比。在三变变量模型中,由X2 和X3 联联合解释释Y的变变异的比例的数量称为为复判 定

8、系数(multiple coefficient of determination),记为记为 R2 。(总总平方和 TSS等于解释释平方和ESS+残差平方和RSS),则则R2 越靠近1,模型的“拟拟合”越好。R2所代表 的意义例7.1 儿童死亡率与人均GNP和妇女识字率的关系Table 6.4 64个国家的生育率及其他数据CM = child mortality(儿童死亡率)CM为每1000名产婴中不足5岁便死亡的人数FLR = female literacy rate(妇女识字率)PGNP = per capita GNP in 1980(1980年的人均GNP)TFR = total fe

9、rtility rate(总生育率) 建立模型为为: (7.6.1) Dependent Variable: CM Method: Least Squares Date: 02/18/12 Time: 14:22 Sample: 1 64 Included observations: 64 VariableCoefficientStd. Errort-StatisticProb. C263.641611.5931822.741090 PGNP-0.005650.002003-2.81870.0065 FLR-2.231590.209947-10.62930 R-squared0.707665

10、Mean dependent var141.5 Adjusted R-squared0.698081 S.D. dependent var75.97807 S.E. of regression41.7478 Akaike info criterion10.34691 Sum squared resid106315.6 Schwarz criterion10.44811 Log likelihood-328.101 Hannan-Quinn criter.10.38678 F-statistic73.83254 Durbin-Watson stat2.186159 Prob(F-statisti

11、c)0 -0.0056是PGNP的偏回归归系数,它告诉诉我们们,保持FLR的影响不变变, PGNP提高1美元,儿童死亡率平均下降0.0056个单单位。在经济经济 上的解 释为释为 ,若人均GNP提高1000美元,则则每1000名产婴产婴 中不足5岁岁便死亡的 儿童书书平均下降5.6%。-2.2316表明,保持PGNP的影响不变变,妇妇女识识字率每提高1个百分点, 每4名产婴产婴 中不足5岁岁便死亡的儿童数平均减少约约2.23人。263的截距值值表明若PGNP和FLR固定为为零,则则每4名产婴产婴 中儿童死亡人 数的均值为值为 263.约为约为 0.71的R2 值值意味着儿童死亡率变变异中约约有

12、70%可由PGNP和FLR 来解释释。第四节 从多元回归的角度看简单回归经典线性回归模型的假定声称,分析中所用的回归模型是正确设定的, 无设定上 的偏误会误差。若假定例7.1中式7.6.1是解释儿童死亡率行为与人均GNP和妇女识字率 FLR之关系的“真实”模型。假设我们去掉FLR而估计如下简单回归:其中Y=CM,X2=PGNP。做回归:与“真实”多元回归相比:1.从绝对值看,PGNP系数从0.0056增加到0.0114,几乎大一倍。2.标准误不同。3.截距值不同。4.r2 值明显不同。 错误拟合一个模型会导致严重后果。第五节 R2及校正R2R2 的一个重要性质是,随着回归元个数的增大, R2

13、几乎必然增大。这里, 就是 ,与模型中X 变量的个数无关。但RSS即 却与模型 中出现的回归元个数相关。随着X变量个数 的增加 很可能减小,随之R2 也将增大 。因此,比较有同一因变量但有不同个数的X 变量的两个回归时,选择有最高R2 值的模型 必须当心。 k=包括截距项项在内的模型中参数个数 。 如此定义义的R2 ,称为为校正R2 (adjusted R2),记为记为 。很容易得出上式,可看出: (1)对于k1, 。 (2)虽然R2 是非负的,但 可以是负的。实际中,如遇为负值,则 取值为零。实践中应选哪一个R2 ?大多数统计软件包都是把校正的R2 连通惯用的R2 一起报告的,完全可 以把校

14、正的R2当做另一个统计量来看待。2.比较两个R2值根据判定系数比较较两个模型,样样本大小n和因变变量都必须须相同,解 释变释变 量可取任何形式。在回归子形式不同的两个模型中,如何比较其R2 呢? 例7.2 美国1970-1980年咖啡消费(Y)与平均真实零售价格(X)的关系(表 7.1) YEARYX 19702.570.77 19712.50.74 19722.350.72 19732.30.73 19742.250.76 19752.20.75 19762.111.08 19771.941.81 19781.971.39 19792.061.2 19802.021.17Dependent Variable: Y Method: Least Squares Date: 02/18/12 Time: 15:41 Sample: 1970 1980 Included observations: 11 Variabl

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号