多元线性回归模型

上传人:s9****2 文档编号:563497543 上传时间:2023-11-28 格式:DOC 页数:9 大小:1.25MB
返回 下载 相关 举报
多元线性回归模型_第1页
第1页 / 共9页
多元线性回归模型_第2页
第2页 / 共9页
多元线性回归模型_第3页
第3页 / 共9页
多元线性回归模型_第4页
第4页 / 共9页
多元线性回归模型_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《多元线性回归模型》由会员分享,可在线阅读,更多相关《多元线性回归模型(9页珍藏版)》请在金锄头文库上搜索。

1、多元线性回归模型1假定条件、最小二乘估计量和高斯马尔可夫定理 多元线性回归模型:yt = b0 +b1xt1 + b2xt2 + bk- 1xt k -1 + ut , (1.1)其中yt是被解释变量(因变量),xt j是解释变量(自变量),ut是随机误差项,bi, i = 0, 1, , k - 1是回归参数(通常未知)。 (1.3) Y = X b + u , (1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定 随机误差项ut是非自相关的,每一误差项都满足均值为零,方差 s2相同且为有限值,即E(u) = 0 = , Var (u) = E( ) = s 2I =

2、s 2假定 解释变量与误差项相互独立,即 E(X u) = 0假定 解释变量之间线性无关。rk(X X) = rk(X) = k 其中rk()表示矩阵的秩。假定 解释变量是非随机的,且当T 时T 1X X Q 其中Q是一个有限值的非退化矩阵。最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。minS = (Y - X) (Y - X) = Y Y -X Y - Y X +X X = Y Y - 2X Y + X X (1.5)因为Y X是一个标量,所以有Y X = X Y。(1.5) 的一阶条件为:= - 2X Y + 2X X= 0 (1.6)化简得 X

3、 Y = X X因为 (X X) 是一个非退化矩阵(见假定),所以有= (X X)-1 X Y (1.7)因为X的元素是非随机的,(X X) -1X是一个常数矩阵,则是Y的线性组合,为线性估计量。求出,估计的回归模型写为Y = X+ (1.9)其中= ( ) 是 b 的估计值列向量,= (Y - X) 称为残差列向量。因为 = Y - X= Y - X (X X)-1X Y = I - X (X X)-1 X Y (1.10)所以也是Y的线性组合。的期望和方差是 E() = E(X X)-1 X Y = E(X X)-1X (Xb + u) = b + (X X)-1X E(u) = b (1

4、.11)Var() = E(b) (b)= E(X X)-1X u u X (X X)-1 = E(X X)-1X s 2I X (X X)-1 = s 2 (X X)-1 (1.12) 高斯马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。具有无偏性。具有最小方差特性。具有一致性,渐近无偏性和渐近有效性。2. 残差的方差s2 = / (T - k) (1.13)s 2是s 2 的无偏估计量,E(s 2 ) =s 2。的估计的方差协方差矩阵是() = s2 (X X)-1 (1.14)3. 多重确定系数(多重可决系数)Y = X+=+ (1.15)总平方和SST = = Y

5、Y - T, (1.16)其中是yt 的样本平均数,定义为= 。回归平方和为SSR = = - T (1.17)其中的定义同上。残差平方和为SSE = = = (1.18)则有如下关系存在, SST = SSR + SSE (1.19)R2 = (1.20)显然有0 R 2 1。R 2 1,拟合优度越好。 4. 调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数如下: = 1 - = 1 - (1.21) 5. OLS估计量的分布 若u N (0, s 2I ) ,则每个ut都服从正态分布。于是有Y N (Xb, s 2I

6、 ) (1.22)因也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有 N ( b, s2(X X)-1 ) (1.23) 6. 方差分析与F检验与SST相对应,自由度T-1也被分解为两部分,(T-1)= (k -1) + (T- k) (1.24) 回归均方定义为MSR = ,误差均方定义为MSE = 表1.1 方差分析表方差来源平方和自由度均方回归SSR =-T2k-1MSR = SSR / (k-1)误差SSE = T-kMSE = SSE / (T-k)总和SST= Y Y - T2T-1H0: b1= b2 = = bk-1 = 0; H1: bj不全为零F = =

7、F(k-1,T-k) (1.25)设检验水平为a,则检验规则是,若 F Fa (k-1,T-k),接受H0;若 F Fa (k-1,T-k) , 拒绝H0。 0 Fa (k-1, T-k) -ta(T-k) 0 ta(T-k)F检验示意图 t检验示意图7t检验H 0:bj = 0, (j = 1, 2, , k-1), H 1:bj 0t = t(T-k) (1.26)判别规则:若 t ta(T-k) 接受H 0;若 t ta(T-k) 拒绝H 0。 11建模过程中应注意的问题(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9

8、倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。 (2) 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量 = f(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,改革开放前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释

9、变量,因为食用油供应方式已改变。(3) 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。 例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。 例:2002年起我国已经执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4) 通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非线性、无关系)(nonli8)(5)谨慎对待离群值(outlier)。离群值可能是正常值也可能是异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。年INV(投资)IMPORT(进口)19912.56200023.4

10、700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000 (6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,yt = b1 xt + ut ,为例, = 0不一定成立。原因是正规方程只有一个(不是两个),= 2 (yt -xt) (- xt) = 0,即 xt = 0,而没有 = 0。所以残差和等于零不一定成立。可决系数R 2有时会得负

11、值!原因是有时会有SSESST。为维持SSE+SSR=SST,迫使SSR0。 (7) 改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。以一元回归模型的估计公式为例说明之。= t = = (8) 回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。 (检验一次, H0: b1= b2 = = bk-1 = 0; H1: bj不全为零。)若F检验结果能拒绝原假设,应进一步作t检验(检验k次,H 0:bj = 0, (j = 1, 2, , k-1), H 1:bj 0)。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9) 在作F与t检验时,不要把自

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号