DMD-6-回归模型-－金锄头文库

资源描述

《DMD-6-回归模型-》由会员分享，可在线阅读，更多相关《DMD-6-回归模型-（34页珍藏版）》请在金锄头文库上搜索。

1、1,第九章回归模型对于一个工商管理人员来说，相当重要的管理决策能力之一是敏锐地洞察商业或生产中数据的发展趋势，并且在已认识的趋势基础上对未来做出正确的预测。而能够做到这一点的强有力的工具之一就是所谓的“回归模型”。,数据模型决策,2,9.1 简单线性回归模型及预测例9.1 广告花费与销售额的预测某公司销售额数据 yt（第 t 月的销售额）与广告花费数据 xt （第 t 月的广告花费）如表。,数据模型决策,3,9.1 简单线性回归模型及预测例9.1 广告花费与销售额的预测由表中数据可以绘制一张散点图！,数据模型决策,4,9.1 简单线性回归模型及预测

2、从散点图中，你有何发现？,数据模型决策,yt 与xt 之间似乎存在不太精确的线性函数关系！,那么，我们能不能想象出（或确定出）一条直线来反映这一关系（或规律）呢？,关键的问题是如何才能 “ 最好地 ” 反映这一关系！,5,9.1 简单线性回归模型及预测简单线性回归模型（一元线性回归模型）：,数据模型决策,yt = + xt + t t = 1，2，n 1 ，2 ， n ， iid ，N（0，）,称 y = + x 为线性回归函数（或回归直线），，是两个重要的参数，为回归系数。,为了使回归直线能 “ 最好 ” 地反映数据对（x1，y1），（x2，y2），（xn，

3、yn）所描述的 y 与 x 之间的关系，就需要确定，的值，所采用的方法“最小二乘”估计法。,6,9.1 简单线性回归模型及预测最小二乘估计，：,数据模型决策, =,n i=1 （xi x ）（yi y ）,n i=1 （xi x ）2, =,y - x,7,9.1 简单线性回归模型及预测由上述分析可以计算得到例 9.1中,数据模型决策, = 13.88, = - 998,如果模型成立，即可得回归直线： y = - 998 + 13.88 x,8,9.1 简单线性回归模型及预测,数据模型决策,9,9.1 简单线性回归模型及预测在以上的分析中，我们始终有

4、一个前提 “ 如果模型成立 ”。那么模型究竟能否成立呢？从管理实际角度再对模型加以定性的思考：广告效应的 “ 滞后 ” 性！我们采用另一个线性回归模型： yt = 1 + 1xt-1 （t = 1，2，n）这样，可以得到另一条回归直线： y = 335.9 + 13.9 x,数据模型决策,10,9.1 简单线性回归模型及预测至此，我们得到了两个线性回归模型： 1、 y = - 998 + 13.88 x 2、 y = 335.9 + 13.9 x 这两个线性回归模型都可以对未知的月销售额进行预测。但是，哪一个模型更有效呢？解决这一问题的方法是对预测的误差进行比较！即采用

5、均方残差 MSE 进行比较。,数据模型决策,MSE =,1 n,n i=1 （yi yi ）2,11,9.1 简单线性回归模型及预测从两个模型的均方残差 MSE 来考虑，我们应该选择 MSE 较小的模型，即选择 x t-1 与 yt 的模型略好些，直观的含义就是广告具有 “ 滞后 ” 效应。然而，这两个模型的预测误差都是比较大的，其原因可能是我们仅考虑了一个因素对 yt 的影响。而事实上，x t-2，x t-1 ，xt 等等，乃至可能其他以前月份已发生的广告费支出对 yt 都会产生影响。因此，我们的线性回归模型不得不考虑有多个 “自变量” 的情况这就引出了 “多元线性回归模型”。

6、,数据模型决策,12,9.2 多元线性回归多元线性回归模型：,数据模型决策,yi = + 1x1i + 2x2i + + kxki + i i ， iid ，N（0，）（ t = 1，2，n）,例如，假定 y 为当月的销售额，那么 x1 可以是上月的广告费，x2 可以是产品的价格，x3 可以是市场景气指数，称 y = + 1x1 + 2x2 + + kxk 多元为线性回归函数,13,9.2 多元线性回归和一元线性回归的分析类似，重要的是确定模型中的参数， 1 ， 2 ， k 的估计。采用的方法仍然是使：残差平方和 SSE 达到极小！,数据模型决策,SS

7、E = n i=1 （yi yi ）2,= n i=1 （yi 1x1i 2x2i kxki ）2,14,9.2 多元线性回归现在分析例 9.1 ，我们考虑线性回归模型： yt = + 1xt + 2xt-1 + 3xt-2 + t （ t = 3，4，，15 ）,数据模型决策,多元线性回归Microsoft Excel,15,9.2 多元线性回归模型分析 1、回归系数,数据模型决策, = 522.1306659,1 = 3.681483641,2 = 4.965806176,3 = 5.19950817,于是有回归方程： yt = 522.1 + 3.681 xt +

8、 4.4.966 xt-1 + 5.2 xt-2,16,9.2 多元线性回归模型分析 2、标准误差 S S 是对 t 所服从的 N（0，）中的估计：即 = S,数据模型决策,3、自由度 df = 观察次数（n）- 自变量个数（k）- 1 4、回归系数的置信区间和标准差 5、t Stat 该项的作用是检验每一个 xj 与 y 的线性关系是否显著，如果检验结果认为 xj 与 y 有显著的线性关系，则模型中保留 xj 项是合理的，否则可以将此项从模型中剔除。保留或剔除 xj 项可以根据 p-Value 值作简单的判断： p-Value 值较大剔除 xj 项 p-Value 值较小保

9、留 xj 项,17,9.2 多元线性回归模型分析在保留或剔除 xj 项时应该注意以下几点：（1）应该首先注意自变量 xj 的线性项是否应含于模型中，只有当此项工作全部完成后，才对是否为 0 进行检验。（2）如果发现某 xj 相应的 p-Value 较大，则应将 xj 项从模型中剔除，且应注意，这种剔除工作应逐次进行（即每次只剔除 p-Value 最大的一项）直到模型中不含 p-Value 较大的项。对前面的回归模型中，我们剔除 xt 项，重新建立回归模型： yt = 1161.6 + 5.873 xt-1 + 7.945 xt-2,数据模型决策,18,9.2 多元线性回归模

10、型分析 6、判别系数 R2 （R 也称为相关系数或复相关系数）判别系数 R2 的作用是判别因变量 y 与自变量 x 之间的线性关系是否合理（即线性相关性的程度）， R2 是一个 0 到 1 之间的数，当它越接近于 1 ，则表明线性模型越拟合于数据，即线性回归模型越合理。当它越接近于 0 ，则表明线性回归模型越不合理。另外，有一点应该注意，建立多元线性回归模型时，总是力求建立具有较少的、合理的、有意义的个数自变量的简单模型。不要单纯地为了追求高的 R2 值而在模型中引入“ 过多 ”的自变量。,数据模型决策,19,9.2 多元线性回归模型分析下图分别是 R2 = 0.995 ， R

11、2 = 0.797 时所对应的图形。,数据模型决策,20,9.2 多元线性回归模型分析 7、方差分析方差分析表是用于检验自变量的线性组合是否对于预测因变量有效，即检验模型是否是线性模型。其检验方法称为： F 检验，检验模型为 H0：1 = 2 = = k = 0 ；对 H1：至少有一个不为 0 方差分析表中的 F 数值越大，我们就越应该拒绝 H0 而接受 H1：表中 Significance F 数值给出了 F 数值“ 发生 ”的概率。拒绝 H0 的理论就是：小概率事件在一次实验中“几乎”不可能发生的事实。,数据模型决策,21,9.2 多元线性回归模型分析建立线性回

12、归模型的小结：在建立一个线性回归模型时：R2 ，F- 检验（方差分析），t- 检验（回归分析）三者都极其重要，其分析缺一不可，否则，强行建立的线性回归模型很难用于解释现象或进行预测。这一点我们必须牢记！,数据模型决策,22,9.3 线性回归模型的有效性上面我们所做回归分析的所有工作都在一系列假设之下进行的，即线性回归模型成立。但是，倘若这些假设不成立，那么回归模型的有效性就成了问题。前面的分析，我们在 i ， iid ，N（0，）成立的假设下，检验了 y = + 1x1 + 2x2 + + kxk + 成立的合理性。现在我们要回头来检验关于误差的假设是否成立。,数据模

13、型决策,23,9.3 线性回归模型的有效性 1、关于模型的线性假设线性回归模型首先作了假设： yi = + 1x1i + 2x2i + + kxki （i = 1，2，n ）当只有一个自变量时，散点图可以帮助我们直观地检验此假设。但如果有多个自变量时，就无法这样做了。虽然每一个自变量与因变量也可有散点图，但将所有自变量综合在一起时，情况就不同了。如前所述，此时 R2 可以起一定的作用，但是 R2 也有其缺陷。要判断是否线性问题利用残差图。,数据模型决策,24,9.3 线性回归模型的有效性 2、误差项的正态性在线性回归模型中的另一个重要假设是： i ： iid ，N（0，

14、） i 本身是无法观察的，但它可以利用残差 ei = yi yi 进行估计。,数据模型决策,而残差所提供的信息使我们能对 i 的正态性进行检验。常用而有力的一个工具是残差图分析,25,9.3 线性回归模型的有效性残差图残差图：以残差为纵坐标，以某一个“合适”变量为横坐标的散点图。 “合适”变量通常选回归值（预测值）y 。,数据模型决策,下图是一个多元线性回归模型的残差图和残差直方图：,26,9.3 线性回归模型的有效性 3、异方差性在线性回归模型中，误差项 i 具有相同的方差也是一个重要的假设。其原因是回归模型分析中所有的假设检验都要依赖这一假设。考察这一假设通常

15、也是利用残差图来进行。如果残差随 x （或 y ）的增大而增加或减少，那就可能蕴涵着残差乃至误差项对于不同的观察值具有不同的方差变化，于是模型中的 i 很可能不是相同方差的。解决的方法常常是对 y 变量实施方差稳定变换后再拟合模型。常用的这类变换有三种以达到稳定方差的作用：,数据模型决策,y ，,Log y ，,1 / y,27,9.3 线性回归模型的有效性 4、自相关性在回归模型中，我们还假设 1 ， 2 ，， n 是相互独立的随机变量，如果发生自相关性现象就违背了这一假设。判断是否存在“自相关”现象，仍然可以根据残差图进行大致的判断。如果以时间为横轴得到的残差图表现出某种趋势规律，或至少不像残差 “相互独立” 时那样在零点线上下起伏无规律地波动，则很可能 1 ， 2 ，， n 不是相互独立的。另一种方法是采用 Durbin Watson 检验法对残差的 “自相关” 性进行假设检验。,数据模型决策,28,9.3 线性回归模型的有效性 5、共线性回归分析中很容易发生模型中多个自变量高度相关的现象，这有可能引起最小二乘估计的解的不精确，从而使决策者对预测方程的可信性降低。

展开阅读全文