第12章 回归分析ppt课件

上传人:资****亨 文档编号:134890451 上传时间:2020-06-09 格式:PPT 页数:92 大小:1.01MB
返回 下载 相关 举报
第12章 回归分析ppt课件_第1页
第1页 / 共92页
第12章 回归分析ppt课件_第2页
第2页 / 共92页
第12章 回归分析ppt课件_第3页
第3页 / 共92页
第12章 回归分析ppt课件_第4页
第4页 / 共92页
第12章 回归分析ppt课件_第5页
第5页 / 共92页
点击查看更多>>
资源描述

《第12章 回归分析ppt课件》由会员分享,可在线阅读,更多相关《第12章 回归分析ppt课件(92页珍藏版)》请在金锄头文库上搜索。

1、 1 第十二章回归分析 学习目标掌握简单线性回归模型基本原理 掌握最小平方法 掌握测定系数 了解模型假定 掌握显著性检验学会用回归方程进行估计和预测 了解残差分析 2 1 P370 14 P380 202 P372 75 P388 283 P380 186 P393 35 习题 3 案例讨论 1 这个案例都告诉了我们哪些信息 2 通过阅读这个案例你受到哪些启发 4 根据一个变量 或更多变量 来估计某一变量的方法 统计上称为回归分析 Regressionanalysis 回归分析中 待估计的变量称为因变量 Dependentvariables 用y表示 用来估计因变量的变量称为自变量 Indep

2、endentvariables 用x表示 5 第一节简单线性回归模型 只涉及两个变量 一个自变量和一个因变量 之间关系的回归分析称为简单回归分析 Simpleregressionanalysis 两个变量之间的关系大约呈一条直线的简单回归分析称为简单线性回归分析 Simplelinearregressionanalysis 6 一 从一个实际问题入手 用回归分析可以预测运行一条商业航空线的成本吗 如果可以 那么哪些变量与这一成本有关呢 7 飞机运行成本 飞机型号 飞行距离 乘客数量 行李或货物重量 天气状况 8 为了减少自变量个数 我们做如下假定 飞机类别 波音737飞机飞行距离 500公里航

3、线 可比 而且在每年的相同季节在这种条件下 可以用乘客数来预测飞行的成本吗 9 表12 1是每年相同季节波音737飞机在12条500公里的不同航线不同乘客数时的飞行成本 我们用这些数据以乘客数作为自变量构造模型来预测成本 10 11 二 回归模型和回归方程 12 1 因变量 随机变量 自变量 给定变量 参数 误差项 随机变量 含义为说明在中不能被和之间线性关系解释的变异性 12 在有关假设中 有一个假设就是的期望值或均值等于0 即 12 2 如果简单线性回归模型满足了这个条件 那么就意味着的均值或期望值就是一个线性函数 描述的均值与的关系如何的方程称为回归方程 Regressionequati

4、on 13 在简单线性回归中1 回归方程的图形是一条直线 如图12 1所示 12 3 14 15 2 的截距 3 斜率 回归系数 的含义 当自变量给定一个具体变动值时 因变量平均变化的量 16 17 18 三 估计回归方程 估计回归方程 Estimatedregressionequation 就是用样本统计量作为参数的估计值所建立的回归方程 12 4 的估计值 的估计值 的估计值 19 20 第二节最小平方法 最小平方法 Leastsquaresmethod 也称最小二乘法 是将回归模型的方差之和最小化 以得到一系列方程 从这些方程中解出模型中需要的参数的一种方法 21 一 画散点图 以初步观

5、察成本与乘客数量之间是否呈回归直线 22 二 建立估计回归方程 12 5 最小平方法运用样本数据求出和的值 使得因变量的实际观察值与其估计值之差的平方和最小 即 12 6 23 三 估计回归方程斜率和截距的计算公式 12 8 24 25 26 27 四 将和的计算结果代入式 12 5 有 计算结果表明 在其他条件相同情况下 12条航线上波音737飞机各条航线每次飞行时每增加1名乘客 将会使飞行成本平均增加40 70元 结论 28 Y 4 48千元二者差0 061千元或61元 29 第三节一元线性回归方程的评价 测定系数估计标准误差 30 一 测定系数回归直线与各观测数据的接近程度称为回归直线的

6、拟合优度 度量回归直线的拟合优度最常用的指标是测定系数 又称可决系数 判定系数 该指标是建立在对总离差平方和进行分解的基础之上的 31 离差分解图 32 离差平方和的分解 两端平方后求和有 12 9 12 10 12 11 33 决定系数的取值 R2的取值范围是 0 1 R2越接近于1 表明回归平方和占总离差平方和的比例越大 回归直线与各观测点越接近 回归直线的拟合程度就越好 在一元线性回归中 相关系数r的平方等于判定系数 符号与自变量x的系数一致 因此可以根据回归结果求出相关系数 34 一 残差残差 Residualerror 是因变量的观察值y和因变量的估计值之间的偏差 例如 上面的例子

7、12 12 35 表12 3残差计算表 36 二 误差平方和 残差平方的总和称为误差平方和 Sumofsquaresoferror SSE 12 13 SSE的值是用估计回归方程估计样本中因变量的值时所产生误差的一种测度 37 三 总离差平方和 因变量的值与其均值之间离差的平方和称为总离差平方和 Totalsumofsquares SST 12 14 38 四 回归平方和 因变量的值与其估计值之间离差的平方和称为回归平方和 Sumofsquaresduetoregression SSR 12 15 39 例如 飞行成本案例中各种有关数据计算如下 表12 4计算表 40 由表12 4计算结果可知

8、 SSE 0 31434 SSR 2 79775 SST 3 11209 则 41 这就是说 在一条商业航线上一架波音737飞机飞行成本的方差中有89 9 可以被乘客数目说明或预测 换句话说 飞行成本Y的方差中不能由X或回归方程解释的有10 1 42 二 估计标准误 估计标准误 是对各观测数据在回归直线周围分散程度的一个度量值 它是对误差项 的标准差 的估计 估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小 各观测数据越靠近回归直线 sy就越小 回归直线对各观测数据的代表性就越好 与R2不同的是 估计标准误是一个有单位的平均数 12 16 43 在飞行成本的案例中 sse 0 31

9、414n 12 统计分析 计算结果表明 在12条商业航线上 每架波音737飞机在飞行500公里和其他条件相同情况下 其飞行成本与它们的平均飞行成本平均相差117 3元 44 三 利用测定系数计算相关系数 样本相关系数 12 17 例如 在飞行成本的例子中 45 计算结果表明 波音737飞机在相同季节12条航线上 乘客数量与运行成本之间存在线性高度的正相关关系 46 测定系数与相关系数的联系与区别 两种系数都可以用来测量线性相关关系的强弱 两种系数的取值范围不同 测定系数在0 1之间 相关系数在 1 1之间 两种系数的作用范围不同 相关系数只能用来测定双变量之间的线性相关关系的强弱 测定系数除了

10、可以测量双变量之间线性相关关系的强弱外 还可以用来测量非线性相关关系的强弱和多变量时的相关 因此 测定系数的应用范围比相关系数更广泛 47 第四节模型假定 在进行回归分析时 为了建立适当的模型来说明因变量和自变量之间的关系 需要做出一些假定 简单线性回归的假定模型是 48 要确定假定模型是否恰当 就需要进行显著性检验 显著性检验建立在以下有关假定的基础上 关于回归模型中误差项的假定 1 误差项是一个随机变量 它的均值或期望值为0 即 12 18 49 2 对于所有值 误差项的方差 相等 即 3 误差项值是相互独立的 12 19 12 20 50 4 误差项是一个服从正态分布的随机变量 12 2

11、1 51 第五节回归分析中的显著性检验 回归分析中的显著性检验包括两方面的内容 一是对单个自变量回归系数的显著性检验 t检验 二是对整个回归方程 所有自变量回归系数 显著性的整体检验 F检验 在一元线性回归模型中 由于只有一个解释变量X 因此 对 1 0的t检验与对整个方程的F检验是等价的 52 一 单个回归系数显著性的t检验 第1步 提出假设 一般为对于一些具体问题也可能需要进行单侧检验 第2步 确定检验的统计量 可以证明在回归模型的基本假设成立时 如果零假设正确 则有 12 22 53 12 23 54 第3步 计算检验统计量的样本观测值 第4步 进行决策 根据显著性水平a和自由度df n

12、 2确定检验统计量的临界值 t t 时拒绝H0 55 例如 已知在飞行成本的例子中 56 查表 P453 57 由于t 9 43 表明t值落在拒绝域 因此 总体斜率的假设被拒绝 说明X与Y之间线性关系是显著的 即12条航线上 波音737飞机在飞行500公里和其他条件相同情况下 其乘客数量与飞行成本之间的线性关系是显著的 58 单个回归系数的显著性检验的几点说明 为什么要检验回归系数是否等于0 如果总体中的回归系数等于零 说明相应的自变量对y缺乏解释能力 在这种情况下我们可能需要中回归方程中去掉这个自变量 我们也可以对常数项进行t检验 但大部分情况下我们并不关心常数项的检验结果 通常情况下即使常

13、数项在模型中不显著 我们也会在模型中保留常数项 去掉常数项可能会对模型带来不利影响 59 第1步 提出假设 在一元回归为第2步 确定检验统计量 二 方程整体显著性的F检验 12 24 60 MSE 均方误差 Meansquareerror 是残差平方和 SSE 除以自由度 n 2 所得的一个平均数 它是残差项方差的一个无偏估计量 12 25 61 例如 在飞行成本的例子中SSE 0 31434 n 2 12 2 10 则 62 MSR 均方回归 Meansquareregression 是回归平方和 SSR 除以它的自由度所得的平均数 12 26 63 在这一节所考虑的模型里 将回归自由度定义

14、为自变量的个数 则 12 27 64 在双变量回归分析中自变量是1个 所以 MSR SSR例如 在飞行成本的例子中 SSR 2 79775 所以MSR SSR 2 79775 第3步 计算检验统计量的样本观测值 65 第4步 进行决策 根据显著性水平a和自由度1 n 2确定检验统计量的临界值Fa F F 时拒绝H0 或者p值 a时拒绝H0 如果不能拒绝零假设 则说明所有自变量作为一个整体对因变量都没有解释能力 注意这里F检验是右侧检验 66 例如 在飞行成本的例子中 已知 MSE 0 031434 MSR 2 79775 查F表 P455 67 由于F 89 02 所以 我们拒绝 并得出结论

15、当显著性水平为0 05时 F检验提供了必要的统计证据 使我们得出乘客数量与飞行成本之间存在显著性关系的结论 68 在简单回归分析中 还可以利用F值与t值的关系来进行F检验 例如 在飞行成本的例子中 已知t 9 43 12 28 69 三 解释显著性检验时应注意的两个问题 一 拒绝了零假设 并得出自变量和因变量之间存在统计显著性关系的结论 并不能使我们认为和之间存在因果关系 70 注意 相关关系 因果关系 典型的错误推断 庆祝生日有利于健康 统计分析表明 庆祝生日次数越多的人越长寿 学生穿的鞋越大 他的识字水平就越高 对小学各年级学生的抽样调查表明 学生的识字水平与他们鞋子的尺寸高度正相关 思考

16、问题 如何证明两个变量之间存在因果关系 71 二 仅仅能够拒绝零假设和证明了统计的显著性 还不能得出结论 Y和X之间存在线性关系 72 第六节回归估计和预测 一 点估计利用回归方程 对给定的某一特定值时的均值进行估计或预测 例如 上面我们提到的在乘客人数为75人时 对飞行成本的预测就是一种点估计或预测 二 区间估计略 73 三 Y均值的置信区间估计 12 29 74 一般地说 当用估计时 不能希望二者正好相等 要推断是如何接近真实均值 就需要根据回归方程求出方差估计值 12 30 的方差 75 的标准差为 12 31 的置信区间估计公式为 12 32 76 例如 在飞行成本的模型中 我们要预测当 乘客人数 为73时 在95 的置信度内 飞行成本 的均值 置信度 95 df n 2 12 2 10 s 0 1773 77 当时 78 的置信区间为 12 33 79 这说明 当时 在95 的可信度下 Y的均值会落在4 42 4 66千元之间 80 四 预测某个Y值的单个区间 回归预测的另外一种区间是对每个给定自变量的值预测单个Y值的估计区间 12 34 81 例如 我们利用上一个例子的所有

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号