大学生数学课件:回归分析(excel)

上传人:w****6 文档编号:127692125 上传时间:2020-04-04 格式:PPTX 页数:47 大小:7.01MB
返回 下载 相关 举报
大学生数学课件:回归分析(excel)_第1页
第1页 / 共47页
大学生数学课件:回归分析(excel)_第2页
第2页 / 共47页
大学生数学课件:回归分析(excel)_第3页
第3页 / 共47页
大学生数学课件:回归分析(excel)_第4页
第4页 / 共47页
大学生数学课件:回归分析(excel)_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《大学生数学课件:回归分析(excel)》由会员分享,可在线阅读,更多相关《大学生数学课件:回归分析(excel)(47页珍藏版)》请在金锄头文库上搜索。

1、回归分析 第1节一元回归分析模型 第2节回归系数的最小二乘估计 第3节回归估计的统计推断 第4节预测 第5节多元回归分析 返回 变量间的关系 确定性关系或函数关系y f x 人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的产量和施肥量股票的价格和时间学生的期中和期末考试成绩 非确定性关系 称这种非确定性关系为统计关系或相关 相依 关系 x Y 实变量 随机变量 相关关系 研究变量间统计关系的统计学分支一般有 相关分析和回归分析 在应用中 相关分析和回归分析两种分析方法经常相互结合和渗透 但它们研究的侧重点和应用方面不同 其差别主要有以下三点 一是在回归分析中 变量y称为因变量 处在被解

2、释的地位 在相关分析中 变量x与变量y处于平等地位 即研究变量y与变量x的密切程度同研究变量x与变量y的密切程度是一回事 二是相关分析中所涉及的变量x与y全是随机变量 而回归分析中 因变量y是随机变量 自变量x可以是随机变量 也可以是非随机的确定变量 通常的回归模型中 我们总是假定x是非随机的固定变量 三是相关分析的研究主要是刻画两类变量间线性相关的密切程度 而回归分析不仅可以揭示变量x对变量y的影响大小 还可以由回归方程进行预测和控制 由于回归分析和相关分析的研究侧重不同 使得他们的研究方法也大不相同 回归分析已成为现代统计学中应用最广泛 研究最活跃的一个分支 如果数学关系式描写了一个变量与

3、另一个变量之间的关系 则称其为一元回归分析 如果数学关系式描写了一个变量与另多个变量之间的关系 则称其为多元回归分析 并且称这一个变量是被影响变量 因变量 DependentVariable 称这多个变量是影响变量 自变量 IndependentVariable x Y 采集样本信息 xi yi 回归分析 散点图 回归方程 线性关系的显著性检验 对现实进行预测与控制 基本思想 第1节一元回归分析模型 某市场在t时刻黄瓜销量的数据如下 其中qt表示时刻销售黄瓜的数量 单位为 斤 pt表示t时刻的销售价格 单位为 元 这是一个确定性关系 若x y之间的关系是随机的 例如 这时 方程的形式为 其中为

4、随机变量 称为随机扰动或随机误差项 对于回归模型 我们假设 可得到 如果给出a和b的估计量分别为 则经验回归方程为 一般地 称为残差 y称为因变量 x称为自变量 称为随机扰动 a b称为待估计的回归参数 下标i表示第i个观测值 两个变量之间的线性关系 其回归模型为 1 散点图 以下设x为自变量 普通变量 Y为因变量 随机变量 Y的取值记为y 现给定x的n个值x1 xn 观察Y得到相应的n个值y1 yn xi yi i 1 2 n成为样本点 以 xi yi 为坐标在平面直角坐标系中描点 所得到的这张图便称之为散点图 记 第2节回归系数的最小二乘估计 例2 1 北京市城市居民家庭生活抽样调查散点图

5、 记以上直线为 回归系数 回归常数 回归值 注意 这种几何作图的方法简单直观 但精度差 局限性大 2 最小二乘法 OLS 若散点图呈直线变化趋势 则可以假设变量Y与x变量满足Y a bx 7 1 并称 7 1 为 理论的 一元线性回归模型 是随机误差 通常假定 N 0 2 将 xi yi i 1 2 n逐一代入 7 1 便得到 数据结构的 一元线性回归模型 二元函数的最小值点称为a b的最小二乘估计 简记为OLS 记 以下求 的最小值 解方程得 一般地 记 则 其中 例2 2某市场连续12天卖出黄瓜的价格和数量的调查数据如下 试求 黄瓜销量对价格的回归方程 2 2 第3节回归估计的统计推断 1

6、 可以证明 1 估计量分别是a b的无偏估计量 2 3 由于均为相互独立正态变量的线性组合 根据正态分布的性质 它们也一定是正态的 2 从回归估计量 regressionestimator 的方差可以看到 3 总体方差的一个无偏估计量是 这两个无偏估计量的算术平方根分别称为a b的估计标准误差 4 a和b的区间估计 置信水平为的区间估计是 5 的区间估计 的置信水平为的区间估计是 其中 0 6 y的样本变差的分解 其中 故 反映了的分散程度 由x因素引起 反映了由其它因素对影响程度 回归平方和 残差平方和 且 总平方和lyy SST 回归平方和U SSR 残差平方和 剩余平方和 Q SSE 即

7、 其中 当lyy给定后 由U与Q的相对大小可刻画x对Y的线性影响程度 即比值U Q越大 说明x对Y的线性影响就越强 假设变量Y与x变量满足Y a bx 是随机误差 假定 N 0 2 若H0 b 0成立 则 7 1 变成Y a 自变量x对因变量Y没有线性影响 即回归方程不显著 若假设不成立 则自变量x对因变量Y有线性影响 即线性方程是显著的 所以 假设检验为H0 b 0 因此对于给定的显著性水平 当F F 1 n 2 时 则否定原假设 即认为回归方程是显著的 可以证明 7 回归方程的显著性检验 F 检验 显著性检验一般步骤 1 提出原假设 H0 b 0 2 选择统计量 3 对给定的显著性水平 查

8、临界值F 1 n 2 得否定域为F F 1 n 2 4 代入样本信息 F落入否定域则否定原假设 线性关系显著 落入接受域则接受原假设 线性关系不显著 F 1 n 2 单侧假设检验 t检验 由于F是R2的单调增函数 因此又因为 当接近1时 就可以认为回归方程是显著的 相关系数检验法 1 提出原假设 H0 b 0 2 选择统计量 3 对给定的显著性水平 查临界值r n 2 得否定域为R r n 2 4 代入样本信息 R落入否定域则否定原假设 线性关系显著 落入接受域则接受原假设 线性关系不显著 解 1 计算 回归方程为 2 H0 b 0 查 故否定域为F 5 32 代入得 所以否定原假设 即认为线

9、性关系显著 或者 所以回归效果显著 8 回归分析的表述 我们从一组样本数据进行回归系数的估计 得到经验回归方程 因为还要进行区间估计 显著性检验 所以必须求出回归估计量的标准误 以及判定系数 通常可写成表达式 其中括号内填写相应的t 检验显著性概率值 这样就较全面地表述了样本回归估计式 例3 2某市场连续12天卖出黄瓜的价格和数量的调查数据如下 7 2 2 应用Excel可得下面成果 由此可知 1 R2 0 889 S 8 360 698 889 10 0 5 平方和分解SST 6300 5601 111 698 889 SSR SSE 2 回归方程的显著性检验 从t 检验和F 检验均有 显著

10、性概率值p 4 34E 06 0 05 所以认为回归方程是显著的 3 a的95 置信区间是 182 435 238 454 b的95 置信区间是 197 047 118 508 4 经验回归方程 1 21E 08 4 34E 06 下面我们求的95 置信区间 7 2 2 进一步可得总体需求函数的95 置信带 此置信带有95 的置信度包含了相应的总体值 设一元线性回归模型为Y a bx 1 其中 是随机误差 假设 N 0 2 xi yi i 1 2 n为样本点 逐一代入一元线性回归模型得 一元线性回归方程为 已知 对应随机变量Y的取值为Y0 称 为的预测值 点预测值即为回归方程计算所得回归值 第

11、4节预测 1 预测值 predictionvalue 例4 1对于例7 2 1 预测当价格分别为1 2 1 1 0 85 0 75 0 45时 黄瓜的销量情况 解 经验回归方程为 4 1 实际值与其预测值之间有预测误差 即预测误差总方差 随机扰动产生的方差 抽样误差产生的方差 通过计算可知 从而易见 如果要降低 可以采取如下措施 1 增大样本容量n 2 增大样本中自变量的分散性 即增大 3 减少x0与自变量样本均值之间的距离 2 区间预测 所求即为x x0时 对应Y0的1 置信区间 1 选择除Y0外不含其它任何未知参数的统计量 其中 2 对给定的置信度1 查t n 2 得T的1 置信区间 3

12、不等式变形得到Y0的1 置信区间为 例4 2 某市居民收入x与购买支出Y数据如下表 x11 612 913 714 614 416 518 217 2Y10 411 512 413 113 214 515 817 2 1 求y对x的线性回归方程 2 预测当x 21亿元时 购买支出的点预测和95 的预测区间 解 1 回归方程为 2 点预测为 计算得 查表得 t n 2 t0 05 6 2 447 代入得95 置信区间为 17 5765 18 8017 4 1 例4 3承例4 1 求每个自变量值所对应的因变量值的预测区间 第5节多元回归分析 多元回归模型的一般形式为 其中y是因变量 为个自变量 为

13、随机扰动 为回归参数 对因变量和所有自变量进行n次观测 得到样本数据 根据最小二乘法 由微积分求极值方法得多元经验回归方程为 例7 5 1某住宅小区附近的家具商城 认为住宅销售户数和新婚对数这两个因素对家具的销售额有明显的作用 为了确定该商城每季度家具的进货和销售 他们对全市各个小区家具店收集了12组市场调查资料如下 请为商城人员建立二元经验回归方程并进行统计推断 5 1 1 提出原假设 H0 bi 0 H1 bi 0 2 选择统计量 多元线性回归方程的显著性检验 1 t 检验 3 若 则拒绝原假设 说明对应的自变量作用是显著的 反之 则接受原假设 认为该自变量的作用是不显著的 2 F 检验

14、F 检验的原假设H0 判定系数统计量的真值等于零 检验统计量是 若 就拒绝原假设 认为已建立起来的线性回归模型整体上显著有效 例5 2天津某区关于 电脑销售量 人均收入和电脑平均价格 的调查资料如下 试建立电脑销售量的二元经验回归方程并进行统计推断 检验回归效果的显著性 5 2 电脑销售量的二元经验回归方程为 F 103 39151 P F 2 6 103 39151 2 242E 05 0 05 所以认为回归方程是显著有效的 回归系数的置信区间为 多元线性回归模型的相关分析 1 复相关分析 复相关是指一个因变量同多个自变量之间的相关关系 复相关系数的计算指标为R 即上述介绍的判定系数R2的算术平方根 2 偏相关分析偏相关是指多元回归中各个自变量在其它自变量固定不变时 单个自变量同因变量的相关关系 其相关程度用偏回归系数测定 偏相关系数的计算要使用更高级的统计分析软件 如SAS SPSS等来实现

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号