数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章 回归分析

上传人:E**** 文档编号:89185373 上传时间:2019-05-20 格式:PPT 页数:39 大小:680KB
返回 下载 相关 举报
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章  回归分析_第1页
第1页 / 共39页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章  回归分析_第2页
第2页 / 共39页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章  回归分析_第3页
第3页 / 共39页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章  回归分析_第4页
第4页 / 共39页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章  回归分析_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章 回归分析》由会员分享,可在线阅读,更多相关《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章 回归分析(39页珍藏版)》请在金锄头文库上搜索。

1、第3章 回归分析,回归分析的目的:依靠观察数据建立变量间的相关关系,分析数据规律并用于预测或控制. 回归分析的基本内容: 线性回归分析 参数回归分析 回归分析 非线性回归分析 非参数回归分析 本章内容:线性回归分析与Logistic模型. 基本要求:掌握线性回归分析的基本方法与步骤,并能应用该方法解决一些实际问题.,3.1 线性回归模型 3.1.1 线性回归模型及其矩阵表示 线性回归模型: 对n组观察数据(样本): 其中Y是因变量, 为自变量. 是未知数; 为误差项. 它们应满足 其中 相互独立且均服从 分布.,令 则在观察数据下线性回归模型可写为如下矩阵形式 其中 ,称为设计矩阵且假定,3.

2、1.2 参数估计 1. 的最小二乘估计 选择 使误差项的平方和 达到最小,这里约定 解方程组: 即得 的最小二乘估计为: 由 ,故 ,即 为 的一个无偏估计. 这时称 为回归方程.,2.误差方差 的估计 称 为Y拟合值.称 为残差向量,其中 . 称 为残差平方和. 由于 且 ,则有 故得 从而 为 的一个无偏估计.,3.1.3 有关的统计推断 (1) 建立方差分析表 (i) 离差平方和的分解 记 ,则数据的总的离差平方和 反映了数据 波动的大小. 残差平方和 反映了除去Y与 之间的线性关系以外的因素引起的数据波动. 回归平方和 反映了由变量 的线性关系所引起的 波动. 可证明: SST=SSE

3、+SSR,(ii)方差分析表 表3.1 方差分析表 其中回归平方和及残差平方和各自的自由度之比分别称为均方回归及均方残差.J表示一个元素全为1的n阶方阵.利用方差分析表可对回归方程的显著性进行检验.,(2)线性回归关系的显著性检验 至少有某个 基于上述方差分析表,构造如下检验统计量: 当 为真时,可以证明FF(p-1,n-p),这里表示自由度为p-1和n-p的F分布.给定显著水平 ,计算F的观测值 , 检验法则为: 若 ,接受 若 ,拒绝,(3)检验的p值 联在SAS软件及其它一些数据分析软件中,对显著性检验问题,其输出结果通常是检验的p-值.简单的说,检验的p-值是当 为真时,检验统计量取其

4、观测值及更极端值的概率.对上述线性回归关系的显著性检验问题,其检验p-值为 其中 为检验统计量F 的观测值.有了p-值后,对于给定的显著水平 任何检验准则均为 若 ,拒绝 , 若 ,接受 . 这样不需要查相应分布的分位数表,而直接根据p和 的大小便可判断是拒绝还是接受 .,2.回归参数的统计推断 检验假设: 注意到 ,则 令 为 的估计,则可以证明 其中 为 的主对角线上的第k个元素的平方根.若 为真 若 不真,由于 ,则 有偏大的趋势.因此,给定显著水平 ,检验准则为 若 ,则接受 , 若 ,则拒绝 .,对上述检验统计量,其p值为: 从而若 ,接受 ,反之拒绝 . 另外,由式(3.10)可求

5、得的 置信度为 的置信度区间为: 在SAS系统中,参数估计及其各参数的检验结果以下表形式输出. 参数估计表 参数 估计值 标准差 统计量t值 p值,3.关于预报值的统计推断. 设给定了自变量的一组新观测值 ,则利用回归方程可得因变量Y的预报值为 是对应于自变量值 的一个点估计. 基于 可给出在 处的真值 的区间估计.可证明 其中 而 .因此可得 的置信度为 的置信区间为,例3.1 某公司在各地区销售一种特殊的化妆品.该公司观测了15个城市在某季度内该化妆品的销量Y以及各城市适合使用该化妆品的人数 和人均收入 ,得数据如表3.2所示(见教材94页).假设误差服从正态分布 ,试建立Y与 之间的线性

6、回归方程并讨论相关的统计推断问题. 解:建立线性回归模型 利用所给数据由 SAS PROC REG 过程得如下结果 方差分析表 方差来源 自由度 平方和 均方 F值 p值 回归 2 53844.71643 26922.35822 5679.466 0.0001 误差 12 56.88357 4.74030 总和 14 53901.60000 由p值很小可知,回归关系高度显著.,参数估计表 由此知, 与 均对Y有显著影响.回归方程为 进一步可得参数 和 的置信度为95%的置信区间分别为 若有一新城市关于 和 的值为(200,2500),则代入回归方程得Y的预报值为 其真值 的置信度为95%的置信

7、区间为(130.602, 140.544).,例 3.2 历年农、林、牧、渔业总产值及各项产值见表3.6(教材第96页),其中 是总产值, 分别是农、林、牧、渔业产值.用date表示年份,建立 关于date, 的线性回归关系,并研究相关统计推断问题. 解: 建立线性回归模型 基于数据及 PROC REG 过程可得: 方差分析表 方差来源 自由度 平方和 均方 F值 p值 回归 4 451060738 112765185 133.34 0.0001 误差 13 10993849 845681 总和 17 462054587 由此结果知,回归关系高度显著.,参数估计表 参数 估计值 标准差 t值

8、p值 -3307.77505 2671.88520 -1.20 0.2513 0.72491 0.36352 2.00 0.0674 -13.92218 7.22698 -1.93 0.0762 2.14296 0.94721 2.26 0.0414 1.43761 1.67929 0.86 0.4075 由以上结果知,年份,林,牧业产值均对农业产值有较为显著的影响.但在给定其显著水平 下,仅选择显著变量进入模型,可以用下节将要介绍的逐步回归法实现. 另外,利用PROC REG 过程的有关选项,可以给出 的拟合值及95%置信区间(见教材3.9)并给出其置信带(图3.1),3.2 逐步回归法 逐

9、步回归法的基本步骤是依次拟合一系列回归方程,后一个回归方程是在前一个的基础上增加或删除一个自变量,其增加或删除某个自变量的准则是用残差平方和的相对增加或减少量来衡量,一般采用如下的偏F检验统计量.设模型中已有l-1个自变量,记这l-1个自变量的集合为A,当不在A中的一个自变量 加入到这个模型中时,偏F统计量的一般形式为: 其中 描述了将 引入到含A中各变量的线性模型中时(或从含A中各变量及 的模型中剔除 ),其误差平方和的减少量(或增加量). 下面我们详细叙述逐步回归法的具休步骤.,首先,给定两个显著水平,一个用作选取自变量,记为 ;另一个用作剔除自变量,记为 .然后按下列步骤进行: 第一步

10、对每个 ,M为处变量总个数),拟合仅包含 的一元线性回归模型 这时,偏F 统计量中的集合A为空集,即l=1,因此SSE(A)=SST,故 对每个k,计算 它度量了将 引入模型后,残差平方和的相对减少量.设 若 (即F(1,n-2)分布的上侧 分位数),则选择含 的回归模型为当前模型.否则,没有自变量进入模型,选择过程结束.,第2步 在第一步选出的含 的模型基础上,再将其余M-1个自变量逐个加入到此模型中,并计算 设 若 ,则选取过程结束,第1步选择的模型(即仅含 的线性回归模型)为最优模型.若 ,则将 加入到第1步所选的模型中,即有 (*) 进一步考察,当 进入模型后, 是否可被剔除.为此计算

11、 若 ,则剔除 ,这时仅含 的回归模型为当前模型.否则(*)为当前模型.,第3步 在第2步所选模型的基础上,再将未在模型中的自变量逐个加入,计算相应的偏F检验统计量的值,与相应F分布的 临界值比较以决定是否有其它变量可进入模型.若有新的自变量进入模型,再检验原模型中的自变量是否因这个新变量的进入而可被删除. 例如,若第2步中选择结果是模型(*),即 再将其余M-2个自变量逐个加入该模型并计算 设 若 ,则选择过程结束,模型(*)为最优模型.若 ,则 进入模型,即有,(*) 进一步考察 或 是否因 的进入可被剔除,即计算 若 ,则首先剔除 和 中较小的一个对应的自变量,再接着检验另一个变量是否可

12、被删除.若 , 均不能被剔除,则(*)为当前模型. 重复以上步骤,直到没有自变量能进入模型,同时已在模型中的自变量均不能被剔除,则选择过程结束,最后一个模型即认为是最优的.,例 3.3 为预报某类肝手术病人的术后生存时间,某医院随机选取了54位需做此手术的病人为研究对象.记录每位病人在手术前的如下四个指标: :凝血值; :愈后指数; :酶化验值; :肝功化验值. 术后随访得各病人的生存时间Y(数据见表3.10).令 =lgY ,建立 与 的线性回归关系.并在 下利用逐步回归法选取自变量,给出最终回归方程. 解(结合现场演示SAS输出结果讲解,其SAS程序与输出见第8章例8.9). 最终选取的自

13、变量为 ,相应回归方程为 例3.4 (续例3.2).(给定 ,结合SAS输出结果讲解).最终选取的回归方程为.,3.3 Logistic回归模型 3.3.1 Logistic 模型 Logistic 模型是一种应用十分广泛的广义线性模型,它通过建立某事件A 发生的概率与影响该概率的一些因素之间的回归关系.分析这些因素影响A 发生的概率的显著性及影响方式,并可应用于判别分析中. 设 为影响事件A 发生的概率的p-1个因素(自变量), 表示在自变量值为x 时发生A 的概率,则(线性)Logistic模型为 或,3.3.2 参数的最大似然估计与Newton-Raphson迭代解法 1.似然方程,信息

14、矩阵及其估计. 给定变量 的m组值 对于第 组值 ,共独立观测了 次,令 在 下的 次观测中事件A 发生的次数; 在 下事件A 发生的概率, 则 记 (约定 ) 则Logistic模型的样本形式为 或 其中 .,设在 的 次独立观测中,事件A 发生了 次(即 ), 则事件 的似然函数为 对数似然函数为,注意到 则 从而得似然方程为,上述似然方程可写为如下的矩阵形式: 其中 解此方程组便得到 的最大似然估计 .由于该方程组为非线性方程组,需要用迭代方法求解(见后).,进一步可求得 从而得信息矩阵 记 为对角矩阵,则,根据最大似然估计理论, 的最大似然估计 的协方差矩阵为 将 代入 表达式中得 和矩阵A的估计分别为 从而得

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号