数据分析(第二版) 教学课件 ppt 作者范金城梅长林第3章回归分析

资源描述

《数据分析(第二版) 教学课件 ppt 作者范金城梅长林第3章回归分析》由会员分享，可在线阅读，更多相关《数据分析(第二版) 教学课件 ppt 作者范金城梅长林第3章回归分析（39页珍藏版）》请在金锄头文库上搜索。

1、第3章回归分析,回归分析的目的:依靠观察数据建立变量间的相关关系,分析数据规律并用于预测或控制. 回归分析的基本内容: 线性回归分析参数回归分析回归分析非线性回归分析非参数回归分析本章内容:线性回归分析与Logistic模型. 基本要求:掌握线性回归分析的基本方法与步骤,并能应用该方法解决一些实际问题.,3.1 线性回归模型 3.1.1 线性回归模型及其矩阵表示线性回归模型: 对n组观察数据(样本): 其中Y是因变量, 为自变量. 是未知数; 为误差项. 它们应满足其中相互独立且均服从分布.,令则在观察数据下线性回归模型可写为如下矩阵形式其中 ,称为设计矩阵且假定,3.

2、1.2 参数估计 1. 的最小二乘估计选择使误差项的平方和达到最小,这里约定解方程组: 即得的最小二乘估计为: 由 ,故 ,即为的一个无偏估计. 这时称为回归方程.,2.误差方差的估计称为Y拟合值.称为残差向量,其中 . 称为残差平方和. 由于且 ,则有故得从而为的一个无偏估计.,3.1.3 有关的统计推断 (1) 建立方差分析表 (i) 离差平方和的分解记 ,则数据的总的离差平方和反映了数据波动的大小. 残差平方和反映了除去Y与之间的线性关系以外的因素引起的数据波动. 回归平方和反映了由变量的线性关系所引起的波动. 可证明: SST=SSE

3、+SSR,(ii)方差分析表表3.1 方差分析表其中回归平方和及残差平方和各自的自由度之比分别称为均方回归及均方残差.J表示一个元素全为1的n阶方阵.利用方差分析表可对回归方程的显著性进行检验.,(2)线性回归关系的显著性检验至少有某个基于上述方差分析表,构造如下检验统计量: 当为真时,可以证明FF(p-1,n-p),这里表示自由度为p-1和n-p的F分布.给定显著水平 ,计算F的观测值 , 检验法则为: 若 ,接受若 ,拒绝,(3)检验的p值联在SAS软件及其它一些数据分析软件中,对显著性检验问题,其输出结果通常是检验的p-值.简单的说,检验的p-值是当为真时,检验统计量取其

4、观测值及更极端值的概率.对上述线性回归关系的显著性检验问题,其检验p-值为其中为检验统计量F 的观测值.有了p-值后,对于给定的显著水平任何检验准则均为若 ,拒绝 , 若 ,接受 . 这样不需要查相应分布的分位数表,而直接根据p和的大小便可判断是拒绝还是接受 .,2.回归参数的统计推断检验假设: 注意到 ,则令为的估计,则可以证明其中为的主对角线上的第k个元素的平方根.若为真若不真,由于 ,则有偏大的趋势.因此,给定显著水平 ,检验准则为若 ,则接受 , 若 ,则拒绝 .,对上述检验统计量,其p值为: 从而若 ,接受 ,反之拒绝 . 另外,由式(3.10)可求

5、得的置信度为的置信度区间为: 在SAS系统中,参数估计及其各参数的检验结果以下表形式输出. 参数估计表参数估计值标准差统计量t值 p值,3.关于预报值的统计推断. 设给定了自变量的一组新观测值 ,则利用回归方程可得因变量Y的预报值为是对应于自变量值的一个点估计. 基于可给出在处的真值的区间估计.可证明其中而 .因此可得的置信度为的置信区间为,例3.1 某公司在各地区销售一种特殊的化妆品.该公司观测了15个城市在某季度内该化妆品的销量Y以及各城市适合使用该化妆品的人数和人均收入 ,得数据如表3.2所示(见教材94页).假设误差服从正态分布 ,试建立Y与之间的线性

6、回归方程并讨论相关的统计推断问题. 解:建立线性回归模型利用所给数据由 SAS PROC REG 过程得如下结果方差分析表方差来源自由度平方和均方 F值 p值回归 2 53844.71643 26922.35822 5679.466 0.0001 误差 12 56.88357 4.74030 总和 14 53901.60000 由p值很小可知,回归关系高度显著.,参数估计表由此知, 与均对Y有显著影响.回归方程为进一步可得参数和的置信度为95%的置信区间分别为若有一新城市关于和的值为(200,2500),则代入回归方程得Y的预报值为其真值的置信度为95%的置信

7、区间为(130.602, 140.544).,例 3.2 历年农、林、牧、渔业总产值及各项产值见表3.6(教材第96页),其中是总产值, 分别是农、林、牧、渔业产值.用date表示年份,建立关于date, 的线性回归关系,并研究相关统计推断问题. 解: 建立线性回归模型基于数据及 PROC REG 过程可得: 方差分析表方差来源自由度平方和均方 F值 p值回归 4 451060738 112765185 133.34 0.0001 误差 13 10993849 845681 总和 17 462054587 由此结果知,回归关系高度显著.,参数估计表参数估计值标准差 t值

8、p值 -3307.77505 2671.88520 -1.20 0.2513 0.72491 0.36352 2.00 0.0674 -13.92218 7.22698 -1.93 0.0762 2.14296 0.94721 2.26 0.0414 1.43761 1.67929 0.86 0.4075 由以上结果知,年份,林,牧业产值均对农业产值有较为显著的影响.但在给定其显著水平下,仅选择显著变量进入模型,可以用下节将要介绍的逐步回归法实现. 另外,利用PROC REG 过程的有关选项,可以给出的拟合值及95%置信区间(见教材3.9)并给出其置信带(图3.1),3.2 逐步回归法逐

9、步回归法的基本步骤是依次拟合一系列回归方程,后一个回归方程是在前一个的基础上增加或删除一个自变量,其增加或删除某个自变量的准则是用残差平方和的相对增加或减少量来衡量,一般采用如下的偏F检验统计量.设模型中已有l-1个自变量,记这l-1个自变量的集合为A,当不在A中的一个自变量加入到这个模型中时,偏F统计量的一般形式为: 其中描述了将引入到含A中各变量的线性模型中时(或从含A中各变量及的模型中剔除 ),其误差平方和的减少量(或增加量). 下面我们详细叙述逐步回归法的具休步骤.,首先,给定两个显著水平,一个用作选取自变量,记为 ;另一个用作剔除自变量,记为 .然后按下列步骤进行: 第一步

10、对每个 ,M为处变量总个数),拟合仅包含的一元线性回归模型这时,偏F 统计量中的集合A为空集,即l=1,因此SSE(A)=SST,故对每个k,计算它度量了将引入模型后,残差平方和的相对减少量.设若 (即F(1,n-2)分布的上侧分位数),则选择含的回归模型为当前模型.否则,没有自变量进入模型,选择过程结束.,第2步在第一步选出的含的模型基础上,再将其余M-1个自变量逐个加入到此模型中,并计算设若 ,则选取过程结束,第1步选择的模型(即仅含的线性回归模型)为最优模型.若 ,则将加入到第1步所选的模型中,即有 (*) 进一步考察,当进入模型后, 是否可被剔除.为此计算

11、若 ,则剔除 ,这时仅含的回归模型为当前模型.否则(*)为当前模型.,第3步在第2步所选模型的基础上,再将未在模型中的自变量逐个加入,计算相应的偏F检验统计量的值,与相应F分布的临界值比较以决定是否有其它变量可进入模型.若有新的自变量进入模型,再检验原模型中的自变量是否因这个新变量的进入而可被删除. 例如,若第2步中选择结果是模型(*),即再将其余M-2个自变量逐个加入该模型并计算设若 ,则选择过程结束,模型(*)为最优模型.若 ,则进入模型,即有,(*) 进一步考察或是否因的进入可被剔除,即计算若 ,则首先剔除和中较小的一个对应的自变量,再接着检验另一个变量是否可

12、被删除.若 , 均不能被剔除,则(*)为当前模型. 重复以上步骤,直到没有自变量能进入模型,同时已在模型中的自变量均不能被剔除,则选择过程结束,最后一个模型即认为是最优的.,例 3.3 为预报某类肝手术病人的术后生存时间,某医院随机选取了54位需做此手术的病人为研究对象.记录每位病人在手术前的如下四个指标: :凝血值; :愈后指数; :酶化验值; :肝功化验值. 术后随访得各病人的生存时间Y(数据见表3.10).令 =lgY ,建立与的线性回归关系.并在下利用逐步回归法选取自变量,给出最终回归方程. 解(结合现场演示SAS输出结果讲解,其SAS程序与输出见第8章例8.9). 最终选取的自

13、变量为 ,相应回归方程为例3.4 (续例3.2).(给定 ,结合SAS输出结果讲解).最终选取的回归方程为.,3.3 Logistic回归模型 3.3.1 Logistic 模型 Logistic 模型是一种应用十分广泛的广义线性模型,它通过建立某事件A 发生的概率与影响该概率的一些因素之间的回归关系.分析这些因素影响A 发生的概率的显著性及影响方式,并可应用于判别分析中. 设为影响事件A 发生的概率的p-1个因素(自变量), 表示在自变量值为x 时发生A 的概率,则(线性)Logistic模型为或,3.3.2 参数的最大似然估计与Newton-Raphson迭代解法 1.似然方程,信息

14、矩阵及其估计. 给定变量的m组值对于第组值 ,共独立观测了次,令在下的次观测中事件A 发生的次数; 在下事件A 发生的概率, 则记 (约定 ) 则Logistic模型的样本形式为或其中 .,设在的次独立观测中,事件A 发生了次(即 ), 则事件的似然函数为对数似然函数为,注意到则从而得似然方程为,上述似然方程可写为如下的矩阵形式: 其中解此方程组便得到的最大似然估计 .由于该方程组为非线性方程组,需要用迭代方法求解(见后).,进一步可求得从而得信息矩阵记为对角矩阵,则,根据最大似然估计理论, 的最大似然估计的协方差矩阵为将代入表达式中得和矩阵A的估计分别为从而得

展开阅读全文

数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第3章 回归分析

数据分析(第二版) 教学课件 ppt 作者范金城梅长林第3章回归分析