应用统计学多重线性回归模型课件

上传人:我*** 文档编号:145859946 上传时间:2020-09-24 格式:PPT 页数:81 大小:668KB
返回 下载 相关 举报
应用统计学多重线性回归模型课件_第1页
第1页 / 共81页
应用统计学多重线性回归模型课件_第2页
第2页 / 共81页
应用统计学多重线性回归模型课件_第3页
第3页 / 共81页
应用统计学多重线性回归模型课件_第4页
第4页 / 共81页
应用统计学多重线性回归模型课件_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《应用统计学多重线性回归模型课件》由会员分享,可在线阅读,更多相关《应用统计学多重线性回归模型课件(81页珍藏版)》请在金锄头文库上搜索。

1、,多重线性回归模型,内容提要,模型简介 简单实例分析 逐步回归 残差分析 模型进一步诊断与修正 小结,模型简介,生活中发生的许多现象都不是独立的,而是相互作用、相互影响的。一种结果的出现往往是多个因素、多个环节共同作用的结果。抛开其他因素,仅考察其中一个影响因素对结果的影响,所得出的结论是片面的,甚至可能是错误的。 本章所要讨论的问题是如何同时考虑多个因素对同一结果的影响。此时,因变量只有一个,也称反应变量,常用y表示。自变量也称解释变量,有多个。,模型简介,多重线性回归模型,其中,j是偏回归系数(Partial regression coefficient),它表示在其它自变量固定不变的情况

2、下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量,p为自变量的个数,为残差,独立服从 N(0,2)分布。,自变量与因变量之间存在线性关系,可以通过绘制“散点图矩阵”予以考察; 各观测间相互独立; 残差服从正态分布; 方差齐性。,模型简介应用条件,多重线性回归模型使用最小二乘法来解决方程的估计和检验问题。,简单分析实例,例1 为研究男性高血压患者血压与年龄、身高、体重等变量的关系,随机测量了32名40岁以上男性的血压y、年龄x1、体重指数x2, 试建立多重线性回归方程。数据文件见mreg2.sav。,简单分析实例初步分析,初步分析: 与简单线性回归相类似,先绘制散点图,以便在进行回归分析

3、之前了解各变量之间是否存在线性关系。本例有两个自变量与一个反应变量,绘制散点图矩阵,如下。,绘制散点图矩阵,简单分析实例初步分析,简单分析实例,简单分析实例,简单分析实例,结果分析,给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为两个变量是被强行纳入模型的(Method为Enter),当然就不存在剔除变量的事情了。,简单分析实例,结果分析,模型拟合优度情况的检验,结果显示,复相关系数为0.840,决定系数为0.706,调整的决定系数为0.686,还输出了剩余标准差。,简单分析实例,结果分析,回归模型的假设检验结果,显示F34.808,P0.001,说明所建立的回归模型是有统计学意义的

4、,至少有一个自变量的回归系数不为0。,简单分析实例,结果分析,给出了模型的常数项以及两个自变量的偏回归系数及其检验结果,可以写出回归方程如下: Y 54.798 +1.379x1 +4.513x2,主要结果,SPSS 结果中输出偏回归系数的同时,也输出了各自的标准偏回归系数。年龄的标准化偏回归系数为0.664,体重指数的标准化偏回归系数为0.247,因此,可以认为,年龄对血压的影响比体重指数对血压的影响大。,简单分析实例,结果分析,例2 仍以例1的资料为例,试作逐步回归分析。数据文件见mreg2.sav。,逐步回归,逐步回归,逐步回归,逐步回归,输出SPSS在逐步回归过程中拟合的步骤中,每一步

5、引入模型的变量情况,此处只有一个变量引入。,结果分析,逐步回归,结果分析,分别输出拟合的模型中,拟合优度情况的检验结果:复相关系数、决定系数、调整的决定系数以及剩余标准差。本例只有一步,故结果很简单,仅拟合一个模型。,逐步回归,结果分析,给出各个拟合模型的常数项以及各自变量的偏回归系数、95可信区间及其检验结果(此处为仅有一步的结果)。,逐步回归,结果分析,给出拟合模型过程中被剔除的变量情况及其检验结果(此处为仅有一步)。,残差分析,非标准化残差(原始残差) 标准化残差(Pearson残差) 学生化残差 剔除残差 学生化剔除残差,残差种类,残差分析,模型适用条件的检验因变量与自变量之间存在线性

6、关系的检验(以例1为例:年龄),残差分析,模型适用条件的检验因变量与自变量之间存在线性关系的检验(以例1为例:体重指数),残差分析,模型适用条件的检验独立性的检验,通过Linear Regression过程的statistics按钮中的Durbin-Watson检验进行判断。若自变量数少于4个,统计量接近2,基本上可以肯定残差间相互独立。仍以例1为例,结果如下 。,残差分析,模型适用条件的检验方差齐性的检验,残差分析,模型适用条件的检验正态性的检验,绘制残差的直方图及PP图的复选框,残差分析,模型适用条件的检验正态性的检验结果,模型的进一步诊断与修正,强影响点的识别,1.残差:以标准化残差最常

7、用。 一般地,标准化残差大于3时几乎可以肯定该条记录为强影响点。在Linear Regression过程中statistics按钮提供了Casewise diagnostics复选框用于在output窗口中输出可能为强影响点的记录编号和相关统计量。,模型的进一步诊断与修正,仍以例2为例,没有记录标准化残差大于3,可要求输出2倍标准差以内的残差值,结果如下:,强影响点的识别,模型的进一步诊断与修正,2.强影响点统计量: 在SPSS中,可以通过Save子对话框中的Influence Statistics复选框,提供一系列用于强影响点识别的统计量。,强影响点的识别,强影响点的诊断,样本中的异常值和强

8、影响点是指远离均值的数据点。 探测因变量的异常值:标准化残差、学生化残差、剔除残差;绝对值3的观测为异常值。 探测自变量中强影响点:杠杆值,hij大于2或3倍的平均值即为异常;库克距离1为异常;标准化回归系数和标准化预测值的变化;,模型的进一步诊断与修正,强影响点的处理,模型的进一步诊断与修正, 考虑是否录入错误,如果是,予以改正;否则予以删除强影响点记录; 进行稳健回归,如最小一乘法和加权最小二乘法; 进行非参数回归及变量变换等。,多重共线性的识别,模型的进一步诊断与修正,多重共线性:是指自变量间存在相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。有以下表现形式: 整个

9、模型的方差分析结果为P ; 专业上认为应该有统计学意义的自变量检验结果却无统计学意义; 自变量的偏回归系数取值大小甚至符号明显与实际情况违背,难以解释; 增加或删除一条记录或一个自变量,偏回归系数发生很大变化。,多重共线性的识别,模型的进一步诊断与修正,可以通过statistics 子对话框中的Collinearity Diagnostics 复选框予以实现。其中提供了以下统计量: 容忍度 方差膨胀因子 条件指数 变异构成,容忍度(Toli=1-Ri2):Ri2是自变量xi与其他自变量间的决定系数。 方差膨胀因子(VIF=1/Toli)10,表明共线性严重 特征根:最大特征根远远大于其他特征根

10、,说明自变量间有大量的信息重叠。 条件指数ki=SQRT( m / i ):10,表明存在共线性。,模型的进一步诊断与修正,多重共线性的识别(例2分析结果),模型的进一步诊断与修正,多重共线性的处理,模型的进一步诊断与修正,增加样本量 逐步回归(当共线性很严重时,仍然不行) ; 岭回归( Ridge Regression,为有偏估计) ; 主成分回归; 路径分析。,小 结,回归模型的建立步骤,回归分析已经被应用的非常广泛,作为一个严肃的统计学模型,它有着自己严格的适用条件,在拟合时需要不断进行这些适用条件的判断。但是,许多使用者往往忽视了这一点,只是把模型做完就好了。这不仅浪费信息,更有可能得

11、出错误的结论。这里给出一个比较合适的回归分析操作步骤,供大家参考。,小 结,回归模型的建立步骤, 绘制散点图,观察变量间的趋势。(不能随意省略) 考察数据分布,进行必要的预处理。 进行直线回归分析。 残差分析。(最重要和直观的方法是图示法) 强影响点的诊断和多重共线性的判断。,小 结,建立一个“完美”的多重线性回归模型是一个需要反复进行的过程,不能指望一蹴而就。,基本操作:Analyze-Regression-Linear,Dependent:因变量 Independent:自变量 Method:自变量筛选方法,默认为Enter Block:不同变量有不同筛选方法时可定义Block Selec

12、tion Variable:变量值满足条件的样本才参与分析 Case Labels:指定图示中数据点的标志变量,对于呈非线性关系的变量之间的统计关系进行大体估计(但经变量变换可转化为线性关系本质线性关系)。 绘制拟合曲线并进行预测。 做为线性回归分析的预分析步骤:选择变量变换的方法。,曲线估计,常用的几种非线性模型,(一)抛物线模型(二次曲线模型) 具体形式为: 式中0、1 和2 为待估计参数。 判断某种现象是否适合应用抛物线,可以利用“差分法”。其步骤如下:首先将样本观察值按X 的大小顺序排列,然后按以下两式计算X 和Y 的一阶差分Xt、Yt 以及Y 的二阶差分Y2t。 Xt=Xt-Xt-1

13、; Yt=Yt-Yt-1 Y2t=Yt-Yt-1 当Xt 接近于一常数,而Y2t 的绝对值接近于常数时,Y 与X 之间的关系可以用抛物线模型近似加以反映。,(二)双曲线模型,假如Y 随着X 的增加而增加(或减少),最初增加(或减少)很快,以后逐渐放慢并趋于稳定,则可以选用双曲线来拟合。双曲线模型形式是: Y=0+1 (1/X) +,(三)幂函数模型,幂函数模型的一般形式是: 这类函数的优点在于:方程中的参数可以直接反映因变量Y 对于某一个自变量的弹性。 所谓Y 对于Xj 的弹性,是指在其他情况不变的条件下,Xj 变动时所引起Y 变动的百分比。 弹性是一个无量纲的数值,它是经济定量分析中常用的一

14、个尺度。它在生产函数分析和需求函数分析中,得到了广泛的应用。,(四)指数函数模型,指数函数模型为: 这种曲线被广泛应用于描述社会经济现象的变动趋势。例如产值、产量按一定比率增长,成本、原材料消耗按一定比例降低。,(五)逻辑曲线模型,逻辑曲线的方程式如下: 逻辑曲线具有以下性质。Y 是X 的非减函数,开始时随着X 的增加,Y 的增长速度也逐渐加快,但是Y 达到一定水平之后, 其增长速度又逐渐放慢。最后无论X 如何增加,Y 只会趋近于L,而永远不会超过L。,可拟合的曲线,本质线性关系:形式上呈非线性关系,但可通过变量变换化为线性关系。 拟合原则:一般来说,涉及的变量越多,变量的幂次越高,计算量就越

15、大,误差也将越大。一般尽量避免采用多元高次多项式。 能拟合的曲线见下页,基本操作:AnalyzeRegressionCurve Estimation,Independent: X2 Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 X5 QUA .987 10 382.64 .000 252.698 -.1475 2.5E-05 X5 CUB .994 9 516.46 .000 -41.314 .0754 -2.E-05 2.6E-09 X5 COM .995 11 2086.35 .000 20.9550 1.0004 X5 POW .954 11 229

16、.58 .000 3.6E-05 1.8460,例:,打开年人均消费支出和教育数据,对居民在外就餐的趋势进行分析,预测2003年和2004年度的居民在外就餐的费用。,操作:GraphsSequence,Dependent variable. X4 Method. EXPONENT Listwise Deletion of Missing Data Multiple R .96856 R Square .93810 Adjusted R Square .93501 Standard Error .26294 Analysis of Variance: DF Sum of Squares Mean Square Regression 1 20.956004 20.956004 Residuals 20 1.382742 .069137 F = 303.10787 Signif F = .0000 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号