统计学贾俊平第12章 多元线性回归ppt课件

上传人:我*** 文档编号:151446490 上传时间:2020-11-14 格式:PPT 页数:102 大小:779KB
返回 下载 相关 举报
统计学贾俊平第12章 多元线性回归ppt课件_第1页
第1页 / 共102页
统计学贾俊平第12章 多元线性回归ppt课件_第2页
第2页 / 共102页
统计学贾俊平第12章 多元线性回归ppt课件_第3页
第3页 / 共102页
统计学贾俊平第12章 多元线性回归ppt课件_第4页
第4页 / 共102页
统计学贾俊平第12章 多元线性回归ppt课件_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《统计学贾俊平第12章 多元线性回归ppt课件》由会员分享,可在线阅读,更多相关《统计学贾俊平第12章 多元线性回归ppt课件(102页珍藏版)》请在金锄头文库上搜索。

1、第12章 多元线性回归,12.1 多元线性回归模型 12.2 回归方程的拟合优度 12.3 显著性检验 12.4 多重共线性 12.5 利用回归方程进行预测 12.6 变量选择与逐步回归 12.7 回归知识拓展,引例,回归模型,线性,非线性,2+ 解释变量,单个,多个,1 解释变量,线性,非线性,3,引例,4,引例,引例,12.1 多元线性回归模型,基本思想,思想 多元回归Multiple Regression Models用来分析一个以上自变量对于因变量的影响,可以看出在其它变量不变(常数)的条件下,某一个变量对于依变量产生的净(偏)影响如何?,8,这三条线的斜率似乎没有原本回归线来得大,表

2、示努力与成绩的关系有一部份是受到兴趣的干扰(confounding): 有兴趣的学生通常花比较多的时间,基本思想,多元回归模型与多元回归方程,总体 Y-截距,总体斜率,随机误差项,Relationship between 1 dependent & 2 or more independent variables is a linear function,因 (反应) 变量,自 (解释) 变量,多元线性回归,多元回归模型与多元回归方程,系数解释 第k个斜率系数(slope, k) 在所有其它X变量固定下,Xk 改变一个单位时, 平均Y改变 k 的量 Y-截距(0),在Xk = 0时, Y的期望值

3、,多元回归模型与多元回归方程,基本假定 误差项是一个期望值为0的随机变量,即E()=0 对于自变量x1,x2,xk的所有值,的方差 2都相同 误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,多元回归模型与多元回归方程,总体回归函数(PRF),Bivariate model,观测值,期望值,X,2,Y,X,1,0,Response,Plane,(,X,1,i,X,2,i,),(Observed,Y,),i,多元回归模型与多元回归方程,样本回归函数(SRF),X,2,Y,X,1,b,0,i,Response,Plane,(,X,1,i,X,2,i,),(Observed Y),e,

4、i,多元线性回归模型的估计,最小二乘法 使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即 求解各回归参数的标准方程如下,多元线性回归模型的估计,求 Minimum Q? 将(1)式分别对 做偏微分,再将所得之方程式设为零,然后求解联立方程式即可求得最小值,多元线性回归模型的估计,经典假定+没有完全共线性multicollinearity: it is not possible to find a set of numbers c0, c1, ck such that,The Gauss-Markov Theorem If the basic assumptions hold,最小二

5、乘估计是BLUE (最优线性元偏估计量),多元线性回归模型的估计,18,多元线性回归模型的估计,EXCEL求解,12.2 回归方程的拟合优度,拟合优度,多重判定系数 用来衡量回归方程式的配合度或解释力,拟合优度,调整多重判定系数( Adjusted R square) 用样本量n和自变量的个数k去修正R 2得到 计算公式 避免增加自变量而高估 意义与 R 2类似 数值小于R 2,拟合优度,估计标准误差 对误差项的标准差 的一个估计值 衡量多元回归方程的拟合优度 计算公式为,12.3 显著性检验,拟合优度检验,拟合优度检验 (Measuring Goodness of fit) 在复回归中,可利

6、用检验回归方程式中所有的自变量对于依变量Y是否有联合的解释能力 0:回归方程式无解释能力 H1: 回归方程式有解释能力( 不全为零),拟合优度检验,Reject,26,Reject,拟合优度检验,27,回归系数检验和推断,单个系数检验 线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验 究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定 对回归系数检验的个数进行限制,以避免犯过多的第类错误(弃真错误) 对每一个自变量都要单独进行检验 应用 t 检验统计量,28,回归系数检验和推断,单个系数检验 究竟要对哪几个回归系数进行检验提出假设 H0: bi = 0 (自变量 xi

7、与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t 确定显著性水平,并进行决策 tt,拒绝H0; tt,不拒绝H0,29,回归系数检验和推断,单个系数检验的置信区间 回归系数在(1-)%置信水平下的置信区间为,回归系数的抽样标准误,12.4 多重共线性,多重共线性,计量经济学检验多重共线性 回归模型中两个或两个以上自变量彼此相关 多重共线性带来的问题有 可能会使回归的结果造成混乱,甚至会把分析引入歧途 可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们与其的正负号相反 通常存在 - 只是程度大小,例: 同一模型

8、中, 同時使用年龄和身高,32,多重共线性,多重共线性识别,识别方法:检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验 若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性,多重共线性识别,识别方法 当模型的线性关系检验(F 检验)显著时,几乎所有回归系数的t检验却不显著 回归系数的正负号与预期的相反 检测相关距阵配对X的相关比(X和Y)相关更高 变异数膨胀因素(variance inflation factor, 简称VIF)若 VIFj 5, Multicollinearity 存在,35,多重共线性识别,SPSS

9、求解,多重共线性处理,多重共线性问题的处理 将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关 如果要在模型中保留所有的自变量,则应 参数估计值避免根据 t 统计量对单个参数进行检验 对因变量值的推断(估计或预测)的限定在自变量样本值的范围内,37,多重共线性处理,SPSS求解,多重共线性处理,两点提示 在建立多元线性回归模型时,不要试图引入更多的自变量,除非确实有必要 在社会科学的研究中,由于所使用的大多数数据都是非试验性质的,因此,在某些情况下,得到的结果往往并不令人满意,但这不一定是选择的模型不合适,而是数据的质量不好,或者是由于引入的自变量不合适,12.5 利用回归方程进

10、行预测,40,区间预测,SPSS求解,12.6 变量选择与逐步回归,变量选择过程,如果要在模型中保留所有的自变量,在建立回归模型时,对自变量进行筛选 选择自变量的原则是对统计量进行显著性检验等 将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型 确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量 变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优

11、子集法等,变量选择方法,向前选择(forward selection) 如果要在从模型中没有自变量开始 对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量,并将其首先引入模型 分别拟合引入模型外的k-1个自变量的线性回归模型 如此反复进行,直至模型外的自变量均无统计显著性为止,44,变量选择方法,SPSS求解,变量选择方法,向后剔除(backward elimination) 先对因变量拟合包括所有k个自变量的回归模型。然后考察p(pk)个去掉一个自变量的模型(这些模型中每一个都有的k-1个自变量),使模型的SSE值减小最少的自变量被挑选出来并从

12、模型中剔除 考察p-1个再去掉一个自变量的模型(这些模型中在每一个都有k-2个的自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除 如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止,46,SPSS求解,变量选择方法,变量选择方法,逐步回归(stepwise regression) 将向前选择和向后剔除两种方法结合起来筛选自变量 在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除 按照方法不停地增加变量并考虑剔除以前增加的变量

13、的可能性,直至增加变量已经不能导致SSE显著减少 在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中,12.7 回归模型拓展,自变量的相对重要性,问题 在回归模型中常需要比较各个自变量对于依变量的相对重要性 在比较时如果自变量的单位相同,则可以从系数大小来看其对因变量的影响大小,自变量的相对重要性,当各个自变量的单位不同时,则很难从原始回归系数中推论出其相对重要性。例如究竟是年龄对收入的影响比较大还是IQ? 此时可通过标准化系数standardized coefficients来进行比较。 B: X变动一个标准差,Y变动的标准差数

14、 标准化Beta系数= (Sx/Sy),自变量的相对重要性,=9.831*(8.4943/277.92849),非线性模型,引言 为何经常采用”线性”回归? 当变量间非线性关系时,我们怎么办? 即使真正的关连形式不是线性,线性关系往往也是真正关系形式很好的近似值 我们可以很容易修改线性关系来代表非线性关系的形式,非线性模型,引例 在普通线性关系中,回归系数的解释为每增加一单位x1,对于y值所造成的绝对量的变动 将y取log后,回归系数可以解释成每单位X的改变,对Y所造成的百分比的变动。,非线性模型,其它条件不变,年资每增加一年,收入增加8.9千元。 其它条件不变,教育年数每增加一年,收入增加3

15、.3万元,非线性模型,假设年资为0,教育程度从9年增加成10年,收入增加多少?此一年的收入增加了多少百分比(比起教育程度为9年的收入)?,非线性模型,教育程度10年的收入,教育程度9年的收入,20.313,百分比变动=20.313/308.3391 = 6.5879%,非线性模型,假设年资为0,教育程度从16年增加成17年,收入增加多少?此一年的收入增加了多少百分比(比起教育程度为16年的收入)?,教育程度17年的收入,教育程度16年的收入,31.7492,百分比变动=31.7492/328.6522 = 6.5879%,非线性模型,非线性模型的类型,非线性的类型 变量非线性与参数非线性 变量是以X2等形式出现 因变量Y不是各参数的线性函数 变量非线性可用经典方法解决,几个重要模型,参数非线性又可分为 可化为线性 不可化为线性,几个重要非线性模型,双对数模型(log-log model),几个重要非线性模型,几个重要非线性模型,半对数模型(semi-log model),几个重要非线性模型,几个重要非线性模型,几个重要非线性模型,几个重要非线性模型,倒数模型( reciprocal model ),U,几个重要非线性模型,多项式模型,不可非线性化模型的估计,常用方法泰勒级数展开,自变量包含虚拟变量,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号