统计学 第三章 多元回归分析

上传人:我** 文档编号:117155737 上传时间:2019-11-18 格式:PPT 页数:66 大小:8.71MB
返回 下载 相关 举报
统计学 第三章 多元回归分析_第1页
第1页 / 共66页
统计学 第三章 多元回归分析_第2页
第2页 / 共66页
统计学 第三章 多元回归分析_第3页
第3页 / 共66页
统计学 第三章 多元回归分析_第4页
第4页 / 共66页
统计学 第三章 多元回归分析_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《统计学 第三章 多元回归分析》由会员分享,可在线阅读,更多相关《统计学 第三章 多元回归分析(66页珍藏版)》请在金锄头文库上搜索。

1、* 上好的模型选择可遵循一个称为奥克姆剃刀(Occams Razor)的基本原理:最好的科学模型往往最简单,且 能解释所观察到的事实。 William Navidi 1 *2 l多元线线性回归归模型、回归归方程与估计计的回归归方 程 l回归归方程的拟拟合优优度与显显著性检验检验 l多重共线线性问题问题 及其处处理 l利用回归归方程进进行预测预测 l虚拟拟自变变量的回归归 l用Excel和SPSS进进行回归归分析 *3 4 * l决定身高的因素是什么?父母遗传、生活环境、体育锻炼 ,还是以上各因素的共同作用 l2004年12月,中国人民大学国民经济管理系02级的两位 学生,对人大在校生进行了问卷

2、调查。问卷采取随机发放 、当面提问当场收回 l调查的样本量为98人,男性55人,女性43人。调查内容 包括被调查者的身高(单位:cm)、性别、其父母身高、 是否经常参加体育锻炼、家庭所在地是在南方还是在北方 等等。部分数据如下页的表所示(1代表男性,0代表女性) l父亲身高、母亲身高、性别是不是影响子女身高的主要因 素呢?如果是,子女身高与这些因素之间能否建立一个线 性关系方程,并根据这一方程对身高做出预测? l这就是本章将要讨论的多元线性回归问题 子女 身高 父亲 身高 母亲 身高 子女 性别 子女 身高 父亲 身高 母亲 身高 子女 性别 17116615811551651570 1741

3、7115811611821650 17717916811661661560 17817416011701781600 18017316211581731600 18117016011601701650 15916815311601711500 16916815311621671580 17017016711651751600 17017016011681721620 *5 单位:cm0:女1:男 *6 *7 l一个因变量与两个及两个以上自变量的回归 l描述因变量 y 如何依赖于自变量 x1 , x2 , xk 和误差项 的方程,称为多元回归模型 l涉及 k 个自变量的多元线性回归模型可表示为

4、*8 l 0 ,1, ,k是参数 l 是被称为误差项的随机变量 l y 是x1,x2 , ,xk 的线性函数加上误差项 l 包含在y里面但不能被k个自变量的线性关系所解 释的变异性 l正态态性。误误差项项是一个服从正态态分布的随机变变 量,且期望值为值为 0,即N(0,2) l方差齐齐性。对对于自变变量x1,x2,xk的所有值值 , 的方差 2都相同 l独立性。对对于自变变量x1,x2,xk的一组组特定 值值,它所对应对应 的与任意一组组其他值值所对应对应 的不 相关 *9 1.描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,xk的方程 2.多元线性回归方程的形式为 E( y

5、 ) = 0+ 1 x1 + 2 x2 + k xk *10 l l 1,k称为偏回归系数 l i 表示假定其他变量不变,当 xi 每变动一个单位 时,y 的平均变动值 l用样样本统计统计 量 估计计回归归方 程中的 参数 时时得到的方程 l由最小二乘法求得 l一般形式为为 *11 l 是 估计值 l 是 y 的估计值 *12 *13 l 求解各回归参数的标准方程如下 l 使因变量的观察值与估计值之间的离差平方和 达到最小来求得 。即 *14 【例】一家大型商业银行在多个地区设有分行 ,为弄清楚不良贷款形成的原因,抽取了该 银行所属的25家分行2002年的有关业务数 据。试建立不良贷款y与贷款

6、余额x1、累计 应收贷款x2、贷款项目个数x3和固定资产投 资额x4的线性回归方程,并解释各回归系数 的含义 用用ExcelExcel进行回归进行回归 *15 *16 F F检验检验 t t 检验检验 偏回归系数偏回归系数 *17 *18 *19 x y 来自回归(系统影响 ) 来自残差(随机影响 ) *20 平方和关系:SST = SSR + SSE 自由度关系:n-1=k+(n-k-1) 总平方和(SST) 自由度:n-1 回归平方(SSR) 自由度:k 残差平方和(SSE) 自由度:n-k-1 l回归平方和占总平方和的比例 l计算公式为 l因变量取值的变差中,能被估计的多元回归方程 所解

7、释的比例 *21 l用样本量n和自变量的个数k去修正R2得到 l计算公式为 l避免增加自变量而高估 R2 l意义与 R2类似 l数值小于R2 *22 用用ExcelExcel进行回归进行回归 *23 l多重判定系数的平方根R l反映因变量y与k个自变量之间的相关程度 l实际上R度量的是因变量的观测值 与由 多元回归方程得到的预测值 之间的关系 强度,即多重相关系数R等于因变量的观 测值 与估计值 之间的简单相关系数即 : (一元相关系数r也是如此, 即 。读者自己去验证) l对误差项的标准差 的一个估计值 l衡量多元回归方程的拟合优度 l计算公式为 *24 用用ExcelExcel进行回归进行

8、回归 *25 l检验检验 因变变量与所有自变变量之间间的线线性关系是 否显显著 l也被称为总为总 体的显显著性检验检验 l检验检验 方法是将回归归均方(MSR)同残差均方 (MSE)加以比较较,运用 F 检验检验 来分析二者之 间间的差别别是否显显著 l如果是显显著的,因变变量与自变变量之间间存在线线性 关系 l如果不显显著,因变变量与自变变量之间间不存在线线性 关系 *26 1. 提出假设 lH0:12k=0 线性关系不显著 lH1:1,2, k至少有一个不等于0 *27 2. 计算检验统计量F 3.确定显著性水平和分子自由度k、分母自由度n-k-1找出临 界值F 4. 作出决策:若FF ,

9、拒绝H0 l线性关系检验通过后,对各个回归系数有选择地进 行一次或多次检验 l究竟要对哪几个回归系数进行检验,通常需要在建 立模型之前作出决定 l对回归系数检验的个数进行限制,以避免犯过多的 第类错误(弃真错误) l对每一个自变量都要单独进行检验 l应用 t 检验统计量 *28 1.提出假设设 lH0: (自变变量 xi 与 因变变量 y 没有线线性关系) lH1: (自变变量 xi 与 因变变量 y有线线性关系) 2.计计算检验检验 的统计统计 量 t *29 3. 确定显著性水平,并进行决策 l tt,拒绝H0; tt,不拒绝H0 l回归系数在(1-)%置信水平下的置信区间为 l *30

10、回归系数的抽样标准差 自由度 *31 *32 1.回归归模型中两个或两个以上的自变变量彼此相关 2.多重共线线性带带来的问题问题 有 l可能会使回归归的结结果造成混乱,甚至会把分 析引入歧途 ,F检验显检验显 著,t检验检验 不显显著 l可能对对参数估计值计值 的正负负号产产生影响,特别别 是各回归归系数的正负负号有可能同预预期的正负负 号相反 l参数估计计量的方差变变大,参数检验检验 有可能失 效,有些回归归系数通不过显过显 著性检验检验 *33 1.检测检测 多重共线线性的最简单简单 的一种办办法是计计算模型中各对对自 变变量之间间的相关系数,并对对各相关系数进进行显显著性检验检验 l若有

11、一个或多个相关系数显显著,就表示模型中所用 的自变变量之间间相关,存在着多重共线线性 2.如果出现现下列情况,暗示存在多重共线线性(经验经验 判断) l模型中各对对自变变量之间显间显 著相关 l当模型的线线性关系检验检验 (F检验检验 )显显著时时,几乎所有 回归归系数的t检验检验 却不显显著 l回归归系数的正负负号与预预期的相反 *34 1.将一个或多个相关的自变变量从模型中剔除,使保 留的自变变量尽可能不相关 2.如果要在模型中保留所有的自变变量,则应则应 l避免根据 t 统计统计 量对单对单 个参数进进行检验检验 l对对因变变量值值的推断(估计计或预测预测 ) 限定在自变变量样样 本值值

12、的范围围内 *35 1.在建立多元线性回归模型时,不要试图引入 更多的自变量,除非确实有必要 2.在社会科学的研究中,由于所使用的大多数 数据都是非试验性质的,因此,在某些情况 下,得到的结果往往并不令人满意,但这不 一定是选择的模型不合适,而是数据的质量 不好,或者是由于引入的自变量不合适 *36 1.模型选择选择 可遵循奥克姆剃刀的基本原理 l最好的科学模型往往最简单简单 ,且能解释释所观观察到 的事实实 2.对对于线线性模型来说说,奥克姆剃刀可表示成简约简约 原 则则 l一个模型应应包括拟拟合数据所必需的最少变变量 3.如果一个模型只包含数据拟拟合所必需的变变量,这这 个模型就称为简约为

13、简约 模型(parsimonious model) l实际实际 中的许许多多元回归归模型都是对简约对简约 模型的扩扩 展 *37 *38 l在建立回归归模型时时,对对自变变量进进行筛选筛选 l选择选择 自变变量的原则则是对统计对统计 量进进行显显著性检验检验 l将一个或一个以上的自变变量引入到回归归模型中时时,是否使 得残差平方和(SSE)有显显著地减少。如果增加一个自变变量 使SSE的减少是显显著的,则说则说 明有必要将这这个自变变量引入 回归归模型,否则则,就没有必要将这这个自变变量引入回归归模型 l确定引入自变变量是否使SSE有显显著减少的方法,就是使用 F统计统计 量的值值作为为一个标

14、标准,以此来确定是在模型中增加 一个自变变量,还还是从模型中剔除一个自变变量 l变变量选择选择 的方法主要有:向前选择选择 、向后剔除、逐步 回归归等 *39 l从模型中没有自变变量开始 l对对k个自变变量分别拟别拟 合对对因变变量的一元线线性回归归 模型,共有k个,然后找出F统计统计 量的值值最高的模 型及其自变变量(P值值最小的),并将其首先引入模型 l分别拟别拟 合引入模型外的k-1个自变变量的线线性回归归 模型 l如此反复进进行,直至模型外的自变变量均无统计显统计显 著性为为止 l特点:引入模型中的变变量肯定会被保留 *40 l先对对因变变量拟拟合包括所有k个自变变量的回归归模型。然后

15、考 察p(pk)个去掉一个自变变量的模型(这这些模型中的每一个都 有k-1个自变变量),使模型的SSE值值减小最少的自变变量被挑 选选出来并从模型中剔除 l考察p-1个再去掉一个自变变量的模型(这这些模型中每一个都 有k-2个的自变变量),使模型的SSE值值减小最少的自变变量被 挑选选出来并从模型中剔除 l如此反复进进行,一直将自变变量从模型中剔除,直至剔除一 个自变变量不会使SSE显显著减小为为止 *41 回归变量(解释变量)选择 X1 X2 X3 特点:被剔除的变量将不再进入模型 l将向前选择和向后剔除两种方法结合起来筛选自变量 l在增加了一个自变量后,它会对模型中所有的变量进 行考察,看看有没有可能剔除某个自变量。如果在增 加了一个自变量后,前面增加的某个自变量对模型的 贡献变得不显著,这个变量就会被剔除 l按此方法不停地增加变量并考虑剔除以前增加的变量 的可能性,直至增加变量已经不能导致SSE显著减少 l在前面步骤中增加的自变量在后面的步骤中有可能被 剔除,而在前面步骤中剔除的自变量在后面的步骤中 也可能重新进入到模型中 *43 *44 【例】根据例3.1的数据,用 逐步回归方法建立不良贷款y 与贷款余额x1、累计应收贷款 x2、贷款项目个数x3和固定资 产投资额x4的线性回归方程, 并求出不良贷款的置信区间和 预测区间 第1步:选择【Analyze】下拉菜单

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号