贾俊平统计学第10章多元线性回归

上传人:博****1 文档编号:585063923 上传时间:2024-09-01 格式:PPT 页数:70 大小:560KB
返回 下载 相关 举报
贾俊平统计学第10章多元线性回归_第1页
第1页 / 共70页
贾俊平统计学第10章多元线性回归_第2页
第2页 / 共70页
贾俊平统计学第10章多元线性回归_第3页
第3页 / 共70页
贾俊平统计学第10章多元线性回归_第4页
第4页 / 共70页
贾俊平统计学第10章多元线性回归_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《贾俊平统计学第10章多元线性回归》由会员分享,可在线阅读,更多相关《贾俊平统计学第10章多元线性回归(70页珍藏版)》请在金锄头文库上搜索。

1、数据分析数据分析( (方法与案例方法与案例) )作者作者 贾俊平贾俊平统计学统计学统统 计计 学学yyyy-M-10 - 2统计学统计学STATISTICS(第四版第四版)好的模型选择可遵循一个称为奥克姆剃刀(Occams Razor)的基本原理:最好的科学模型往往最简单,且能解释所观察到的事实。William Navidi统计名言统计名言yyyy-M-第第 10 章章 多元线性回归多元线性回归10.1 多元线性回归模型多元线性回归模型 10.2 拟合优度和显著性检验拟合优度和显著性检验10.3 多重共线性及其处理多重共线性及其处理10.4 利用回归方程进行预测利用回归方程进行预测10.5 哑

2、变量回归哑变量回归yyyy-M-10 - 4统计学统计学STATISTICS(第四版第四版)学习目标学习目标l多元线性回归模型、回归方程与估计的回多元线性回归模型、回归方程与估计的回归方程归方程l回归方程的拟合优度与显著性检验回归方程的拟合优度与显著性检验l多重共线性问题及其处理多重共线性问题及其处理l利用回归方程进行预测利用回归方程进行预测l哑变量的回归哑变量的回归l用用Excel和和SPSS进行回归分析进行回归分析yyyy-M-10 - 5统计学统计学STATISTICS(第四版第四版)身高受那些因素影响?身高受那些因素影响? 决决定定身身高高的的因因素素是是什什么么?父父母母遗遗传传、生

3、生活活环环境境、体体育育锻锻炼炼,还是以上各因素的共同作用还是以上各因素的共同作用20042004年年1212月月,中中国国人人民民大大学学国国民民经经济济管管理理系系0202级级的的两两位位学学生生,对对人人大大在在校校生生进进行行了了问问卷卷调调查查。问问卷卷采采取取随随机机发发放放、当面提问当场收回当面提问当场收回调调查查的的样样本本量量为为9898人人,男男性性5555人人,女女性性4343人人。调调查查内内容容包包括括被被调调查查者者的的身身高高( (单单位位:cm)cm)、性性别别、其其父父母母身身高高、是是否否经经常常参参加加体体育育锻锻炼炼、家家庭庭所所在在地地是是在在南南方方

4、还还是是在在北北方方等等等等。部部分分数数据据如如教教材材中中的的表表所所示示(1(1代代表表男男性性,0 0代代表表女女性性) ) 父父亲亲身身高高、母母亲亲身身高高、性性别别是是不不是是影影响响子子女女身身高高的的主主要要因因素素呢呢?如如果果是是,子子女女身身高高与与这这些些因因素素之之间间能能否否建建立立一一个个线性关系方程,并根据这一方程对身高做出预测?线性关系方程,并根据这一方程对身高做出预测?这就是本章将要讨论的多元线性回归问题这就是本章将要讨论的多元线性回归问题 yyyy-M-10.1 多元线性回归模型多元线性回归模型 10.1.1 回归模型与回归方程回归模型与回归方程 10.

5、1.2 参数的最小二乘估计参数的最小二乘估计第第 10 章章 多元线性回归多元线性回归yyyy-M-10.1.1 回归模型与回归方程回归模型与回归方程10.1 多元多元线性回性回归模型模型yyyy-M-10 - 8统计学统计学STATISTICS(第四版第四版)多元回归模型多元回归模型 (multiple linear regression model)1.一个因变量与两个及两个以上自变量的回归一个因变量与两个及两个以上自变量的回归2.描描述述因因变变量量 y y 如如何何依依赖赖于于自自变变量量 x x1 1 , x x2 2 , x xk k 和误差项和误差项 的方程,称为多元回归模型的方

6、程,称为多元回归模型3.涉涉及及 k k 个自变量的多元线性回归模型可表示为个自变量的多元线性回归模型可表示为 0 0 , 1 1, , k k是参数是参数 是被称为误差项的随机变量是被称为误差项的随机变量 y y 是是x x1,1,,x x2 2 , ,x xk k 的线性函数加上误差项的线性函数加上误差项 包包含含在在y y里里面面但但不不能能被被k k个个自自变变量量的的线线性性关关系系所解释的变异性所解释的变异性yyyy-M-10 - 9统计学统计学STATISTICS(第四版第四版)多元回归模型多元回归模型(基本假定基本假定) 1.正态性。误差项是一个服从正态分布的随机变量,且期望值

7、为0,即N(0, 2)2.方差齐性。对于自变量x1,x2,xk的所有值, 的方差 2都相同3.独立性。对于自变量x1,x2,xk的一组特定值,它所对应的与任意一组其他值所对应的不相关yyyy-M-10 - 10统计学统计学STATISTICS(第四版第四版)多元线性回归方程多元线性回归方程 (multiple linear regression equation)1.描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,xk的方程2.多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 + k xk 1 1, , k k称为偏回归系数称为偏回归系数 i i 表表

8、示示假假定定其其他他变变量量不不变变,当当 x xi i 每每变变动一个单位时,动一个单位时,y y 的平均变动值的平均变动值yyyy-M-10 - 11统计学统计学STATISTICS(第四版第四版)二元回归方程的直观解释二元回归方程的直观解释二元二元二元二元二元二元线性回归模型线性回归模型线性回归模型线性回归模型线性回归模型线性回归模型( (观察到的观察到的观察到的y yy) )回归面回归面回归面 0 00 i iix x x1 11y y yx x x2 22( ( (x x x1 11, , ,x x x2 22) ) ) yyyy-M-10 - 12统计学统计学STATISTICS(

9、第四版第四版)估计的多元线性回归的方程估计的多元线性回归的方程(estimated multiple linear regression equation)(estimated multiple linear regression equation) 是是 估计值估计值 是是 y y 的估计值的估计值1.用样本统计量 估计回归方程中的 参数 时得到的方程2.由最小二乘法求得3.一般形式为yyyy-M-10.1.2 参数的最小二乘估计参数的最小二乘估计10.1 多元多元线性回性回归模型模型yyyy-M-10 - 14统计学统计学STATISTICS(第四版第四版)参数的最小二乘估计参数的最小二乘

10、估计2.求求解解各回归参数的标准方程如下各回归参数的标准方程如下1.使使因因变变量量的的观观察察值值与与估估计计值值之之间间的的离离差差平平方方和和达到最小来求得达到最小来求得 。即即yyyy-M-10 - 15统计学统计学STATISTICS(第四版第四版)参数的最小二乘法参数的最小二乘法(例题分析例题分析)【例例例例10-110-1】一一家家商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长

11、长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。试试建建立立不不良良贷贷款款y y与与贷贷款款余余额额x x1 1、累累计计应应收收贷贷款款x x2 2、贷贷款款项项目目个个数数x x3 3和和固固定定资资产产投投资资额额x x4 4的的线线性性回回归归方方程程,并解释各回归系数的含义并解释各回归系数的含义 进行回归进行回归进行回归

12、进行回归yyyy-M-10 - 16统计学统计学STATISTICS(第四版第四版)参数的最小二乘估计参数的最小二乘估计(Excel输出结果输出结果)F F检验检验检验检验t t 检验检验检验检验偏回归系数偏回归系数偏回归系数偏回归系数yyyy-M-10 - 17统计学统计学STATISTICS(第四版第四版)参数的最小二乘估计参数的最小二乘估计(SPSS输出结果输出结果)yyyy-M- 10.2 拟合优度和显著性检验拟合优度和显著性检验 10.2.1 回归方程的拟合优度回归方程的拟合优度 10.2.2 显著性检验显著性检验第第 10 章章 多元线性回归多元线性回归yyyy-M-10.2.1

13、回归方程的拟合优度回归方程的拟合优度10.2 拟合合优度和度和显著性著性检验yyyy-M-10 - 20统计学统计学STATISTICS(第四版第四版)多重判定系数多重判定系数(multiple coefficient of determination) 1.回归平方和占总平方和的比例2.计算公式为3.因变量取值的变差中,能被估计的多元回归方程所解释的比例 yyyy-M-10 - 21统计学统计学STATISTICS(第四版第四版)修正多重判定系数修正多重判定系数( (adjusted multiple coefficient of determinationadjusted multiple

14、 coefficient of determination) ) 1.用样本量n和自变量的个数k去修正R2得到 2.计算公式为3.避免增加自变量而高估 R24.意义与 R2类似5.数值小于R2输出结果输出结果输出结果输出结果yyyy-M-10 - 22统计学统计学STATISTICS(第四版第四版)多重相关系数多重相关系数( (multiple correlation coefficient) ) 1.多重判定系数的平方根R2.反映因变量y与k个自变量之间的相关程度3.实际上R度量的是因变量的观测值 与由多元回归方程得到的预测值 之间的关系强度,即多重相关系数R等于因变量的观测值 与估计值 之

15、间的简单相关系数即 4. (一元相关系数r也是如此,即 。读者自己去验证)yyyy-M-10 - 23统计学统计学STATISTICS(第四版第四版)估计标准误差估计标准误差 Se1.对误差项的标准差 的一个估计值2.衡量多元回归方程的拟合优度3.计算公式为输出结果输出结果输出结果输出结果yyyy-M-10.2.2 显著性检验显著性检验10.2 拟合合优度和度和显著性著性检验yyyy-M-10 - 25统计学统计学STATISTICS(第四版第四版)线性关系检验线性关系检验1.检验因变量与所有自变量之间的线性关系是否显著2.也被称为总体的显著性总体的显著性检验3.检验方法是将回归均方(MSR)

16、同残差均方(MSE)加以比较,应应用用 F 检检验验来分析二者之间的差别是否显著n n如如果果是是显显著著的的,因因变变量量与与自自变变量量之之间间存存在在线线性性关系关系n n如如果果不不显显著著,因因变变量量与与自自变变量量之之间间不不存存在在线线性性关系关系yyyy-M-10 - 26统计学统计学STATISTICS(第四版第四版)线性关系检验线性关系检验1.提出提出假设假设n nH H0 0: 1 1 2 2 k k=0 =0 线性关系不显著线性关系不显著n nH H1 1: 1 1, 2 2, k k至少有一个不等于至少有一个不等于0 02. 2. 计算计算检验统计量检验统计量F F

17、3.确定确定显著性水平显著性水平 和分子自由度和分子自由度k k、分母自由度、分母自由度n-n-k k-1-1找出临界值找出临界值F F 4. 4. 作出作出决策:若决策:若F F F F ,拒绝拒绝H H0 0输出结果输出结果输出结果输出结果yyyy-M-10 - 27统计学统计学STATISTICS(第四版第四版)回归系数的检验回归系数的检验1.线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验2.究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定3.对回归系数检验的个数进行限制,以避免犯过多的第类错误(弃真错误) 4.对每一个自变量都要单独进行检验5.应用 t 检验

18、统计量yyyy-M-10 - 28统计学统计学STATISTICS(第四版第四版)回归系数的检验回归系数的检验(步骤步骤)1.提出假设n nH H0 0: i i = 0 (= 0 (自变量自变量 x xi i 与与 因变量因变量 y y 没有线性关系没有线性关系) ) n nH H1 1: i i 0 (0 (自变量自变量 x xi i 与与 因变量因变量 y y有线性关系有线性关系) ) 2.计算检验的统计量 t3. 确定显著性水平,并进行决策 t t t t ,拒绝拒绝H H0 0; t t t t ,不拒绝,不拒绝H H0 0输出结果输出结果输出结果输出结果yyyy-M-10 - 29

19、统计学统计学STATISTICS(第四版第四版)回归系数的推断回归系数的推断 (置信区间置信区间)回归系数在(1-)%置信水平下的置信区间为 回归系数的回归系数的抽样标准差抽样标准差输出结果输出结果输出结果输出结果yyyy-M- 10.3 多重共线性及其处理多重共线性及其处理 10.3.1 多重共线性及其识别多重共线性及其识别 10.3.2 变量选择与逐步回归变量选择与逐步回归第第 10 章章 多元线性回归多元线性回归yyyy-M-10.3.1 多重共线性及其识别多重共线性及其识别10.3 多重共多重共线性及其性及其处理理yyyy-M-10 - 32统计学统计学STATISTICS(第四版第四

20、版)多重共线性多重共线性(multicollinearity)1.回归模型中两个或两个以上的自变量彼此相关2.多重共线性带来的问题有 n n可可能能会会使使回回归归的的结结果果造造成成混混乱乱,甚甚至至会会把把分分析引入歧途析引入歧途 n n可可能能对对参参数数估估计计值值的的正正负负号号产产生生影影响响,特特别别是是各各回回归归系系数数的的正正负负号号有有可可能能同同预预期期的的正正负负号相反号相反 输出结果输出结果输出结果输出结果yyyy-M-10 - 33统计学统计学STATISTICS(第四版第四版)多重共线性的识别多重共线性的识别1.检检测测多多重重共共线线性性的的最最简简单单的的一

21、一种种办办法法是是计计算算模模型型中中各各对对自自变变量量之之间间的的相相关关系系数数,并并对对各各相相关关系系数数进行显著性检验进行显著性检验n n若若有有一一个个或或多多个个相相关关系系数数显显著著,就就表表示示模模型型中中所所用用的自变量之间相关,存在着多重共线性的自变量之间相关,存在着多重共线性2.如果出现下列情况,暗示存在多重共线性如果出现下列情况,暗示存在多重共线性n n模型中各对自变量之间显著相关模型中各对自变量之间显著相关n n当当模模型型的的线线性性关关系系检检验验( (F F检检验验) )显显著著时时,几几乎乎所所有有回回归系数的归系数的t t检验却不显著检验却不显著 n

22、n回归系数的正负号与预期的相反回归系数的正负号与预期的相反输出结果输出结果输出结果输出结果yyyy-M-10 - 34统计学统计学STATISTICS(第四版第四版)相关矩阵及其检验相关矩阵及其检验 (SPSS ) SPSS yyyy-M-10 - 35统计学统计学STATISTICS(第四版第四版)多重共线性的处理多重共线性的处理1.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关2.如果要在模型中保留所有的自变量,则应n n避免根据避免根据 t t 统计量对单个参数进行检验统计量对单个参数进行检验n n对对因因变变量量值值的的推推断断( (估估计计或或预预测测) )的的限限

23、定定在在自变量样本值的范围内自变量样本值的范围内输出结果输出结果输出结果输出结果yyyy-M-10.3.2 变量选择与逐步回归变量选择与逐步回归10.3 多重共多重共线性及其性及其处理理yyyy-M-10 - 37统计学统计学STATISTICS(第四版第四版)变量选择过程变量选择过程1.1.在建立回归模型时,对自变量进行筛选在建立回归模型时,对自变量进行筛选2.2.选择自变量的原则是对统计量进行显著性检验选择自变量的原则是对统计量进行显著性检验n n将将一一个个或或一一个个以以上上的的自自变变量量引引入入到到回回归归模模型型中中时时,是是否否使使得得残残差差平平方方和和( (SSESSE)

24、)有有显显著著地地减减少少。如如果果增增加加一一个个自自变变量量使使SSESSE的的减减少少是是显显著著的的,则则说说明明有有必必要要将将这这个个自自变变量量引引入入回回归模型,否则,就没有必要将这个自变量引入回归模型归模型,否则,就没有必要将这个自变量引入回归模型n n确确定定引引入入自自变变量量是是否否使使SSESSE有有显显著著减减少少的的方方法法,就就是是使使用用F F统统计计量量的的值值作作为为一一个个标标准准,以以此此来来确确定定是是在在模模型型中中增增加加一一个自变量,还是从模型中剔除一个自变量个自变量,还是从模型中剔除一个自变量3.3.变变量量选选择择的的方方法法主主要要有有:

25、向向前前选选择择、向向后后剔剔除除、逐逐步步回归、最优子集等回归、最优子集等 yyyy-M-10 - 38统计学统计学STATISTICS(第四版第四版)向前选择向前选择 (forward selection)1.从模型中没有自变量开始2.对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量(P值最小的),并将其首先引入模型 3.分别拟合引入模型外的k-1个自变量的二元线性回归模型 4.如此反复进行,直至模型外的自变量均无统计显著性为止yyyy-M-10 - 39统计学统计学STATISTICS(第四版第四版)向后剔除向后剔除 (backward

26、elimination)1.先先对对因因变变量量拟拟合合包包括括所所有有k k个个自自变变量量的的回回归归模模型型。然然后后考考察察p p( (p p k k) )个个去去掉掉一一个个自自变变量量的的模模型型( (这这些些模模型型中中在在每每一一个个都都有有k k-1-1个个自自变变量量) ),使使模模型型的的SSESSE值值减小最少的自变量被挑选出来并从模型中剔除减小最少的自变量被挑选出来并从模型中剔除2.考考察察p-1p-1个个再再去去掉掉一一个个自自变变量量的的模模型型( (这这些些模模型型中中每每一一个个都都有有k k-2-2个个自自变变量量) ),使使模模型型的的SSESSE值值减减

27、小小最最少少的自变量被挑选出来并从模型中剔除的自变量被挑选出来并从模型中剔除3.如如此此反反复复进进行行,一一直直将将自自变变量量从从模模型型中中剔剔除除,直直至至剔除一个自变量不会使剔除一个自变量不会使SSESSE显著减小为止显著减小为止yyyy-M-10 - 40统计学统计学STATISTICS(第四版第四版)逐步回归逐步回归 (stepwise regression)1.1.将向前选择和向后剔除两种方法结合起来筛选自变量将向前选择和向后剔除两种方法结合起来筛选自变量2.2.在在增增加加了了一一个个自自变变量量后后,它它会会对对模模型型中中所所有有的的变变量量进进行行考考察察,看看看看有有

28、没没有有可可能能剔剔除除某某个个自自变变量量。如如果果在在增增加加了了一一个个自自变变量量后后,前前面面增增加加的的某某个个自自变变量量对对模模型型的的贡献变得不显著,这个变量就会被剔除贡献变得不显著,这个变量就会被剔除3.3.按按照照方方法法不不停停地地增增加加变变量量并并考考虑虑剔剔除除以以前前增增加加的的变变量量的可能性,直至增加变量已经不能导致的可能性,直至增加变量已经不能导致SSESSE显著减少显著减少4.4.在在前前面面步步骤骤中中增增加加的的自自变变量量在在后后面面的的步步骤骤中中有有可可能能被被剔剔除除,而而在在前前面面步步骤骤中中剔剔除除的的自自变变量量在在后后面面的的步步骤

29、骤中中也可能重新进入到模型中也可能重新进入到模型中yyyy-M-10 - 41统计学统计学STATISTICS(第四版第四版)参数的最小二乘估计参数的最小二乘估计(逐步回归逐步回归)【例例10-4】根据例10-1的数据,用逐步回归方法建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,并求出不良贷款的置信区间和预测区间 yyyy-M-10 - 42统计学统计学STATISTICS(第四版第四版)用用SPSS进行逐步回归进行逐步回归 (stepwise regression)第第1步:步:选择【Analyze】下拉菜单,并选择 【Regressio

30、n - linear】选项进入主对话框第第2步:步:在主对话框中将因变量选入【Dependent】,将 所有自变量选入【Independent(s)】,并在 【Method】下选择【Stepwise】第第3步:步:点击【Options】,并在【Stepping Method Criteria】下选中【Use Probability of F】,并在 【Entry】框中输入增加变量所要求的显著性水平 (隐含值为0.05,一般不用改变);在 【Removal】输入剔除变量所要求的显著性水平 (隐含值为0.10,一般不用改变)。点击 【Continue】回到主对话框yyyy-M-10 - 43统计学

31、统计学STATISTICS(第四版第四版)用用SPSS进行逐步回归进行逐步回归 (stepwise regression)第第4步:步:(需要预测时)点击【Save】: 在【Predicted Values】下选中 【Unstandardized】(输出点预测值) 在【Prediction interval】下选中【Mean】和 【Individual】(输出置信区间 和预测区间) 在【Confidence Interval】中选择所要求的置 信水平(隐含值为95%,一般不用改变) (需要残差分析时)在【Residuals】下选中所 需的残差,点击【Continue】回到主对话 框。点击【OK

32、】进行回归进行回归进行回归进行回归yyyy-M-10 - 44统计学统计学STATISTICS(第四版第四版)逐步回归逐步回归 (例题分析例题分析SPSS输出结果输出结果)变量的进入和移出标准变量的进入和移出标准变量的进入和移出标准变量的进入和移出标准 yyyy-M-10 - 45统计学统计学STATISTICS(第四版第四版)逐步回归逐步回归 (例题分析例题分析SPSS输出结果输出结果)两个模型的主要统计量两个模型的主要统计量两个模型的主要统计量两个模型的主要统计量 yyyy-M-10 - 46统计学统计学STATISTICS(第四版第四版)逐步回归逐步回归 (例题分析例题分析SPSS输出结

33、果输出结果)两个模型的方差分析表两个模型的方差分析表两个模型的方差分析表两个模型的方差分析表 yyyy-M-10 - 47统计学统计学STATISTICS(第四版第四版)逐步回归逐步回归 (例题分析例题分析SPSS输出结果输出结果)两个模型的参数估计和检验两个模型的参数估计和检验两个模型的参数估计和检验两个模型的参数估计和检验 yyyy-M- 10.4 利用回归方程进行预测利用回归方程进行预测第第 10 章章 多元线性回归多元线性回归yyyy-M-10 - 49统计学统计学STATISTICS(第四版第四版)置信区间和预测区间置信区间和预测区间(例题分析例题分析)yyyy-M-10 - 50统

34、计学统计学STATISTICS(第四版第四版)用用SPSS做回归面图做回归面图 第第 1步步 : 点 击 【 Graphs】 【 Interactive-Scatterplot】第第2步步:点点击击【3D Coordine】,将将各各坐坐标标轴轴变变量量拖入相应坐标轴拖入相应坐标轴第第3步步:点点击击【Fit】,在在【method】下下选选择择【Regression】,在在【Prediction Lines】下下选选择择【Mean】和和【Individual】。点点击击【确确定定】做回归面做回归面做回归面做回归面yyyy-M-10 - 51统计学统计学STATISTICS(第四版第四版)置信区

35、间和预测区间置信区间和预测区间(例题分析例题分析)不良贷款的不良贷款的不良贷款的不良贷款的置信面置信面置信面置信面和和和和预测面预测面预测面预测面二元回归面二元回归面二元回归面二元回归面置信面置信面置信面置信面预测面预测面预测面预测面yyyy-M-第第 10 章章 多元线性回归多元线性回归 10.5 哑变量回归哑变量回归 10.5.1 在模型中引进哑变量在模型中引进哑变量 10.5.2 含有一个哑变量的回归含有一个哑变量的回归yyyy-M-10.5.1 在模型中引进哑变量在模型中引进哑变量10.5 哑变量回量回归yyyy-M-10 - 54统计学统计学STATISTICS(第四版第四版)哑变量

36、哑变量(dummy variable)1.也称虚拟变量。用数字代码表示的定性自变量2.哑变量可有不同的水平n n只有两个水平的哑变量只有两个水平的哑变量 比如,性别比如,性别( (男,女男,女) ) n n有两个以上水平的哑变量有两个以上水平的哑变量 贷款企业的类型贷款企业的类型( (家电,医药,其他家电,医药,其他) ) 3.哑变量的取值为0,1yyyy-M-10 - 55统计学统计学STATISTICS(第四版第四版)在回归中引进哑变量在回归中引进哑变量1.回归模型中使用哑变量时,称为哑变量回归回归模型中使用哑变量时,称为哑变量回归2.当当定定性性变变量量只只有有两两个个水水平平时时,可可

37、在在回回归归中中引引入入一个哑变量一个哑变量n n比如,性别比如,性别( (男,女男,女) ) 3.一一般般而而言言,如如果果定定性性自自变变量量有有k k个个水水平平,需需要要在在回归中模型中引进回归中模型中引进k k-1-1个哑变量个哑变量yyyy-M-10 - 56统计学统计学STATISTICS(第四版第四版)在回归中引进哑变量在回归中引进哑变量(例题分析例题分析)【例例例例10-610-6】为为研研究究考考试试成成绩绩与与性性别别之之间间的的关关系系,从从某某大大学学商商学学院院随随机机抽抽取取男男女女学学生生各各8 8名名,得得到到他他们们的的市市场场营营销销学学课课程程的的考考试

38、成绩如右表试成绩如右表 yyyy-M-10.5.2 含有一个哑变量的回归含有一个哑变量的回归 10.5 哑变量回量回归yyyy-M-10 - 58统计学统计学STATISTICS(第四版第四版)在回归中引进哑变量在回归中引进哑变量(例题分析例题分析)【例例10-7】建立考试分数与性别之间的线性回归方程,并解释回归系数的含义进行回归进行回归yyyy-M-10 - 59统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题分析例题分析)引进哑变量时,回归方程表示为引进哑变量时,回归方程表示为E E( (y y) =) = 0 0+ + 1 1x x 男男( ( x x=0)=

39、0):E E( (y y) =) = 0 0男学生考试成绩的期望值男学生考试成绩的期望值 女女( (x x=1)=1):E E( (y y) =) = 0 0+ + 1 1女学生考试成绩的期望值女学生考试成绩的期望值注意:当指定哑变量注意:当指定哑变量0 0,1 1时时 0 0总总是是代代表表与与哑哑变变量量值值0 0所所对对应应的的那那个个分分类类变变量量水水平平的平均值的平均值 1 1总总是是代代表表与与哑哑变变量量值值1 1所所对对应应的的那那个个分分类类变变量量水水平平的的平平均均响响应应与与哑哑变变量量值值0 0所所对对应应的的那那个个分分类类变变量量水水平平的平均值的差值,即的平均

40、值的差值,即 平均值的差值平均值的差值 =(=( 0 0+ + 1 1) - ) - 0 0= = 1 1yyyy-M-10 - 60统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题分析例题分析) 考试成绩与性别的回归考试成绩与性别的回归男男 学学 生生 考考试试 分分 数数 的的平均值平均值女女 学学 生生 与与男男 学学 生生 平平均均 考考 试试 分分数的差值数的差值yyyy-M-10 - 61统计学统计学STATISTICS(第四版第四版)用用SPSS进行哑变量回归进行哑变量回归(有一个哑变量和有一个数值变量有一个哑变量和有一个数值变量)第第1步步:选择【A

41、nalyze】,并选择【General Linear Model-Univaiate】进入主对话框第第2步步:将因变量(考试成绩)选入【Dependent Variable】,将自变量(性别)选入【Fixed Factor(s)】(模型中还含有一个数值自变量时,将数值自变量选入【Covariate(s)】)第第3步步:点击【Model】,并点击【Custom】;将性别F选入【Model】(若模型中还含有工作年限自变量时,将工作年限C也选入【Model】;在【Build Term(s)】下选择【Main effects】。点击【Continue】回到主对话框。点击【Options】,在【Disp

42、lay】下选中【Parameter estimates】(估计模型中的参数)。点击【Continue】回到主对话框。点击【OK】哑变量回归哑变量回归哑变量回归哑变量回归yyyy-M-10 - 62统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题分析例题分析只含一个哑变量只含一个哑变量)SPSSSPSS的输出结果的输出结果的输出结果的输出结果 方方差差分分析析表表:F=5.326,Sig.=0.037,回回归归模模型显著型显著男男=1,女,女=0。女女学学生生考考试试成成绩绩的的期期望望值值=81.75分分;男男学学生生比比 女女 学学 生生 平平 均均 低低14.8

43、75分分yyyy-M-10 - 63统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归(例题分析例题分析)【例例例例10-810-8】为为研研究究工工资资水水平平与与工工作作年年限限和和性性别别之之间间的的关关系系,在在某某行行业业中中随随机机抽抽取取1010名名职职工工,所所得得数据如右表数据如右表进行回归进行回归yyyy-M-10 - 64统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题分析例题分析Excel) Excel输出的结果输出的结果yyyy-M-10 - 65统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题

44、分析例题分析SPSS) 哑变量回归哑变量回归哑变量回归哑变量回归yyyy-M-10 - 66统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题分析例题分析SPSS) 哑变量回归哑变量回归哑变量回归哑变量回归用工作年限和性别预测的月工资水平及其残差用工作年限和性别预测的月工资水平及其残差用工作年限和性别预测的月工资水平及其残差用工作年限和性别预测的月工资水平及其残差 yyyy-M-10 - 67统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题分析例题分析SPSS) 哑变量回归哑变量回归哑变量回归哑变量回归均均值值图图yyyy-M-10 - 6

45、8统计学统计学STATISTICS(第四版第四版)哑变量回归哑变量回归 (例题分析例题分析) 引进哑变量时,回归方程写为引进哑变量时,回归方程写为 E E( (y y) =) = 0 0+ + 1 1x x1 1+ + 2 2x x2 2 女女( ( x x2 2=0)=0):E E( (y y| |女性女性) =) = 0 0 + + 1 1x x1 1 男男( (x x2 2=1)=1):E E( (y y| |男性男性) =() =( 0 0 + + 2 2 ) + ) + 1 1x x1 1 0 0的含义表示:女性职工的期望月工资收入的含义表示:女性职工的期望月工资收入 ( ( 0 0

46、+ + 2 2) )的含义表示:男性职工的期望月工资收入的含义表示:男性职工的期望月工资收入 1 1含含义义表表示示:工工作作年年限限每每增增加加1 1年年,男男性性或或女女性性工工资资的平均增加值的平均增加值 2 2含含义义表表示示:男男性性职职工工的的期期望望月月工工资资收收入入与与女女性性职职工的期望月工资收入之间的差值工的期望月工资收入之间的差值 ( ( 0 0+ + 2 2) - ) - 0 0= = 2 2yyyy-M-10 - 69统计学统计学STATISTICS(第四版第四版)本章小结本章小结l多元线性回归模型、回归方程与估计的多元线性回归模型、回归方程与估计的回归方程回归方程l回归方程的拟合优度与显著性检验回归方程的拟合优度与显著性检验l多重共线性问题及其处理多重共线性问题及其处理l利用回归方程进行预测利用回归方程进行预测l哑变量回归哑变量回归l用用Excel和和SPSS进行回归分析进行回归分析yyyy-M-结结 束束yyyy-M-

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号