赵卫亚3(回归模型的扩展虚拟变量)

上传人:自*** 文档编号:48417884 上传时间:2018-07-15 格式:PPT 页数:56 大小:511.54KB
返回 下载 相关 举报
赵卫亚3(回归模型的扩展虚拟变量)_第1页
第1页 / 共56页
赵卫亚3(回归模型的扩展虚拟变量)_第2页
第2页 / 共56页
赵卫亚3(回归模型的扩展虚拟变量)_第3页
第3页 / 共56页
赵卫亚3(回归模型的扩展虚拟变量)_第4页
第4页 / 共56页
赵卫亚3(回归模型的扩展虚拟变量)_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《赵卫亚3(回归模型的扩展虚拟变量)》由会员分享,可在线阅读,更多相关《赵卫亚3(回归模型的扩展虚拟变量)(56页珍藏版)》请在金锄头文库上搜索。

1、第三章 回归模型的扩展(续)第四节 虚拟变量模型 第五节 离散因变量模型第四节 虚拟变量模型一、虚拟变量的概念二、虚拟变量引入的方式三、虚拟变量的引入原则四、虚拟变量的应用五、案例分析一、虚拟变量的概念 1、问题的引出o 前面的回归模型中,所遇到的变量均为定量变量, 如GDP、工资、收入、销售额,教育年数等。 o 实际建模,一些定性变量有不可忽视的影响。 o 例如,研究某个企业的销售水平,产业属性(制造 业、零售业)、所有制(私营,非私营)、地理位 置(东、中、西部)等是值得考虑的因素。但这些 因素是定性描述的。2、基本概念o 定量因素可直接测度,数值性的因素 o 定性因素属性因素,表征某种属

2、性存在 与否的非数值性因素o 问题:能否将定性因素进行量化,以及如何 引入模型中? n 离散选择模型(离散被解释变量) n 虚拟变量方法(离散解释变量)3、虚拟变量的定义o 计量经济学中,将取值0和1的人工变量称为 虚拟变量、哑元变量,定性变量。(dummy variable) o 通常用D表示o 对定性变量的量化,以及对定量变量的分类 ,都可以采用虚拟变量的方式进行。o 例如,反映文化程度的虚拟变量可取为:本科及以上本科以下男性女性反映性别的虚拟变量可取为:4、虚拟变量中“0”,“1”选取原则 o 要从分析问题的目的出发予以界定n0代表基期,比较的基期,参照组n1代表报告期,被比较的效应,对

3、照组 二、虚拟变量引入方式虚拟变量做为解释变量引入模型有两种基本方 式:加法方式和乘法方式。企业男职工的平均薪金为:企业女职工的平均薪金为:1. 加法方式 (1)单个虚拟变量的引入:一种因素两种状态例:研究工工龄、性别对员工工资的影响其中:Yi为企业职工的薪金,Xi为工龄,男性女性几何意义:两个函数有相同的斜率,说明男女职工平均薪金对工 龄的变化率是一样的。 如果20,表明两个函数截距不相同,且男职工平均 薪金比女职工高,两者平均薪金水平相差2。 如果22,其几何意义:o 问题: n 虚拟变量为何只选“0”, 1“,选择0,1,2 等可 以吗 n 同一种属性,两个变量能够表示几种状态? n 思

4、考,如果在模型中引入季节效应?月份效应 ?(3)多个虚拟变量的引入多种因素例:研究学历(本科及以上,本科以下),性别(男、女) 对员工工资的影响。在例1基础上,再引入代表学历的虚拟变量D2: 本科及以上学历本科以下学历职工薪金的回归模型可设计为:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:o 思考:研究性别(男、女),学历(分为高 学历,中等学历,低学历)对员工工资的影 响。一共要引入几个虚拟变量?注意:加法方式引入虚拟变量,考察了截距的不同。但同时注意到,此时不同性别的人

5、的学历差距对工 资的影响一样。这是一个较强的约束。交互作用: 一个解释变量的边际效应有时可能要依赖于另 一个解释变量。 交互作用的引入方法:在模型中引入相关变量 的乘积。 交互项的处理方法,对于数量变量和虚拟变量 都适用o 例:研究工龄、性别,学历对工资的影响(包含性 别和学历的交互项)对工资的影响。o 此时,男性高学历的工作方程是怎样的? o 如何检验交互效应是否存在?2. 乘法方式o 乘法方式引入虚拟变量时,将虚拟变量与 其他解释变量(或者定量变量X,或者其 他虚拟变量D)的乘积,作为新的解释变 量出现在模型中。o 达到调整设定模型斜率的目的。背景介绍:根据消费理论,消费水平C主要取决于收

6、入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。例:利用1978-2001年的数据,分析1990年前后消费倾向是否发生变化?消费模型可建立如下:o 这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。o 假定E(i)= 0,上述模型所表示的函数可化为:1990年后:1990年前:3、当截距与斜率发生变化时,同时引入加法与乘法形式的虚拟 变量o例,利用1978-2001的居民储蓄与居民收入的数据。考察 1990年前、后中国居民的总储蓄-收入关系是否已发生变 化。储蓄收入关系是否发生改变,可利用虚拟变量模型来

7、 解决。将1990年前与1990年的观测值合并,并用以估 计以下回归:Di为引入的虚拟变量:90年后90年前iiiiiiXDDXYmbbbb+=)(4321于是有:可分别表示1990年前与1990年后的储蓄函数。在统计检验中, 如果3=0的假设被拒绝,则说明两个时期中储蓄函数的截距不同 ;(t检验) 如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同 。(t检验) 也可以利用F检验,检查3=0, 4=0是否同时成立。iiiiXXDYE21), 0|(bb+=iiiiXXDYE)()(), 1|(4231bbbb+=三、虚拟变量的引入原则若定性因素具有m个(m2)个相互排斥的属性 (或水

8、平)n当回归模型有截距项时,只能引入 m-1 个虚拟 变量n当回归模型无截距项时,可引入m个虚拟变量n否则就会陷入“虚拟变量陷阱”例:虚拟变量陷阱 居民住房消费支出和居民可支配收入之间的数量 关系的回归模型为:为了研究“城镇”和“农村”在住房消费上的支出差异,引入虚拟变量:城镇农村城镇农村如果引入两个虚拟变量:回归模型为:对任意家庭都有: 产生完全多重 共线性,陷入“虚拟变量陷阱”虚拟变量陷阱的实质是:完全多重共线性城镇农村农村城镇如果模型本身不含截距项,引入两个虚拟变量:回归模型为:n不会产生产生完全多重共线性,即不会陷入“虚拟 变量陷阱”n 城镇农村农村城镇四、虚拟变量的应用o (1)调整

9、季节波动 o 利用季度或月份资料建模时,经常存在季节 波动。 o 处理方法 n 去除时间序列的季节、周期等效应,更清晰的 反应变量之间的关系 n 利用虚拟变量方法反映季节因素的影响三、虚拟变量的应用(2)检验模型结构的稳定性(变化)o 用途: n 分析模型结构对样本变化的敏感性 n 比较两个或多个模型之间的差异情况 n 例如,不同性别人群消费函数是否相同?不同时期 居民消费行为是否发生变化?o 为什么不简单的将数据分成两段? n 分组后观测值大大减少,有时观测值少到难以估计 n 无法对结构变化进行检验(3)分段回归o前面同时按照加法、乘法引入虚拟变量 ,则可能出现“跳越”。o如果这种变化表现为

10、折线型,如何体现 系数之间的约束关系?o分段线性回归就是其中的一种。o 在经济发生转折时期,可通过建立临界指 标的虚拟变量模型来反映。o例:研究不同阶段我国居民的对进口消费品 的消费行为。数据表明,1979年以前,我国 居民消费支出缓慢上升,1979年以后,我国 居民消费支出快速上升。这时,可以t*=1979年为转折期,以1979年的 国民收入Xt*为临界值,设如下虚拟变量:建立模型:t*=1979年前t*=1979年后则进口消费品的回归模型可建立如下: 折线模型在t*=1979这一点连接。因此OLS法得到该模型的回归方程为:五、案例分析第五节 离散因变量模型o 我们经常会遇到被解释变量的取值

11、是离散的 ,分类的或者顺序的情形。 o 本节讲述离散因变量模型中最简单的一种 二元选择模型一、二元选择模型o 很多现象都可以用二元变量描述 n 学生是否选择某选修课程,选或者不选 n 消费者对某种商品的选择,买或者不买 n 农民是否加入合作医疗保险,加入或者不加入o 模型框架o 随机变量形式o 二元选择模型的目的:考察X对于观察到 y=1的概率的影响。o Y的条件期望就是y=1的概率 o 因此二元选择模型又被称为概率模型二、线性概率模型o 1、线性概率模型: 例如,研究居民的收入和是否购买住房的关系看上去和OLS回归一样,区别是Y只取0和1两个值。线性概率模型的特点随机扰动项的分布o 随机扰动

12、项不服从正态分布。对于参数估计 不会产生影响,但会影响统计推断。只有大 样本情况下,才可以利用正态分布假定进行 统计推断。线性概率模型评价o 优点: n 计算简单,结果易于解释 o 缺点: n 预测概率值可能落在0,1之外。 n 线性概率模型假定自变量Y=1的概率之间存在 线性关系,而实际往往不是线性的。 解决:假设负的拟合值为0,大于1的拟合值为1. n 随机误差项不是正态分布 n 随机误差项具有异方差。方差为p(1-p),而P是Y=1的概率,此概率对不同观测值不同。二、非线性概率模型o 实际上,p与x 可能是非线性关系。 n 随着X的增加,P(y=1)的概率在增加,但不超 过0,1 n P

13、和x的关系是非线性的.随着x变小,p趋向0的速 度越慢。随着x变大,p趋向1的速度也越慢。 o 怎样的函数有这个特性? n 分布函数1、Probit模型o 分布函数取标准正态分布。 o 称为Probit模型或者概率单位模型o 利用极大似然估计方法求解o 参数的含义 可以证明,x对y=1的概率的边际影响为可见,系数本身并不是边际影响,边际影响 也不是常数。但和边际影响的符号相同。2、Logit模型o 随机扰动项去Logistic分布, o 称为Logit模型o 利用极大似然估计方法求解参数的含义o 机会比:3、非线性模型的拟合优度o 不再使用 o 常用三个指标 n Pseudo-R2n 概率的正确预测率 检查Y=1或0的概率的正确性,判断拟合的好坏 n 预测值与真实值的相关系数 相关系数高,表明拟合越好4、模型的选择o 直接比较三种概率模型的系数是没有意义的 n 线性概率模型可用于问题的初步分析 n Logit模型,系数含义可以通过机会比得以结识 ,可以扩展到多元选择模型 n Probit模型,可由随机变量服从正态分布的假 定得到,可以扩展到Tobit 模型

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号