赵卫亚3(回归模型的扩展虚拟变量).ppt

资源描述

《赵卫亚3(回归模型的扩展虚拟变量).ppt》由会员分享，可在线阅读，更多相关《赵卫亚3(回归模型的扩展虚拟变量).ppt（56页珍藏版）》请在金锄头文库上搜索。

1、第三章回归模型的扩展（续)第四节虚拟变量模型第五节离散因变量模型第四节虚拟变量模型一、虚拟变量的概念二、虚拟变量引入的方式三、虚拟变量的引入原则四、虚拟变量的应用五、案例分析一、虚拟变量的概念1、问题的引出o前面的回归模型中，所遇到的变量均为定量变量，如GDP、工资、收入、销售额，教育年数等。o实际建模，一些定性变量有不可忽视的影响。o例如，研究某个企业的销售水平，产业属性（制造业、零售业）、所有制（私营,非私营）、地理位置（东、中、西部）等是值得考虑的因素。但这些因素是定性描述的。2、基本概念o定量因素可直接测度，数值性的因素o定性因素属性因素，表征某种属性存在与否的非数值

2、性因素o问题:能否将定性因素进行量化，以及如何引入模型中？n离散选择模型（离散被解释变量）n虚拟变量方法（离散解释变量）3、虚拟变量的定义o计量经济学中，将取值0和1的人工变量称为虚拟变量、哑元变量，定性变量。(dummy variable)o通常用D表示o对定性变量的量化，以及对定量变量的分类，都可以采用虚拟变量的方式进行。o例如例如，反映文化程度的虚拟变量可取为，反映文化程度的虚拟变量可取为：本科及以上本科以下男性女性反映性别的虚拟变量可取为反映性别的虚拟变量可取为：4、虚拟变量中“0”，“1”选取原则 o要从分析问题的目的出发予以界定n0代表基期，比较的基期，参照组n1代表报告期，被比较

3、的效应，对照组二、虚拟变量引入方式二、虚拟变量引入方式虚拟变量做为解释变量引入模型有两种基本方式：加法方式加法方式和乘法方式乘法方式。企业男职工的平均薪金为：企业男职工的平均薪金为：企业女职工的平均薪金为：企业女职工的平均薪金为：1.1.加法方式加法方式（1 1）单个虚拟变量的引入：一种因素两种状态）单个虚拟变量的引入：一种因素两种状态例：研究工工龄、性别对员工工资的影响其中：Yi为企业职工的薪金， Xi为工龄，男性女性几何意义：几何意义：两个函数有相同的斜率，说明男女职工平均薪金对工龄的变化率是一样的。如果20，表明两个函数截距不相同，且男职工平均薪金比女职工高，两者平均薪金水平相

4、差2。如果22，其几何意义：o问题：n虚拟变量为何只选“0”, 1“，选择0，1，2 等可以吗n同一种属性，两个变量能够表示几种状态？n思考，如果在模型中引入季节效应？月份效应？（3）多个虚拟变量的引入）多个虚拟变量的引入多种因素多种因素例例：研研究究学学历历（本本科科及及以以上上，本本科科以以下下），性性别别（男男、女女）对员工工资的影响。对员工工资的影响。在例1基础上，再引入代表学历的虚拟变量D2：本科及以上学历本科以下学历职工薪金的回归模型可设计为：女职工本科以下学历的平均薪金：女职工本科以上学历的平均薪金：于是，不同性别、不同学历职工的平均薪金分别为：男职工本科以下学历的平均薪金：男职

5、工本科以上学历的平均薪金：o思考：研究性别（男、女），学历（分为高学历，中等学历，低学历）对员工工资的影响。一共要引入几个虚拟变量？注意:加法方式引入虚拟变量，考察了截距的不同加法方式引入虚拟变量，考察了截距的不同。但同时注意到，此时不同性别的人的学历差距对工资的影响一样。这是一个较强的约束。交互作用：一个解释变量的边际效应有时可能要依赖于另一个解释变量。交互作用的引入方法：在模型中引入相关变量的乘积。交互项的处理方法，对于数量变量和虚拟变量都适用o例：研究工龄、性别，学历对工资的影响（包含性别和学历的交互项）对工资的影响。o此时，男性高学历的工作方程是怎样的？o如何检验交互效应是否存在？2.

6、 2. 乘法方式乘法方式o乘法方式引入虚拟变量时，将虚拟变量与其他解释变量（或者定量变量X，或者其他虚拟变量D）的乘积，作为新的解释变量出现在模型中。o达到调整设定模型斜率的目的。背景介绍：根据消费理论，消费水平C主要取决于收入水平Y，但在一个较长的时期，人们的消费倾向会发生变化，尤其是在自然灾害、战争等反常年份，消费倾向往往出现变化。例例：利用1978-2001年的数据，分析1990年前后消费倾向是否发生变化？消费模型可建立如下：o这里，虚拟变量D以与X相乘的方式引入了模型中，从而可用来考察消费倾向的变化。o假定E(i)= 0，上述模型所表示的函数可化为： 1990年后： 1990年前：3

7、3、当截距与斜率发生变化时，同时引入加法与乘法形式的虚拟、当截距与斜率发生变化时，同时引入加法与乘法形式的虚拟变量变量o例例，利用1978-2001的居民储蓄与居民收入的数据。考察1990年前、后中国居民的总储蓄-收入关系是否已发生变化。储蓄收入关系是否发生改变，可利用虚拟变量模型来解决。将1990年前与1990年的观测值合并，并用以估计以下回归：Di为引入的虚拟变量：90年后90年前iiiiiiXDDXYmbbbb+=)(4321 于是有：可分别表示1990年前与1990年后的储蓄函数。在统计检验中，如果3=0的假设被拒绝，则说明两个时期中储蓄函数的截距不同；(t检验）如果4=0的假设被

8、拒绝，则说明两个时期中储蓄函数的斜率不同。(t检验）也可以利用F检验，检查3=0， 4=0是否同时成立。iiiiXXDYE21), 0|(bb+=iiiiXXDYE)()(), 1|(4231bbbb+=三、虚拟变量的引入原则三、虚拟变量的引入原则若定性因素具有若定性因素具有m个（个（m2）个相互排斥的属性）个相互排斥的属性（或水平）（或水平）n当回归模型有截距项时，只能引入 m-1 个虚拟变量n当回归模型无截距项时，可引入m个虚拟变量n否则就会陷入“虚拟变量陷阱”例：虚拟变量陷阱例：虚拟变量陷阱居民住房消费支出和居民可支配收入之间的数量关系的回归模型为：为了研究“城镇”和“农村”在住房消

9、费上的支出差异，引入虚拟变量：城镇农村城镇农村如果引入两个虚拟变量：回归模型为：对任意家庭都有：产生完全多重共线性，陷入“虚拟变量陷阱”虚拟变量陷阱的实质是：完全多重共线性城镇农村农村城镇如果模型本身不含截距项，引入两个虚拟变量：回归模型为：n不会产生产生完全多重共线性，即不会陷入“虚拟变量陷阱”n 城镇农村农村城镇四、虚拟变量的应用o（1）调整季节波动o利用季度或月份资料建模时，经常存在季节波动。o处理方法n去除时间序列的季节、周期等效应，更清晰的反应变量之间的关系n利用虚拟变量方法反映季节因素的影响三、虚拟变量的应用（2）检验模型结构的稳定性（变化）o用途：n分析模型结构对样本变化的敏感

10、性n比较两个或多个模型之间的差异情况n例如，不同性别人群消费函数是否相同？不同时期居民消费行为是否发生变化？o为什么不简单的将数据分成两段？n分组后观测值大大减少，有时观测值少到难以估计n无法对结构变化进行检验（3）分段回归o前面同时按照加法、乘法引入虚拟变量，则可能出现“跳越”。o如果这种变化表现为折线型，如何体现系数之间的约束关系？o分段线性回归就是其中的一种。o 在经济发生转折时期，可通过建立临界指标的虚拟变量模型来反映。o例：研究不同阶段我国居民的对进口消费品的消费行为。数据表明，1979年以前，我国居民消费支出缓慢上升，1979年以后，我国居民消费支出快速上升。这时，可以t*=19

11、79年为转折期，以1979年的国民收入Xt*为临界值，设如下虚拟变量：建立模型：t*=1979年前t*=1979年后则进口消费品的回归模型可建立如下：则进口消费品的回归模型可建立如下：折线模型在t*=1979这一点连接。因此 OLS法得到该模型的回归方程为：五、案例分析第五节离散因变量模型o我们经常会遇到被解释变量的取值是离散的，分类的或者顺序的情形。o本节讲述离散因变量模型中最简单的一种二元选择模型一、二元选择模型o很多现象都可以用二元变量描述n学生是否选择某选修课程，选或者不选n消费者对某种商品的选择，买或者不买n农民是否加入合作医疗保险，加入或者不加入o模型框架o随机变量形式o二元

12、选择模型的目的：考察X对于观察到y=1的概率的影响。oY的条件期望就是y=1的概率o因此二元选择模型又被称为概率模型二、线性概率模型o1、线性概率模型：例如，研究居民的收入和是否购买住房的关系看上去和OLS回归一样，区别是Y只取0和1两个值。线性概率模型的特点随机扰动项的分布o随机扰动项不服从正态分布。对于参数估计不会产生影响，但会影响统计推断。只有大样本情况下，才可以利用正态分布假定进行统计推断。线性概率模型评价o优点：n计算简单，结果易于解释o缺点：n预测概率值可能落在0,1之外。n线性概率模型假定自变量Y=1的概率之间存在线性关系，而实际往往不是线性的。解决：假设负的拟合值为0，大于1

13、的拟合值为1.n随机误差项不是正态分布n随机误差项具有异方差。方差为p(1-p),而P是Y=1的概率，此概率对不同观测值不同。二、非线性概率模型o实际上，p与x 可能是非线性关系。n随着X的增加，P(y=1)的概率在增加，但不超过0,1nP和x的关系是非线性的.随着x变小,p趋向0的速度越慢。随着x变大，p趋向1的速度也越慢。o怎样的函数有这个特性？n分布函数1、Probit模型o分布函数取标准正态分布。o称为Probit模型或者概率单位模型o利用极大似然估计方法求解o参数的含义可以证明，x对y=1的概率的边际影响为可见，系数本身并不是边际影响，边际影响也不是常数。但和边际影响的符号相同。2、Logit模型o随机扰动项去Logistic分布，o称为Logit模型o利用极大似然估计方法求解参数的含义o机会比：3、非线性模型的拟合优度o不再使用o常用三个指标nPseudo-R2n概率的正确预测率检查Y=1或0的概率的正确性，判断拟合的好坏n预测值与真实值的相关系数相关系数高，表明拟合越好4、模型的选择o直接比较三种概率模型的系数是没有意义的n线性概率模型可用于问题的初步分析nLogit模型，系数含义可以通过机会比得以结识，可以扩展到多元选择模型nProbit模型，可由随机变量服从正态分布的假定得到，可以扩展到Tobit 模型

展开阅读全文

赵卫亚3(回归模型的扩展虚拟变量).ppt

最新文档