1,第五章 虚拟变量模型,在经济计量模型中除了有量的因素外还有质的因素,质的因素包括被解释变量为质的因素和解释变量为质的因素如果被解释变量为质的因素,主要是逻辑回归要涉及的内容2,第一节 虚拟变量的概念与设定,一、虚拟变量的概念 在经济计量分析中, 经常会碰到所建模型的被解释变量不仅受诸如收入、产量、价格、 成本、需求、投资等数量变量的影响,而且也受到诸如战争、自然灾害、国际环境、季节变动以及政府经济政策变动等质量变量的影响建立经济计量模型若不考虑这些质量变量的影响作用,显然是不适宜的3,,所以,在建立经济计量模型时,即要考虑数量变量,也要考虑质量变量但是,质量变量和数量变量不同,数量变量可以在事前规定好的尺度上,用不同的数值表现出来,质量变量却只能以属性、种类的不同具体形式表现出来4,例如,性别可表现为男或女;人种可表现为白种人和非白种人;宗教信仰可表现为教徒和非教徒;政府的经济政策可表现为改革开放前和改革开放后,如此等等5,,显然,这种不同的具体形式是无法直接引入经济计量模型中去的但由于这类变量通常表现为品质、属性、种类的出现或者未出现,所以我们可以根据质量变量的这一特征将其数量化。
6,,虚拟变量:给定某一质量变量某属性的出现为1,未出现为0,称这样的变量为虚拟变量7,,把哪种情况取0,哪种情况取 1 要视研究情况而定0和1只是一个符号而已,不代表他们有高低的意义8,虚拟变量主要是用来代表质的因素,但是有些情况下也可以用来代表数量因素例如建立储蓄函数时,“收入”显然是一个重要解释变量,虽然是“数量”因素,但是为了方便也可以用虚拟变量表示9,虚拟解释变量模型的设定因为质的因素的多少和这些因素特征的多少而引入的虚拟变量也会不同二、 虚拟解释变量的设定,10,,以一个最简单的虚拟变量模型为例,如果只包含一个质的因素,而且这个因素仅有两个特征,则回归模型中只需引入一个虚拟变量如果是含有多个质的因素, 自然要引入多个虚拟变量11,如果只有一个质的因素,且具有m个特征,那么如果是含有截距项的,就要引入m-1个虚拟变量;不含有截距项的, 应该引入m个虚拟变量,这就是虚拟变量的设定原则12,,【例5.1】假设有一个包括正常年份和非正常年份(亚洲金融危机或SARS的影响)居民消费的样本,并打算用这些数据估计消费函数由于在正常年份和非正常年份居民在消费水平上存在明显差异,所以一些外界的影响是一个重要的解释变量。
13,,用一个虚拟变量来表示这个质的因素,消费函数为,,,,式中,Yi=第个居民的消费水平,Xi=第个居民的收入水平,D为虚拟变量我们用D=1表示正常年份这一特征,用D=0来表示非正常年份,,(5.1),,,,,14,,1.用“1”来代表质的因素的哪个特征是可以任意设定的我们一般认为,“1”代表具有某些特征,但没有具体规定在上例中,也可以指定D=1时为非正常年份,而D=0就必然为正常年份在这种情况下,正常年份和非正常年份的消费函数分别为,,15,,,如果我们绘制图形,得到的结果仍然是一样的此时,β1<0,非正常年份的线低于正常年份的线,代表非正常年份的消费水平低于正常年份的消费水平16,,2.虚拟变量D=0所代表的特性或状态通常称为基础类型和其它特征或状态比较的意义上说,基础类型为对比的基础17,,模型中的系数β0 为基础类型的截距项,称为公共截距项;系数β1 称为差别截距系数,指的是 D 取 1 时截距系数和基础类型的截距系数的差异18,,,,,3.如果一个回归模型有截距项,而且这个质的因素又有两种特征,也就是将其分两类,则我们只需要引入一个虚拟变量如我们的例5.1所示如果一个回归方程有截距项,只有一个质的因素影响被解释变量,它有个m特征,我们就要引入m-1个虚拟变量;,19,,如果回归方程没有截距项,那么这个质的因素有多少个特征就要设多少个虚拟变量,这就是虚拟变量的使用原则。
20,,虚拟变量陷阱:如果虚拟变量设定不当,会使最小二乘法无解,称这种情况为虚拟变量陷阱21,引入两个虚拟变量对有截距项和没有截距项的情况分别讨论 (1)对有截距项的情况,我们如果设两个虚拟变量,则回归模型为,,,,,(5.2),22,式(5.2)也可表示为,,其中, ,显然如下等式成立5.3),(5.4),23,,式(5.4)表明模型(5.3)即原模型(5.2)中有完全的多重共线性,将导致最小二乘估计无解我们称该情景为掉入虚拟变量陷阱所以,在有截距项的情况下,如果一个质的因素有多少个特征就引入多少个虚拟变量是行不通的24,,,,,,(2)对没有截距的情况,我们如果设两个虚拟变量,,,,,,,,显然模型(5.5)中,解释变量D1,D2和X之间无完全的多重共线性可以使用普通最小二乘法估计式(5.5)的参数5.5),25,,,,,,,一 、截距变动模型和斜率变动模型,(一)包含一个虚拟变量的截距变动模型 假设只有一个定性因素影响被解释变量的变化,而且这个因素仅有两种特征,这时候只需要引入一个虚拟变量26,,例5.1描述了一个包括正常年份和非正常年份(亚洲金融危机或SARS的影响)居民消费的样本,并建立了虚拟变量计量模型。
27,对 β1 作t 检验,若 β1 显著地不为0,我们就认为正常年份和非正常年份居民在消费行为上的差异是明显的若 β1 >0,则正常年份的居民消费水平高于非正常年份的居民消费水平利用最小二乘法对式(5.1)进行估计,可得到,(5.6),28,,(二)斜率变动模型 在实际问题中,斜率单独变动出现的情形一般比较少,它指的是改变了变动的速率也就是弹性 例如城镇居民家庭与农村居民家庭的消费函数, 在边际消费倾向(斜率)上可能会有所不同,假设它们的消费函数在截距项没有区别29,,,,那么回归模型可记为,,,(5.7),其中,Yi=第个家庭的消费水平,Xi=第个家庭的收入水平,,,,30,,式(5.7)可以表示为,(5.8)(5.9),31,,,,,(三)包含多个虚拟变量的截距变动模型 如果一个质的因素仅有两种特征,只需引入一个虚拟变量但是,很多质的因素往往不只具有两个特征,例如全世界的国家可以分为发达国家、发展中国家、不发达国家32,,我国少数民族在很多问题上有差异,所以当把民族作为虚拟变量时,不能简单将其分为汉族和非汉族;季节因素是我们最常见的质的因素,它具有四个特征,按照前面的原则,我们要引入三个虚拟变量。
33,,例如,我们用季度资料研究各种商品消费额在季节上有没有什么区别?可以建立模型如下:,(5.10),其中,Yt=季度的消费,Xt=季度的收入,对于四个季度,我们引入了三个虚拟变量:,34,这里,第四季度为基础类型,其截距项为β0 而其它三个季度的截距项分别为 β0+ β1,β0+ β2 ,β0+ β3 β1,β2 , β3 代表季节变动引起的消费差异35,四个季度的回归模型分别为,(5.11)(5.12)(5.13)(5.14),36,,(四)截距和斜率同时变动模型 在多数情况下,质的因素不但对回归模型的截距有影响,而且还会改变模型的斜率37,,例如城镇居民和农村居民的消费函数不但在斜率上有差异,在截距上也是有可能不一致的,将两个问题同时考虑进来,我们可以得到回归方程,38,,,(5.15),式中,Yi=第个家庭的消费水平,Xi=第个家庭的收入水平,,,39,β1和 β3 分别表示城镇居民家庭和农村居民家庭的消费函数在截距和斜率上的差异式(5.15)可以表示为,(5.16)(5.17),40,,,,我们一般通过t 检验来判定它们之间是否有差异 1.若β1≠0 ,β3≠0,则为截距和斜率同时变动模型; 2.若 β1≠0,β3=0,则为截距变动模型; 3.若 β1=0,β3=0, 则表示城镇居民家庭和农村居 民家庭有着完全相同的消费模式; 4.若 β1=0,β3≠0,则为斜率变动模型,这种情况在现实中出现得不是很多。
41,,下面,以我国的农村和城市的消费样本为例,实际体会虚拟变量模型从建模到检验再到估计参数最后下结论的全过程 【例5.2】已有数据资料为我国城镇居民家庭1955年至1985年人均收入和人均储蓄根据经验,也就是先验信息,再通过某些检验,我们发现储蓄和收入有很强的相关关系而且收入的变化会引起储蓄的变化42,,假定它们之间为线性关系,我们可以建立储蓄模型如下,式中,St=人均储蓄,Xt=人均收入,t=年份(t=1955,1956,…,1985)5.18),43,,把1955年作为基期并把该期的价格水平定为100,再分别扣除包含在和中的物价上涨因素用最小二乘法估计式(5.18),得到,,,R2 =0.833, DW=0.398,(5.19),44,,模型(5.19)包含了这样一个假定,那就是在1955到1985年期间我国城镇居民家庭的储蓄行为大体保持不变45,,这一假定实际上是行不通的,因为在十一届三中全会召开之后,居民的收入大大增加,而且与居民储蓄有关的许多重要因素在1979年以后发生了明显变化在改革开放之前, 我国居民的收入水平仅仅能够维持温饱水平,根本不可能有多少储蓄46,,1979年以后,我国居民的收入水平大幅度提高,同时,居民储蓄也在大幅度增长。
从这些可以看出来,1979年前后两个时期,我国居民的边际储蓄倾向有显著性差异47,,在改革开放前的大多数年份, 我国的消费市场常常是供不应求, 许多商品要国家下达计划指标, 居民凭票证购买, 经常出现的问题是顾客即使有钱也难买到需要的商品, 就不得不把钱存起来这时候的储蓄就带有非自愿的性质48,而在1979年以后, 物资逐渐丰富, 商品的买卖也取消了票证的限制, 消费者储蓄的主要目的之一是购买高档耐用消费品,储蓄不再具有“被迫”的性质49,,为了验证城镇居民的储蓄行为是否有显著变化, 可以建立下面的截距和斜率同时变动模型5.20),式中, St和Xt仍代表人均储蓄和人均收入, D为虚拟变量,,50,,,,用最小二乘法估计式(5.20), 可以得到,(5.21),51,,其中, 参数估计值下面括号中的数字为统计值显然, 在1979年前后储蓄模型的截距和斜率有明显差异式(5.21)可以写为两个方程,(5.22)(5.23),52,,由以上模型可知,我国城镇居民的边际储蓄倾向在1979年以前仅为0.004, 也就是收入增加1元, 储蓄平均增加4厘; 而从1979年到1985年这段时间, 城镇居民的边际储蓄倾向增至0.256。
53,,然而, 在式(5.19)中得到的边际储蓄倾向却是0.17很明显, 式(5.19)既不代表改革开放之前城镇居民的消费行为, 也不能正确描述1979年以后城镇居民储蓄与收入之间的关系54,,我们单从模型的拟合也可以看出引进虚拟变量可以改善估计效果式(5.19)中的随机误差项存在正自相关(DW=0.398), 拟合优度效果也不太好(R2=0.833)引入虚拟变量后的模型消除了自相关(DW=1.67), 判定系数也上升到0.967所以, 虚拟变量的引入很有必要55,,,二、多个质的因素的虚拟变量模型,我们讨论的回归模型只包括一个质的因素,但是在很多情形下,往往有两个以上的质的因素影响回归模型的被解释变量例如, 在考察居民的食品消费行为时, 可以考虑的质的因素有居民的性别、民族、受教育程度、地理区域等等56,,再如, 除收入水平外, 冰琪凌消费量还会受到季节和地区等质的因素影响这些质的因素可能不仅仅改变模型的截距和斜率, 质的因素之间也往往有相互影响例如, 高收入水平和低收入水平的居民在家电消费量上的差异会随着季节不同而改变的 为了方便, 我们建立以下简单的食品消费模型 。