第五章 经典单方程计量经济学 模型:专门问题§5.1 虚拟变量§5.2 滞后变量§5.3 设定误差§5.4 建模理论§5.1 虚拟变量模型一、虚拟变量的基本含义二、虚拟变量的引入三、虚拟变量的设置原则一、虚拟变量的基本含义• 许多经济变量是可以定量度量的,如:商品需求 量、价格、收入、产量等• 但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾害对 GDP的影响,季节对某些产品(如冷饮)销售的影响等等• 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的 根据这些因素的属性类型,构造只取“0”或“1”的 人工变量,通常称为虚拟变量(dummy variables ),记为D• 例如,反映文程度的虚拟变量可取为:1, 本科学历D=0, 非本科学历一般地,在虚拟变量的设置中:• 基础类型、肯定类型取值为1;• 比较类型,否定类型取值为0概念:同时含有一般解释变量与虚拟变量的模型称为虚拟 变量模型或者方差分析(analysis-of variance: ANOVA)模型。
一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金,Xi为工龄,Di=1,若是男性,Di=0,若是女性二、虚拟变量的引入• 虚拟变量做为解释变量引入模型有两种基本方 式:加法方式和乘法方式企业男职工的平均薪金为:上述企业职工薪金模型中性别虚拟变量的引入采 取了加法方式在该模型中,如果仍假定E(i)=0,则企业女职工的平均薪金为:1、加法方式几何意义:• 假定2>0,则两个函数有相同的斜率,但有不同 的截距意即,男女职工平均薪金对教龄的变化率 是一样的,但两者的平均薪金水平相差2 • 可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是否 有显著差异02又例:在横截面数据基础上,考虑个人保健支出 对个人收入和教育水平的回归教育水平考虑三个层次:高中以下,高中,大学及其以上 模型可设定如下:这时需要引入两个虚拟变量:在E(i)=0 的初始假定下,高中以下、高中、大学 及其以上教育水平下个人保健支出的函数:• 高中以下:• 高中: • 大学及其以上:假定3>2,其几何意义:• 还可将多个虚拟变量引入模型中以考察多种“定 性”因素的影响。
如在上述职工薪金的例中,再引入代表学历的虚拟 变量D2:本科及以上学历本科以下学历职工薪金的回归模型可设计为:•女职工本科以下学历的平均薪金:•女职工本科以上学历的平均薪金:于是,不同性别、不同学历职工的平均薪金分别为 :•男职工本科以下学历的平均薪金:•男职工本科以上学历的平均薪金:2、乘法方式• 加法方式引入虚拟变量,考察:截距的不同, • 许多情况下:往往是斜率就有变化,或斜率、截 距同时发生变化 • 斜率的变化可通过以乘法的方式引入虚拟变量来 测度例:根据消费理论,消费水平C主要取决于收入水 平Y,但在一个较长的时期,人们的消费倾向会发生 变化,尤其是在自然灾害、战争等反常年份,消费 倾向往往出现变化这种消费倾向的变化可通过在 收入的系数中引入虚拟变量来考察• 这里,虚拟变量D以与X相乘的方式引入了模型中 ,从而可用来考察消费倾向的变化 • 假定E(i)= 0,上述模型所表示的函数可化为:正常年份:反常年份:如,设消费模型可建立如下 :当截距与斜率发生变化时,则需要同时引入加 法与乘法形式的虚拟变量• 例5.1.1,考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。
表5.1.1中给出了中国1979~2001年以城乡储蓄存 款余额代表的居民储蓄以及以GNP代表的居民收入的数据设置在生成虚拟数据d1=0,样本1979-1990,d1=1, 样本1991-2001,在生成序列中即可!以Y为储蓄,X为收入,可令:• 1990年前: Yi=1+2Xi+1i i=1,2…,n1 • 1990年后: Yi=1+2Xi+2i i=1,2…,n2 则有可能出现下述四种情况中的一种: (1) 1=1 ,且2=2 ,即两个回归相同,称为重合回 归(Coincident Regressions); (2) 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归(Parallel Regressions); (3) 1=1 ,但22 ,即两个回归的差异仅在其斜率 ,称为汇合回归(Concurrent Regressions); (4) 11,且22 ,即两个回归完全不同,称为相 异回归(Dissimilar Regressions)可以运用邹氏结构变化的检验这一问题也可通过 引入乘法形式的虚拟变量来解决。
将n1与n2次观察值合并,并用以估计以下回归:Di为引入的虚拟变量:于是有:可分别表示1990年后期与前期的储蓄函数在统计检验中,如果4=0的假设被拒绝,则说 明两个时期中储蓄函数的斜率不同• 具体的回归结果为:(-6.11) (22.89) (4.33) (-2.55) 由3与4的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的,储蓄函数分别为:1990年前:1990年后:=0.98363、临界指标的虚拟变量的引入在经济发生转折时期,可通过建立临界指标的虚 拟变量模型来反映例如,进口消费品数量Y主要取决于国民收入X 的多少,中国在改革开放前后,Y对X的回归关系明 显不同这时,可以t*=1979年为转折期,以1979年的国 民收入Xt*为临界值,设如下虚拟变量:则进口消费品的回归模型可建立如下:OLS法得到该模型的回归方程为则两时期进口消费品函数分别为:当t
例已知冷饮的销售量Y除受k种定量变量Xk的影 响外,还受春、夏、秋、冬四季变化的影响,要考察 该四季的影响,只需引入三个虚拟变量即可:则冷饮销售量的模型为:• 在上述模型中,若再引入第四个虚拟变量则冷饮销售模型变量为:其矩阵形式为:如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:显然,(X,D)中的第1列可表示成后4列的线性组合 ,从而(X,D)不满秩,参数无法唯一求出这就是所谓的“虚拟变量陷井”,应避免• SMPL 1 8 样本期调成1998年 • GENR D1=0 输入虚拟变量的值 • SMPL 9 16 样本期调成1999年 • GENR D1=1 输入虚拟变量的值 • SMPL 1 16 样本期调成1998~1999 年 • GENR XD=X*D1 生成XD的值 • LS Y C X D1 XD 利用混合样本估计模 型命令格式。