《虚拟变量回归模型》由会员分享,可在线阅读,更多相关《虚拟变量回归模型(39页珍藏版)》请在金锄头文库上搜索。
1、计量经济学讲义1安徽大学经济学院虚拟变量回归模型虚拟变量回归模型安徽大学经济学院计量经济学讲义醇靖倒弯欣伴什皱庆蜡毁妮函搪呈胀枣谩积席杭贷歇垦遏浪极毖五坐拍膳虚拟变量回归模型虚拟变量回归模型计量经济学讲义2安徽大学经济学院6.1 虚拟变量回归模型引入男女食品消费支出差异分析例1(支出、收入单位为美元)年龄女性食品支出 女性收入 男性食品支出 男性收入 65221714952253320437问题:难以用性别作为解释变量,不易描述问题。涝银塌仑案育谜邪铣烦蔽鹅厅乖办润叔苹顾训令璃袱钡灶咐肥诀喀搞条堑虚拟变量回归模型虚拟变量回归模型计量经济学讲义3安徽大学经济学院6.1 虚拟变量回归模型引入男女食
2、品消费支出差异分析:年龄食品支出收入性 别 652217149521 652533204370以性别作为解释变量具有特殊性,即只取1或0两个值。在实际生活中我们会遇到更多的虚拟变量。散借籽岳军纬暴青闸刹腔说拒硬宫糜沟链毯该则值税蛹掠毋浩攘姜棵叔撤虚拟变量回归模型虚拟变量回归模型计量经济学讲义4安徽大学经济学院6.1 虚拟变量回归模型引入(6.1) 回归结果显示:男性平均食品支出大约为3177美元,女性平均食品支出大约为31775032674美元。从数值上看两者差别为503美元,差异比较明显。但是估计的Di不是统计显著的,因为t值仅为1.5267,由此对应的p值为15%。这意味着男女食品支出的数
3、值存在差异,但差异并不显著。这一结果有意义吗?么诸誓粥谢诲继糯呜题倦火权亿茵瘫五屯弗嫂签札呆彬瞥颧捌俞斋钢穆喧虚拟变量回归模型虚拟变量回归模型计量经济学讲义5安徽大学经济学院6.1 虚拟变量回归模型引入考虑一般虚拟变量的回归方程: 其中,Y年食品支出(美元),Di1,女性;Di0,男性。 男性食品支出的期望: 女性食品支出的期望:(6.2)(6.3) 截距B1表示男性食品平均支出,“斜率”系数B2表示女性与男性食品支出差异,B1B2表示女性食品支出。B2不再称之为斜率,而是称为差别截距系数。(6.4)篇重挺般舟垂咏弯薄编馆睹薛农学堑基愧运笛扶磁慧宪肯畔辑眺肇袜啮音虚拟变量回归模型虚拟变量回归模
4、型计量经济学讲义6安徽大学经济学院其中,Y年食品支出(美元),X收入(美元),D1,女性;D0,男性。6.2 一个定量变量一个定性变量模型 食品支出差异只与性别决定的吗?显然不是!考虑下列模型:(6.5)(6.6)滨柞愉县已每抨车忽汤农辕瓜忱掏盎倍九绅瓦跳伸膳刊囊蕾赣靳组膛商悠虚拟变量回归模型虚拟变量回归模型计量经济学讲义7安徽大学经济学院 回归模型结果分析: (1)在方程(6.1)中,虚拟变量系数是统计不显著的,而这里显著; (2)方程(6.6)是一多元回归模型,当收入为常数时,男性平均食品支出为1506美元;女性为15062291277美元,且两个均值显著不同; (3)如果不考虑性别差异,
5、则收入系数为0.0589,表示无论男女收入增加一美元,食品支出增加6美分,即边际食品消费倾向为6美分。6.2 一个定量变量一个定性变量模型拇唤菱乔钉哨陋酿带胁睬残忧款德狈狈皇敞添政帘枣悯俭汇摄姜惦愧肩混虚拟变量回归模型虚拟变量回归模型计量经济学讲义8安徽大学经济学院 女性平均食品消费支出:6.2 一个定量变量一个定性变量模型 男性平均食品消费支出: 上述两个回归方程只是截距不同,斜率相同。捌贫效停浮功瞩钱障墓部抢硬冀抒贸誊缎饭扯倒幂禄捣坊愁耿袜卸桔紊鞠虚拟变量回归模型虚拟变量回归模型计量经济学讲义9安徽大学经济学院6.2 一个定量变量一个定性变量模型 问题:如果不考虑性别的影响,食品消费边际倾
6、向为6美分,那么考虑性别情况,男女的边际食品消费倾向之间有差异吗?换句话说,方程(6.5)的斜率系数B3会显著不同吗?如果证明了显著不同,则由方程(6.5)和根据它得到的回归结果就值得怀疑了,这个问题稍后继续讨论。膜嚼桐诌阑淀漾役报茨揉帚孕铁仗骡浴瞪侦墨记历喻疡俱漆箭绎耻炼竣往虚拟变量回归模型虚拟变量回归模型计量经济学讲义10安徽大学经济学院6.3 包含一个定量变量一个多分定性变量模型 实际生活中定性变量的概念并不陌生,例如“男与女”,“是与否”,“好与坏”等等,这些都是二分定性变量。“定性”的含义只是表示变量的性质,不反映变量的程度。 除二分定性变量外,还有多分定性变量,也称之为多分类变量,
7、例如“中、东、西”、“高、中、低”、“富裕、小康、温饱、贫困”等。 猩灶猩烁啤泊骸旋署嵌雨诀导骄净图送堤阿兵笨纯赃譬兴朴裂菠昌桃趁踊虚拟变量回归模型虚拟变量回归模型计量经济学讲义11安徽大学经济学院6.3 包含一个定量变量一个多分定性变量模型州州教师工资教师工资PayPay学生支出学生支出PPSPPS地区地区D2D2D3D3ME195833346110NH202633114110MD271864349201DC339905020201CA291323608300WY272245440300 上表给出的是美国51个不同州(外加哥伦比亚特区)公立学校教师的平均工资水平和每个学生平均支出的状况。现在
8、的问题是:将不同州分成“中东北、南部和西部”三个不同地区,分析不同州教师的工资是否存在显著差异?婚抨衣州休氛圣疤坦啮滩野阔溃佳堰溜碑惦顾明碗枷尽锥项尹譬悦剧柱郊虚拟变量回归模型虚拟变量回归模型计量经济学讲义12安徽大学经济学院6.3 包含一个定量变量一个多分定性变量模型 现考虑下列模型: AASi = B1 + B2*D2i + B3*D3i + ui其中,AAS公立教师平均工资D21,中东北;0,其它地区D31,南部地区;0,其它地区由于定性变量“地区”是三分类,所以需要两个虚拟变量,西部作为基准类。(6.7)弦搭榜进饱漓娄养推抱蹋型蝴归镣迷巧阻驹艾则响崎锐湃爸雍情梯钮烧恼虚拟变量回归模型虚
9、拟变量回归模型计量经济学讲义13安徽大学经济学院6.3 包含一个定量变量一个多分定性变量模型中东北部公立学校教师平均工资:(6.8)E(AASi|D2i=0, D3i=1)= B1 + B3E(AASi|D2i=0,D3i=0) = B1E(AASi|D2i=1, D3i=0)= B1 + B2南部地区公立学校教师平均工资:西部地区公立学校教师平均工资:(6.9)(6.10)共同截距B1表示虚拟变量赋值为0的地区平均ASS。差别斜率B2和B3表示不同地区AAS均值差异。既然西部地区是基准类,因此所有工资比较都与西部有关。乞福播撇亏恶埂孕侥埂馒示叶冲胞寐痉贯瀑衔绎饵村陪胎谈枷窜铬讹诛飞虚拟变量回
10、归模型虚拟变量回归模型计量经济学讲义14安徽大学经济学院6.3 包含一个定量变量一个多分定性变量模型 *表示在5的水平下统计显著;*表示在5的水平下不是统计显著的。 回归结果表明:西部平均ASS约为26159美元。D2i的差别截距系数不是统计显著的,即中东北部平均ASS比西部是统计无差异的。D3i的差别截距系数是统计显著的,即南部地区平均ASS比西部低3265美元。 虚拟变量仅仅指出了差异的存在,但并未表明导致差异性的原因。(6.11)岭摸畏宙氰帝梧翻四胞悍彬第罗龙扭舒趴拐治滁收轿釉踏蹲械凡污耶辖驾虚拟变量回归模型虚拟变量回归模型计量经济学讲义15安徽大学经济学院6.3 包含一个定量变量一个多
11、分定性变量模型 比较回归结果(6.11)和(6.12)得到两个相反的结论:如果PPS不变,则中东北地区与西部地区ASS均值存在显著差异,西部高出1674美元;而西部与南部地区ASS没有显著差异。 斜率系数3.29表示,每个学生的公共教育支出每增加1美元,则公立学校教师平均工资提高约3.29美元。(6.12) 将学生的公共教育支出PPS引入模型,得到以下回归模型:公症打蝇酪一峭妮亡掌销甘泼期隧屉盛蕉鸟鲤丹都锦然创莉决一匝妈换磊虚拟变量回归模型虚拟变量回归模型计量经济学讲义16安徽大学经济学院6.3 包含一个定量变量一个多分定性变量模型(6.12) 问题:哪个模型更好些?(6.11)楔戎导大锚虹削
12、齿渭奈鲤羚顶健窟篷仍煤护淀骋竞诗谬李啊矽更黍扩肢蔑虚拟变量回归模型虚拟变量回归模型计量经济学讲义17安徽大学经济学院6.4 包含一个定量变量和多个定性变量的回归模型多个不同属性的定性变量作为解释变量引入回归模型:(6.13)破蹈令惧垛框炉处屏侵视赤较热丧尹庇谈锥咆禄咬帕南温炮坯丁妓赠根倡虚拟变量回归模型虚拟变量回归模型计量经济学讲义18安徽大学经济学院 回归结果解释:(1)基准类是白种和男性/或西班牙男性;(2)如果教育水平和种族为常量,则女性小时收入比男性大约少2.36美元;如果教育水平和性别为常量,则非白种人/非西班牙人小时收入平均比基准类大约少1.73美元;(3)如果不考虑性别和种族影响
13、,则受教育年限每增加一年,平均工资提高约0.8美元。(6.14) 从容量为528个的数据得到估计的回归模型:6.4 包含一个定量变量和多个定性变量的回归模型讶养琉尘晓茨耍谍赚驶姆连俱昭假垦风脯淖馋捍杏须蓟进吱豁琴帚棋哉撞虚拟变量回归模型虚拟变量回归模型计量经济学讲义19安徽大学经济学院多个不同属性的定性变量作为解释变量引入回归模型:(6.13)(6.15)非白种人/非西班牙女性比非白种人/非西班牙男性工资低。即定性变量D2和D3之间存在交互影响,它们对Y的影响不像方程(6.13)那样简单,而是倍增的。6.5 多个定性变量的交互影响蓉幅小们茬敖瘤贾窟菲式姑囤鹅熬颁港盏饶驴掠耙谢乏傀椒举沤筋喜燕黎
14、虚拟变量回归模型虚拟变量回归模型计量经济学讲义20安徽大学经济学院虚拟变量的乘积称为交互影响虚拟变量,它给出了两个定性变量的联合影响。(6.16)方程(6.16)表示非白种人/非西班牙女性的平均小时工资函数。其中,B2女性的差别效应B3非白种人/非西班牙人的差别效应B4非白种人/非西班牙人女性的差别效应还可以对方程(6.16)进行统计检验,看统计检验是否显著。6.5 多个定性变量的交互影响图踌砖帧夫斋讳乞俩愧骤桔驰谊腔藐倒弦纺辰绷残嗜败瑚午号淆仗堂覆丽虚拟变量回归模型虚拟变量回归模型计量经济学讲义21安徽大学经济学院对含有一个定量与一个二分定性变量模型:(6.17)在方程(6.17)中增加了交
15、叉变量DiXi。6.6 定量与定性变量交互影响的模型(6.5)上述模型的修正模型为:堪祝栅失矮棕田诌欠泥佩逆码清抒仇债聪笼朔贯童腊猾摩吸舒哭煞飘蛮谰虚拟变量回归模型虚拟变量回归模型计量经济学讲义22安徽大学经济学院男性(Di0)平均食品支出函数:(6.17)B4称为差别斜率系数(或斜率漂移),它表示了不同性别或两种分类下收入变量系数的差异有多大。6.6 定量与定性变量交互影响的模型(6.5)女性(Di1)平均食品支出函数:碍苏掏岗坪琉琢浇耐官斋烦瓮页猎辖蝗祷娩郡询榔加屎怨升天决治戏龋贰虚拟变量回归模型虚拟变量回归模型计量经济学讲义23安徽大学经济学院 根据差别截距系数B2和差别斜率系数B4的统
16、计显著性,可以区分女性与男性食品支出函数是截距不同还是斜率不同,或是都不同。6.6 定量与定性变量交互影响的模型YXOYXOB20B40B20B40a)一致回归b)平行回归矛浦攻须渤侮岁佣凶话噪俏驳浸辕漓秩圆吱彬溜匝白副钦隶廷斥抹模填吟虚拟变量回归模型虚拟变量回归模型计量经济学讲义24安徽大学经济学院6.6 定量与定性变量交互影响的模型YXOYXOB20B40B20B40c)并发回归d)相异回归宵泻鱼哄湃通莹峦桩缆兔阐匠术脾第筑挺晰惑尖每虎惺去敝姥非择蔗泵队虚拟变量回归模型虚拟变量回归模型计量经济学讲义25安徽大学经济学院6.6 定量与定性变量交互影响的模型(6.17)利用(6.17)模型得到
17、如下回归结果:变量系数标准误t统计量p概率C1432.58248.47825.7654040.0004D-67.89322350.7645-0.1935580.8513X0.0615830.0083497.3760910.0001D.X-0.0069240.012988-0.4845950.6410R20.930459因变量均值2925.250修正R20.904381因变量标准误604.3869回归标注误186.8903F统计量35.68003残差平方和279423.9Prob(F统计量)0.000056含呆角胎乙玻益士康灰自匪锌恩摆样披卑峪吹烬条炉虐粉活耻赔者尝宏备虚拟变量回归模型虚拟变量回
18、归模型计量经济学讲义26安徽大学经济学院6.7 虚拟变量在季节调整中的应用 当使用含有季节因素的经济数据进行回归分析时,可以对数据进行季节调整消除原数据带有的季节性影响,也可以使用虚拟变量描述季节因素,进而可以同时计算出各个不同季度对经济变量的不同影响。如果用虚拟变量,这时包含了4个季度的4种分类,需要建立3个虚拟变量。用Qi表示第i个季度取值为1,其他季度取值为0的季节虚拟变量,显然Q1 + Q2 + Q3 + Q4 = 1 ,如果模型中包含常数项,则只能加入Q1,Q2,Q3 ,否则模型将因为解释变量的线性相关而无法估计,即导致虚拟变量陷阱问题。当使用月度数据时,方法与上述类似,但需要有11
19、个虚拟变量。 爽悯诵浪揣贰壹宗淆团肌阴懒狗药终账噶受锣佛蹋掠演噬购陛锗贺昧徊龋虚拟变量回归模型虚拟变量回归模型计量经济学讲义27安徽大学经济学院6.7 虚拟变量在季节调整中的应用窜踩侈篆魔诽活馏淖迫砚木挠敞董竣贯灶们脾漏锡镣渴蒂锈缺非存杂酋酌虚拟变量回归模型虚拟变量回归模型计量经济学讲义28安徽大学经济学院6.7 虚拟变量在季节调整中的应用瞬纲咱揩霸昼找窑遁赵尖咖男替茫猎疵脊宏叛搞栓干仑域岿质昌席称蛰赛虚拟变量回归模型虚拟变量回归模型计量经济学讲义29安徽大学经济学院6.7 虚拟变量在季节调整中的应用 可以看出包含虚拟变量的方程明显地改进了拟合能力。这种季节调整方法是以季节变动要素不变并且服从
20、于加法模型为前提,否则应该首先运用X-12或其他方法对数据进行季节调整。 不含虚拟变量的拟合结果含虚拟变量的拟合结果慈勺官厦慈节熬舀鲍臆尚沁豢陋爽侵充株萧竞常性刺姿弧卷淆劫腰祸滇塔虚拟变量回归模型虚拟变量回归模型计量经济学讲义30安徽大学经济学院6.8 线性概率模型(LPM)因变量为虚拟变量 在以前的模型中因变量皆为定量变量,虚拟变量都是作为解释变量引入方程的。 但有时我们需要根据实际情况判断“是”与“否”。例如根据年收入是否能贷到房款。是否得到房贷年收入Y拟合值032-0.1286381640.6884101720.8926720440.1777550480.2798861760.99480
21、21801.0969330520.382017验幕涧籍拓欺耍骑浸嗅伍溪棵侦忍蹬斤汤这档痰渤龄皂朗飘誉功灼渣迪呕虚拟变量回归模型虚拟变量回归模型计量经济学讲义31安徽大学经济学院6.8 线性概率模型(LPM)因变量为虚拟变量 Y=1,表示得到房贷,否则为0;X表示年家庭收入。考虑下列模型: Yi = B1 + B2*Xi + ui (6.20)模型(6.20)不是普通的线性回归方程,由于Y只能取0与1,所以不能把斜率系数B2解释为单位X变动引起Y的变动率。形如式(6.20)的模型称之为LPM模型。 E(Yi|Xi)可以解释为给定Xi下,事件发生的概率,即E(Yi1|Xi),此条件概率依X线性变化
22、。本例E(Yi|Xi)表示不同收入水平下申请到房贷的概率。涟吼级虞易籽素蔬颅堪誉牧冗狙席炒穗凸璃牟砒唤搬酒畏摹疵克束馆夷雁虚拟变量回归模型虚拟变量回归模型计量经济学讲义32安徽大学经济学院6.8 线性概率模型(LPM)因变量为虚拟变量 斜率系数B2解释为X单位变动引起的Y1概率的变化。根据(6.20)得到的Yi的估计值就是预测Y1的概率,b2是B2的估计值。 Yi = B1 + B2*Xi + ui (6.20) 当Y是二分变量时,如果按照上述理解来解释回归方程(6.20),那么能否认为OLS估计合适呢?我们必须回答四个必须回答的问题。描姻亚概沙塞坛谨见卧扫淳考妊旭及匙泄惺帕碍况蜕屯强仅燃睬试
23、恼秀畦虚拟变量回归模型虚拟变量回归模型计量经济学讲义33安徽大学经济学院6.8 线性概率模型(LPM)因变量为虚拟变量 (1)虽然Y取值为1或0,但无法保证Y的估计值介于0,1之间,实际上Yi可能为负或大于1; (2)由于Y是一个二分变量,所以误差项也是一个二分变量。也即是ui服从正态分布的假定不成立,而是服从二项概率分布; (3)可以证明误差项是异方差,而古典线性回归模型一直假定误差项是同方差的; (4)由于Y仅仅取值0 和1,所以R2无实际意义。犹迎咖打廊判坛屈骗韵徘抨那呛政啪期盎刨骋柑贸握趟钟班夕雇冤塞嘛杖虚拟变量回归模型虚拟变量回归模型计量经济学讲义34安徽大学经济学院6.8 线性概率
24、模型(LPM)因变量为虚拟变量 回答上述四个问题: (1)Y的估计值Yi可能为负或大于1,实践中,如果Y的估计值为负,则取0;如果Y的估计值大于1,则取1; (2)如果样本容量足够大,二项分布收敛于正态分布。即ui服从正态分布的假定在大容量下可认为是成立的; (3)关于误差项是异方差的情形,以后讨论; (4)由于Y仅仅取值0 和1,所以R2无实际意义。本身无意义的东西不去讨论。哟诈芳历迸沪粤苞坍寂最判吭舅赚才浓颊哨秽触膳媳浦赤豪庞痢嗜疼整瞩虚拟变量回归模型虚拟变量回归模型计量经济学讲义35安徽大学经济学院6.8 线性概率模型(LPM)因变量为虚拟变量 回过头来需要仔细讨论LPM模型: Yi =
25、 B1 + B2*Xi + ui (6.20) 其主要问题是: 它假设了概率随X值线性变化,即X始终保持恒定的递增效应。因此,如果Y表示房屋所有权,X表示收入,则LPM假设了无论X1000或X10000,随着X的增加,Y的概率都线性增加。事实上,预期Y1的概率随X是非线性增加的。 在收入水平较低时,一个家庭不可能拥有自己的房子,但对于收入水平相对较高的家庭,他们已经拥有住房。收入超过了这个水平,再增加收入对拥有住房的概率没太大影响。紧棚疤吉臆葫巩檀阻拷忆隐删哟愚童虫滨慑炮警卖合弦诵涩沁臂耙枫谦复虚拟变量回归模型虚拟变量回归模型计量经济学讲义36安徽大学经济学院6.8 线性概率模型(LPM)因变
26、量为虚拟变量 应用例1的数据建立了一个LPM模型,反映房贷于收入的关系: Yi0.94560.0255Xi t (-7.6984) (12.5153) R2=0.8047 回归模型解释如下:收入每增加1美元,获得房贷的概率大约0.0255。截距值没有实际意义。需要特别注意的是LPM模型的R2。本例中R2值较高,但并不表示有重要的意义。因为如果观察值比较集中地聚集在0或1附件,就会得到一个较高的R2值。 显然获得房贷的概率随收入水平以固定增速0.0255线性增加,解释不妥。荧椅愁坪鸿咒狐童怕呐佰魄躺荧棚狈展隘杉馏彰翌探茎肖兜软饭攀线账腿虚拟变量回归模型虚拟变量回归模型计量经济学讲义37安徽大学经
27、济学院虚拟变量回归模型类型二分定性变量回归模型定性变量定量变量回归模型多分定性变量回归模型多个定性变量的交互模型定性变量与定量变量的交互模型因变量为定性变量回归模型6.9 总结啼牺肿姆攒赁午唐诧夹薯森叉瘸拈瘴墒楚拍扯镍键驹碾湍泉档亡耻斩挚彤虚拟变量回归模型虚拟变量回归模型计量经济学讲义38安徽大学经济学院6.9 总结注意虚拟变量适用条件:回归模型包含了一个常数项,那么虚拟变量的个数必须比每个定性变量的分类数少一;虚拟变量系数的解释与基准类有关;若模型包含多个定性变量,而且每个定性变量有多种分类,引入模型虚拟变量将消耗大量的自由度,避免虚拟变量的个数超过样本观察值的个数。他熬抒裔唯租倪窝诡镰讹饺顺怎琉翰赴黄挪丹镍溅埂咳仪篆迂醉蓉忍宵棍虚拟变量回归模型虚拟变量回归模型计量经济学讲义39安徽大学经济学院精品课件资料分享精品课件资料分享 SL出品徐帕棵抓饲煞募丰舷堡噎稼啡嚣凄褂巳谷楼毙砾镣宙究砾式沾册螟尔钎芒虚拟变量回归模型虚拟变量回归模型