计量经济学第7章含有定性信息的多元回归分析.doc

上传人:M****1 文档编号:545279233 上传时间:2023-11-25 格式:DOC 页数:26 大小:398.51KB
返回 下载 相关 举报
计量经济学第7章含有定性信息的多元回归分析.doc_第1页
第1页 / 共26页
计量经济学第7章含有定性信息的多元回归分析.doc_第2页
第2页 / 共26页
计量经济学第7章含有定性信息的多元回归分析.doc_第3页
第3页 / 共26页
计量经济学第7章含有定性信息的多元回归分析.doc_第4页
第4页 / 共26页
计量经济学第7章含有定性信息的多元回归分析.doc_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《计量经济学第7章含有定性信息的多元回归分析.doc》由会员分享,可在线阅读,更多相关《计量经济学第7章含有定性信息的多元回归分析.doc(26页珍藏版)》请在金锄头文库上搜索。

1、第7章 含有定性信息的多元回归分析:二值(或虚拟)变量 在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。在每种情况下,变量的大小都传递了有用的信息。在经验研究中,我们还必须在回归模型中考虑定性因素。一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。 本章的绝大部分内容都在探讨定性自变量。我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。这几

2、节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。7.1 对定性信息的描述 定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。在所有这些例子中,有关信息可通过定义一个二值变量(binary

3、 variable)或一个0-1变量来刻画。在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummy variable),尽管这个名称并不是特别形象。问题7.1假设在一项比较民主党和共和党候选人之间选举结果的研究中,你想标明每个候选人所在的党派。在这种情形中,名称party是二值变量的一个明智选择吗?更好的名称是什么? 在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。比如,在一项对个人工资决定的研究中,我们可能定义female为一个虚拟变量,并对女性取值1,而对男性取值0。这种情形中的变量名称就是取值1的事件。通过定义male在一个人为男性时取值1并在一个人为女性

4、时取值0,也能刻画同样的信息。这两种情况都比使用gender更好,因为这个名称没有指出虚拟变量何时取值1:gender=1对应于男性还是女性?虽然怎样称呼变量对得到回归结果而言并不重要,但它总有助于选择那些使方程和阐述都更清晰的变量。 表7.1 WAGE1.RAW中的局部数据列表个人编号wageeducexperfemalemarried13.101121023.2412221133.001120046.008440155.301270152511.56165015263.5014510假设我们在工资的例子中已选择了female来表示性别。此外,我们还定义了一个二值变量married,并在一个

5、人已婚时取值1,而在其他情况下取值0。表7.1给出了可能得到的一个数据集的部分列表。我们看到,第1个人为女性并且未婚,第2个人为女性并且已婚,第3个人为男性并且未婚,等等。 我们为什么要用数值0和1来描述定性信息呢?在某种意义上,这些值是任意的:用任意两个不同的数值都是一样的。使用0-1变量来刻画定性信息的真正好处,像我们将看到的那样,在于它导致回归模型中的参数有十分自然的解释。7.2 只有一个虚拟自变量 我们如何在回归模型中引入二值信息呢?在只有一个虚拟解释变量的最简单情形中,我们只在方程中增加一个虚拟变量作为自变量。比如,考虑如下决定小时工资的简单模型: (7.1)我们用表示female的

6、参数,以强调虚拟变量参数的含义;以后,无论如何,我们还是使用最方便的符号。在模型(7.1)中,只有两个被观测因素影响工资:性别和受教育水平。由于对女性female=1,而对男性female=0,所以参数具有如下含义:给定同等受教育程度(和同样的误差项u),是女性与男性之间在小时工资上的差异。因此,系数决定了是否对女人存在歧视:如果0,那么在其他因素的相同水平下,女人总体上挣得要比男人少。用期望的术语来讲,如果我们假定了零条件均值假定E(ufemale, educ)=0,那么 = E(wagefemale=1, educ)- E(wagefemale=0, educ).由于female=1对应于

7、女性和female=0对应于男性,所以我们可以更简单地把这个模型写成 = E(wagefemale, educ)- E(wagemale, educ). (7.2)这里的关键在于,在两个预期中,受教育水平是相同的;差值只是由于性别所致。这种情况可以在图上描绘成男性与女性之间的截距迁移(intercept shift)。在图7.1中,给出了0的情形,从而男人比女人每小时都多挣一个固定的数量。这个差距与受教育水平无关,这就解释了为什么女人和男人的工资-受教育变化关系是平行的。图7.1 在0情况下的图示这里,你可能想知道为什么我们没有在(7.1)中还包括一个虚拟变量male,它对男性取值1和对女性取

8、值0。原因在于,这样做是多余的。在(7.1)中,男性线的截距是,女性线的截距是+。由于只有两组数据,所以我们只需要两个不同的截距。这意味着,除了之外,我们只需要一个虚拟变量;我们已经选择了针对女性的虚拟变量。由于female+male =1意味着male是female的一个完全线性函数,所以使用两个虚拟变量将导致完全多重共线性。包括两个性别的虚拟变量是所谓虚拟变量陷阱(dummy variable trap)中最简单的例子,当使用过多的虚拟变量来描述一定组数的数据时,就会掉进这种虚拟变量陷阱。我们以后还要讨论这个问题。在(7.1)中,我们已经选择了男性为基组(base group)或基准组(b

9、enchmark group),即与之进行比较的那一组。这就是为什么表示了男性的截距,而为女性与男性之间在截距上的差异。通过将模型写成 ,我们就能选择女性为基组,其中女性的截距是,而男性的截距是+;这意味着=+和+ =。在任何一个实际应用中,我们如何选择基组都不重要,但重要的是,要保持基组不变。有些研究者喜欢将模型中的总截距去掉,而将每一组的虚拟变量都包括进来。那么,这里的方程就是,其中男人的截距是,女人的截距是。在这种情形下,因为没有总截距,所以不存在虚拟变量陷阱。但由于检验截距的差值更困难,而且对不含截距项的回归怎样计算R平方没有一个一致同意的方法,所以这个表达式很少有人使用。因此,我们将

10、总是引进一个总的截距项作为基组的截距。当解释变量更多时并没有什么大的改变。取男性那一组为基组,除了控制受教育水平之外,还控制工作经历和现职任期的一个模型是 (7.3)如果educ、exper和tenure都是相关的生产力特征,那么男人与女人之间没有差别的虚拟假设是H0:=0。对立假设是,对女人存在歧视H1:0。 我们怎样才能对工资歧视进行实际检验呢?回答很简单:完全像从前那样用OLS来估计模型,并使用通常的t统计量。当某些自变量被定义为虚拟变量时,在OLS的操作和统计理论方面都没有任何改变。迄今为止,唯一的改变是我们对虚拟变量系数的解释。例7.1 小时工资方程 利用WAGE1.RAW中的数据,

11、我们估计模型(7.3)。目前,我们还是使用wage而不是log(wage)作为因变量: (0.72) (0.26) (0.049) (0.012) (0.021) (7.4) n=526, R2=0.364.负的截距(这里是男人组的截距)不是很有意义,因为样本中没有一个人具有接近于零年的educ、exper和tenure。female的系数则很有意思,因为它度量的是;在给定相同水平的educ、exper和tenure的情况下,一个女人和一个男人之间每小时在工资上的平均差距。如果我们找到受教育水平、工作经历和现职任期相同的一个女人和一个男人,那么平均来看,女人每小时比男人要少挣1.81美元。(要

12、记住,这可是用1976年的工资水平来度量的呀!) 重要的是记住,由于我们已经进行了多元回归并控制了educ、exper和tenure,所以这1.81美元的工资差距不能由男人和女人之间在受教育水平、工作经历和现职任期水平上的平均差距来解释。我们可以断定,这1.81美元的差别,是由于性别或我们在回归中没有控制的与性别相关的因素所导致的。 将方程(7.4)中female的系数,与把所有其他解释变量都从方程中去掉时所得到的系数估计值相比,是颇有意义的: (0.21) (0.30) (7.5) n=526, R2=0.116.(7.5)中的系数具有一个简单的解释。这个截距就是样本中男人的平均工资(令fe

13、male=0),所以男人平均每小时挣7.10美元。female的系数为女人和男人之间平均工资的差距。因此,样本中女人的平均工资是7.10- 2.51=4.59,或每小时4.59美元。(顺便提一下,样本中有274个男人和252个女人。) 方程(7.5)为男人和女人这两组之间进行均值比较检验提供了一个简单的方法。估计差别-2.51的t统计量-8.37在统计上是十分显著的(当然-2.51在经济上也相当大)。一般而言,对一个常数和一个虚拟变量进行简单回归,是比较两组均值的直接方法。要通常的t统计量生效,我们还必须假定同方差性,这就意味着,对男人和对女人而言,工资的总体方程是相同的。 由于方程(7.5)

14、没有控制受教育水平、工作经历和现职任期上的差异,而且总体上说,在这个样本中,女人的受教育水平、工作经历和现职任期比男人要低些,所以估计出来的男女工资差异比(7.4)要大。方程(7.4)给出了性别工资差距在其他条件不变情况下更可靠的估计值;它仍显示出一个很大的差别。 在许多情形下,虚拟自变量都反映了个人或其他经济单位的选择(而不是诸如性别等预先决定的变量)。对于这种情形,因果关系的问题再度成为一个核心议题。在下面这个例子中,我们想知道,是否拥有个人计算机将导致更高的大学平均成绩。例7.2 拥有计算机对大学GPA的影响 为了决定拥有计算机对大学平均成绩的影响,我们估计了模型 其中虚拟变量在学生拥有一台计算机时取值1,而在其他情况下都取值0。出于各种原因,拥有PC对colGPA可能具有影响。一个学生的工作在计算

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号