计量经济学第7章含有定性信息的多元回归分析.doc

资源描述

《计量经济学第7章含有定性信息的多元回归分析.doc》由会员分享，可在线阅读，更多相关《计量经济学第7章含有定性信息的多元回归分析.doc（26页珍藏版）》请在金锄头文库上搜索。

1、第7章含有定性信息的多元回归分析：二值(或虚拟)变量在前面几章中，我们的多元回归模型中的因变量和自变量都具有定量的含义。就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。在每种情况下，变量的大小都传递了有用的信息。在经验研究中，我们还必须在回归模型中考虑定性因素。一个人的性别或种族、一个企业所属的产业（制造业、零售业等）和一个城市在美国所处的地理位置（南、北、西等）都可以被认为是定性因素。本章的绝大部分内容都在探讨定性自变量。我们在第7.1节介绍了描述定性信息之后，又在第7.2、7.3和7.4节中说明了，如何在多元回归模型中很容易地包含定性的解释变量。这几

2、节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。我们在第7.5节讨论了定性因变量的一种特殊情况，即二值因变量。这种情形下的多元回归模型具有一个有趣的含义，并被称为线性概率模型。尽管有些计量经济学家对线性概率模型多有中伤，但其简洁性还是使之在许多经验研究中有用武之地。虽然我们在第7.5节将指出其缺陷，但在经验研究中，这些缺陷常常都是次要的。7.1 对定性信息的描述定性信息通常以二值信息的形式出现：一个人是男还是女；一个人有还是没有一台个人计算机；一家企业向其一类特定的雇员提供还是不提供退休金方案；一个州实行或不实行死刑。在所有这些例子中，有关信息可通过定义一个二值变量(binary

3、 variable)或一个0-1变量来刻画。在计量经济学中，对二值变量最常见的称呼是虚拟变量(dummy variable)，尽管这个名称并不是特别形象。问题7.1假设在一项比较民主党和共和党候选人之间选举结果的研究中，你想标明每个候选人所在的党派。在这种情形中，名称party是二值变量的一个明智选择吗？更好的名称是什么？在定义一个虚拟变量时，我们必须决定赋予哪个事件的值为1和哪个事件的值为0。比如，在一项对个人工资决定的研究中，我们可能定义female为一个虚拟变量，并对女性取值1，而对男性取值0。这种情形中的变量名称就是取值1的事件。通过定义male在一个人为男性时取值1并在一个人为女性

4、时取值0，也能刻画同样的信息。这两种情况都比使用gender更好，因为这个名称没有指出虚拟变量何时取值1：gender=1对应于男性还是女性？虽然怎样称呼变量对得到回归结果而言并不重要，但它总有助于选择那些使方程和阐述都更清晰的变量。表7.1 WAGE1.RAW中的局部数据列表个人编号wageeducexperfemalemarried13.101121023.2412221133.001120046.008440155.301270152511.56165015263.5014510假设我们在工资的例子中已选择了female来表示性别。此外，我们还定义了一个二值变量married，并在一个

5、人已婚时取值1，而在其他情况下取值0。表7.1给出了可能得到的一个数据集的部分列表。我们看到，第1个人为女性并且未婚，第2个人为女性并且已婚，第3个人为男性并且未婚，等等。我们为什么要用数值0和1来描述定性信息呢？在某种意义上，这些值是任意的：用任意两个不同的数值都是一样的。使用0-1变量来刻画定性信息的真正好处，像我们将看到的那样，在于它导致回归模型中的参数有十分自然的解释。7.2 只有一个虚拟自变量我们如何在回归模型中引入二值信息呢？在只有一个虚拟解释变量的最简单情形中，我们只在方程中增加一个虚拟变量作为自变量。比如，考虑如下决定小时工资的简单模型： (7.1)我们用表示female的

6、参数，以强调虚拟变量参数的含义；以后，无论如何，我们还是使用最方便的符号。在模型(7.1)中，只有两个被观测因素影响工资：性别和受教育水平。由于对女性female=1，而对男性female=0，所以参数具有如下含义：给定同等受教育程度(和同样的误差项u)，是女性与男性之间在小时工资上的差异。因此，系数决定了是否对女人存在歧视：如果0，那么在其他因素的相同水平下，女人总体上挣得要比男人少。用期望的术语来讲，如果我们假定了零条件均值假定E(ufemale, educ)=0，那么 = E(wagefemale=1, educ)- E(wagefemale=0, educ).由于female=1对应于

7、女性和female=0对应于男性，所以我们可以更简单地把这个模型写成 = E(wagefemale, educ)- E(wagemale, educ). (7.2)这里的关键在于，在两个预期中，受教育水平是相同的；差值只是由于性别所致。这种情况可以在图上描绘成男性与女性之间的截距迁移(intercept shift)。在图7.1中，给出了0的情形，从而男人比女人每小时都多挣一个固定的数量。这个差距与受教育水平无关，这就解释了为什么女人和男人的工资-受教育变化关系是平行的。图7.1 在0情况下的图示这里，你可能想知道为什么我们没有在(7.1)中还包括一个虚拟变量male，它对男性取值1和对女性取

8、值0。原因在于，这样做是多余的。在(7.1)中，男性线的截距是，女性线的截距是+。由于只有两组数据，所以我们只需要两个不同的截距。这意味着，除了之外，我们只需要一个虚拟变量；我们已经选择了针对女性的虚拟变量。由于female+male =1意味着male是female的一个完全线性函数，所以使用两个虚拟变量将导致完全多重共线性。包括两个性别的虚拟变量是所谓虚拟变量陷阱(dummy variable trap)中最简单的例子，当使用过多的虚拟变量来描述一定组数的数据时，就会掉进这种虚拟变量陷阱。我们以后还要讨论这个问题。在(7.1)中，我们已经选择了男性为基组(base group)或基准组(b

9、enchmark group)，即与之进行比较的那一组。这就是为什么表示了男性的截距，而为女性与男性之间在截距上的差异。通过将模型写成，我们就能选择女性为基组，其中女性的截距是，而男性的截距是+；这意味着=+和+ =。在任何一个实际应用中，我们如何选择基组都不重要，但重要的是，要保持基组不变。有些研究者喜欢将模型中的总截距去掉，而将每一组的虚拟变量都包括进来。那么，这里的方程就是，其中男人的截距是，女人的截距是。在这种情形下，因为没有总截距，所以不存在虚拟变量陷阱。但由于检验截距的差值更困难，而且对不含截距项的回归怎样计算R平方没有一个一致同意的方法，所以这个表达式很少有人使用。因此，我们将

10、总是引进一个总的截距项作为基组的截距。当解释变量更多时并没有什么大的改变。取男性那一组为基组，除了控制受教育水平之外，还控制工作经历和现职任期的一个模型是 (7.3)如果educ、exper和tenure都是相关的生产力特征，那么男人与女人之间没有差别的虚拟假设是H0：=0。对立假设是，对女人存在歧视H1：0。我们怎样才能对工资歧视进行实际检验呢？回答很简单：完全像从前那样用OLS来估计模型，并使用通常的t统计量。当某些自变量被定义为虚拟变量时，在OLS的操作和统计理论方面都没有任何改变。迄今为止，唯一的改变是我们对虚拟变量系数的解释。例7.1 小时工资方程利用WAGE1.RAW中的数据，

11、我们估计模型(7.3)。目前，我们还是使用wage而不是log(wage)作为因变量： (0.72) (0.26) (0.049) (0.012) (0.021) (7.4) n=526, R2=0.364.负的截距（这里是男人组的截距）不是很有意义，因为样本中没有一个人具有接近于零年的educ、exper和tenure。female的系数则很有意思，因为它度量的是；在给定相同水平的educ、exper和tenure的情况下，一个女人和一个男人之间每小时在工资上的平均差距。如果我们找到受教育水平、工作经历和现职任期相同的一个女人和一个男人，那么平均来看，女人每小时比男人要少挣1.81美元。（要

12、记住，这可是用1976年的工资水平来度量的呀！）重要的是记住，由于我们已经进行了多元回归并控制了educ、exper和tenure，所以这1.81美元的工资差距不能由男人和女人之间在受教育水平、工作经历和现职任期水平上的平均差距来解释。我们可以断定，这1.81美元的差别，是由于性别或我们在回归中没有控制的与性别相关的因素所导致的。将方程(7.4)中female的系数，与把所有其他解释变量都从方程中去掉时所得到的系数估计值相比，是颇有意义的： (0.21) (0.30) (7.5) n=526, R2=0.116.(7.5)中的系数具有一个简单的解释。这个截距就是样本中男人的平均工资（令fe

13、male=0），所以男人平均每小时挣7.10美元。female的系数为女人和男人之间平均工资的差距。因此，样本中女人的平均工资是7.10- 2.51=4.59，或每小时4.59美元。（顺便提一下，样本中有274个男人和252个女人。）方程(7.5)为男人和女人这两组之间进行均值比较检验提供了一个简单的方法。估计差别-2.51的t统计量-8.37在统计上是十分显著的（当然-2.51在经济上也相当大）。一般而言，对一个常数和一个虚拟变量进行简单回归，是比较两组均值的直接方法。要通常的t统计量生效，我们还必须假定同方差性，这就意味着，对男人和对女人而言，工资的总体方程是相同的。由于方程(7.5)

14、没有控制受教育水平、工作经历和现职任期上的差异，而且总体上说，在这个样本中，女人的受教育水平、工作经历和现职任期比男人要低些，所以估计出来的男女工资差异比(7.4)要大。方程(7.4)给出了性别工资差距在其他条件不变情况下更可靠的估计值；它仍显示出一个很大的差别。在许多情形下，虚拟自变量都反映了个人或其他经济单位的选择（而不是诸如性别等预先决定的变量）。对于这种情形，因果关系的问题再度成为一个核心议题。在下面这个例子中，我们想知道，是否拥有个人计算机将导致更高的大学平均成绩。例7.2 拥有计算机对大学GPA的影响为了决定拥有计算机对大学平均成绩的影响，我们估计了模型其中虚拟变量在学生拥有一台计算机时取值1，而在其他情况下都取值0。出于各种原因，拥有PC对colGPA可能具有影响。一个学生的工作在计算

展开阅读全文

计量经济学第7章含有定性信息的多元回归分析.doc

最新文档