chap11受限被解释变量

资源描述

《chap11受限被解释变量》由会员分享，可在线阅读，更多相关《chap11受限被解释变量（33页珍藏版）》请在金锄头文库上搜索。

1、第十一章受限被解释变量,主要内容,断尾回归模型截取回归模型样本选择模型,实验11-1：断尾回归模型,实验基本原理,实验内容及数据来源本书附带光盘data文件夹下的“laborsupply.dta”工作文件给出了1975年妇女劳动供给的一些数据，主要变量有：lfp=各妇女在1975年是否工作（该变量取1表示该妇女在1975年有工作），whrs=妇女的工作时间，kl6=年龄小于6岁的孩子个数，k618=年龄在6岁到18岁之间的孩子个数，wa=妇女的年龄，we=妇女的受教育年限。很显然，当某妇女在1975年没有工作时，我们观察到的该妇女的工作时间为0。利用这些数据，我们要研究各个因素对妇女劳动时间

2、的影响，并讲解断尾回归模型的拟合与预测。,实验操作指导1 利用普通最小二乘法进行回归我们首先利用这些数据进行普通最小二乘回归。键入以下命令：regress whrs kl6 k618 wa we if whrs 0其中，被解释变量为whrs，解释变量为kl6、k618、wa和we，条件语句if表明，我们对妇女工作时间大于0的数据进行回归。这里，我们主要是为了和后面断尾回归的结果进行比较。,2 断尾回归的操作断尾回归的基本命令为：truncreg depvar indepvar if in weight ,options其中，truncreg代表“断尾回归”的基本命令语句，depvar代表被解释

3、变量的名称，indepvar代表解释变量的名称，if代表条件语句，in代表范围语句，weight代表权重语句，options代表其他选项。表11.2显示了各options选项及其含义。,对于“laborsupply.dta”的数据而言，1975年没有工作的妇女的劳动时间都被设定为0，事实上也就是其具体劳动时间的数据没有被统计到，这样，我们可以进行一个左端断尾的回归，命令如下：truncreg whrs kl6 k618 wa we, ll(0)这里，选项ll(0)设定左端断尾的下限为0。,3 断尾回归的预测,下面，我们结合本例对选项进行具体的说明。1.拟合的标准误（stdp）也被称作stand

4、ard error of the fitted value，可以将其看做观测值处于均值水平下的标准误。预测的标准误（stdf）也被称作the standard error of the future or forecast value，指的是每个观测值的点预测的标准误。根据两种标准误的计算公式可知，stdf预测的标准误总是比stdp预测的要大。我们对上面的断尾回归进行默认预测以及stdp和stdf的预测，采用如下命令：predict ypredict p, stdppredict f, stdflist whrs y p f in 1/10其中，第一步为默认预测，并将预测值命名为y；第二步预测

5、的是拟合的标准误，并将预测值命名为p；第三步预测的是预测的标准误，并将其命名为f；最后一步列出原序列值whrs和各预测值的前10个观测值。,实验11-2：截取回归模型,实验基本原理,实验内容及数据来源我们要研究汽车重量对每加仑耗油下行驶的路程的影响，使用本书附带光盘的data文件夹下的“usaauto.dta”工作文件。主要变量有：mpg=每加仑汽油所行驶的英里数，weight=汽车的重量等。利用“usaauto.dta”的数据，我们会讲解截取回归的操作及预测。需要说明的是，这个数据本身不是截取数据，但为了展示tobit回归的相关操作，我们会对数据进行处理，然后讲解相关命令的操作。,实验操作指

6、导1 普通最小二乘回归为了与数据处理后的tobit回归进行比较，我们这里先进行OLS回归。键入命令：generate wgt=weight/1000regress mpg wgt其中，第一步为生成一个新变量wgt，其值为变量weight的1/1000。第二步为mpg对wgt的回归。,2 截取回归的操作截取回归的基本命令为：tobit depvar indepvar if in weight, ll(#) ul(#) options其中，tobit代表“截取回归”的基本命令语句，depvar代表被解释变量的名称，indepvar代表解释变量的名称，if代表条件语句，in代表范围语句，weight

7、代表权重语句，options代表其他选项。可用的options选项包括offset()、vce()、level()等，其含义和断尾回归处相同。此外，ll表示左截取点，ul表示右截取点，这两个选项至少需要设定一个，可以同时设定。对于ll和ul选项，可以设定截取点的值，也可以不设定。当只键入ll或ul选项而不设定截取点的值时，tobit命令会自动设定被解释变量的最小值为左截取点（当ll选项被设定时），被解释变量的最大值为右截取点（当ul选项被设定时）。,下面，我们通过例子来加深对命令的理解。在“usaauto.dta”工作文件中，变量mpg的最小值为12，最大值为41。假定我们的数据为截取数据，当

8、mpg的真实值小于或等于20时，我们只知道其不超过20，而不知道具体的取值。我们先对数据进行变换，使用命令：replace mpg=20 if mpg=20即，将小于或等于20的mpg值设为20。然后，我们进行tobit回归：tobit mpg wgt, ll 这里，要注意选项是两个小写的字母el，而不是数字1。,事实上，我们没有必要先使用replace命令，直接使用选项ll(20)就可以得到图11.5的结果。前面之所以要对数据进行变换，主要是为了提醒读者，tobit命令是用于截取数据的。在实际的研究中，如果数据类型非截取，直接使用regress就可以了；只有在数据为截取数据时，才有必要使用t

9、obit。,3 tobit回归的预测,实验11-3：样本选择模型,实验基本原理,实验内容及数据来源样本选择模型的一个经典例子是妇女工资的决定。假定工资收入与教育、年龄等相关，但只有妇女选择工作时我们才能观察到其工资收入。如果妇女是随机决定是否工作，那么就没有样本选择的问题。但事实上，决定是否工作的选择并不是随机的。只有当雇主提供的工资高于妇女的保留工资（reservation wage）时，该妇女才会决定去工作。当存在样本选择问题时，我们需要找到至少一个这样的变量，它能影响被解释变量能否被观测到，却对观测到的因变量没有影响。在妇女工资问题中，家中儿童数量就是一个合适的选择。显然，家中儿童数量能

10、够影响妇女的保留工资，从而影响其是否工作；但对于工作中的妇女，家中儿童数量并不会影响雇主提供的工资。,我们利用本书附带光盘data文件夹下的“fwage.dta”工作文件，来进行妇女工资决定模型的研究。主要变量包括：wage=妇女的工资收入，education=教育水平，age=年龄，married=是否结婚，children=家中儿童数量，county=居住地。利用这些数据，我们会讲解样本选择问题的heckman回归的操作以及相关的预测。,实验操作指导1 heckman回归的操作,下面，我们利用“fwage.dta”的数据进行样本选择模型的回归分析。我们认为，妇女的工资是教育程度和年龄的函数

11、，而妇女是否选择工作的影响因素是其保留工资（受婚姻状况、家中儿童数量影响）以及雇主提供的工资（受教育程度和年龄的影响）。（1）基本的heckman回归我们首先使用默认的极大似然函数法进行估计。命令为：heckman wage educ age, select(married children educ age)这里，被解释变量为wage，解释变量为educ和age。选项select()表明，选择方程的解释变量为married、children、educ和age。,（2）两步法的heckman回归当数据集比较大时，极大似然估计非常耗时，两步法就提供了一种很好的替代。键入命令：heckman wa

12、ge educ age, select(married children educ age) twostep mills(m)其中，选项twostep表明使用两步法的heckman回归。选项mills()会生成一个新变量，计算出各样本的逆米尔斯比率，即样本不被选择的可能性。我们这里给该变量命名为m。此外，需要说明的一点是，选项nshazard(newvar)具有和选项mills(newvar)完全相同的作用。,（3）稳健的heckman回归我们可以使用vce(robust)获得稳健标准差，或利用vce(cluster varname)获得聚类稳健标准差。例如，我们认为工资的方差可能随居住地（c

13、ounty）的不同而不同，可以键入命令：heckman wage educ age, select(married children educ age) vce(cluster county)这里，选项vce(cluster county)设定了标准差按变量county聚类。,（4）设定选择方程的因变量我们可以对选择方程设定因变量。键入命令：gen dwage=(wage.)heckman wage educ age, select(dwage = married children educ age)这里，第一句命令表示产生变量dwage，当wage.时，dwage=1；当wage为缺失值时，

14、dwage=0。第二句命令中，select()选项设定了dwage为选择方程的因变量。,2 heckman回归的预测对heckman回归进行预测的基本命令为：predict type newvar if in , statistic nooffset其中，predict代表预测的基本命令语句，newvar代表生成的新变量的名称，type代表新变量的类型，if代表条件语句，in代表范围语句，statistic代表进行预测的统计量。可用的statistic选项包括表11.3中断尾回归预测的所有选项以及表11.6的选项。,对于妇女工资决定的模型，默认的预测将给出各妇女的工资的线性预测值。如果我们想知

15、道参加工作的妇女的期望工资，我们可以利用ycond选项。quietly heckman wage educ age, select(married children educ age)predict yc, ycondsummarize wage yc if wage!= .其中，第一步为进行heckman回归，且命令quietly表明不显示该回归的结果；第二步是对参加工作的妇女的期望工资的预测，且将新变量命名为yc；第三步获得wage非缺失值的观测值的wage和yc的描述统计量。,如果我们想知道所有妇女的期望工资，可以通过yexpected选项实现。这时，通过样本选择方程决定该妇女预期是否参

16、加工作，如果预期不参加，则其期望工资为0。predict ye, yexpectedgen wage1=wagereplace wage1=0 if wage1= .sum ye wage1 其中，第一步是对所有妇女期望工资进行预测，并将新变量命名为ye；第二步与第三步生成了一个变量wage1，当实际工资为缺失值时，wage1为0，当实际工资不缺失时，wage1的值等于wage的值；第四步给出了变量ye和wage1的描述统计量。,习题,1.利用本书附带光盘data文件夹下的“usaauto.dta”工作文件，做mpg对 price、length、displacement的回归，假设foreign为0时，mpg在20处左端断尾；foreign为1时，mpg在24处左端断尾。（提示：生成一个新变量，作为断尾下限的指示变量）2.利用本书附带光盘data文件夹下的“womenwork.dta”工作文件，分析各因素对已婚妇女工作时间的影响。主要变量包括：hours=工作时间，children=未成年子女个数，age=年龄，education=教育年限，husinc=丈夫收入。图11.15列出了部分数据。,

展开阅读全文