《精编》Stata与模型的设定

资源描述

《《精编》Stata与模型的设定》由会员分享，可在线阅读，更多相关《《精编》Stata与模型的设定（46页珍藏版）》请在金锄头文库上搜索。

1、Stata与模型的设定主要内容 1 遗漏变量的检验2 解释变量个数的选择3 多重共线性与逐步回归法4 极端数据的诊断与处理5 虚拟变量的处理6 经济结构变动的Chow检验实验7 1遗漏变量的检验一实验基本原理二实验数据和实验内容根据统计资料得到了美国工资的横截面数据变量主要包括 wage 工资 educ 受教育年限 exper 工作经验年限 tenure 任职年限 lwage 工资的对数值完整的数据在本书附带光盘的data文件夹的 wage1 dta 工作文件中利用wage1的数据分别利用Link方法和Ramsey方法检验模型是否遗漏了重要的解释变量三实验操作指导1 使

2、用Link方法检验遗漏变量Link方法进行检验的基本命令语句为 linktest if in cmd options 在这个命令语句中 linktest是进行Link检验的基本命令 if是表示条件的命令语句 in是范围语句 cmd options表示Link检验的选项应该与所使用的估计方法的选项一致例如检验之前使用的回归regress命令则此处的选项应与regress的选项一致例如利用wage1的数据检验模型是否遗漏了重要的解释变量应该输入以下命令 usec data wage1 dta clearreglwageeducexpertenurelinktest第一个命令表示打开数据

3、文件wage1 第二个命令语句是对模型进行回归估计第三个命令就是进行遗漏变量的Link检验检验结果如图7 1所示从第二个表格中可以看到hatsq项的p值为0 018 拒绝了hatsq系数为零的假设即说明被解释变量lwage的拟合值的平方项具有解释能力所以可以得出结论原模型可能遗漏了重要的解释变量为了进一步验证添加重要变量是否会改变Link检验的结果我们生成受教育年限educ和工作经验年限exper的平方项重新进行回归并进行检验这时输入的命令如下 geneduc2 educ 2genexper2 exper 2reglwageeducexpertenureeduc2exper

4、2linktest第一个命令语句的作用是生成变量educ2 使其值为变量educ的平方第二个命令语句的作用是生成变量exper2 使其值为变量exper的平方第三个命令语句的作用是对进行回归估计第四个命令就是进行遗漏变量的Link检验检验结果如图7 2所示 2 使用Ramsey方法检验遗漏变量Ramsey方法进行检验的基本命令语句为 estatovtest rhs 在这个命令语句中 estatovtest是进行Ramsey检验的命令语句如果设定rhs 则在检验过程中使用解释变量如果不设定rhs 则在检验中使用被解释变量的拟合值例如利用wage1的数据使用Ramsey方法检验模

5、型是否遗漏了重要的解释变量应该输入以下命令 usec data wage1 dta clearreglwageeducexpertenureestatovtest 在这组命令语句中第一个命令的功能是打开数据文件第二个命令是对模型进行回归估计第三个命令就是进行遗漏变量的Ramsey检验检验结果如图7 3所示在图7 3中第一个图表仍然是回归结果第二部分则是Ramsey检验的结果不难发现Ramsey检验的原假设是模型不存在遗漏变量检验的p值为0 0048 拒绝原假设即认为原模型存在遗漏变量为了进一步验证添加重要变量是否会改变Ramsey检验的结果我们采取Link检验中的方法

6、生成受教育年限educ和工作经验年限exper的平方项重新进行回归并进行检验这时输入的命令如下 geneduc2 educ 2genexper2 exper 2reglwageeducexpertenureeduc2exper2estatovtest这里不再赘述这些命令语句的含义调整之后的检验结果如图7 4所示可以发现此时检验的p值为0 5404 无法拒绝原假设即认为模型不再存在遗漏变量实验7 2解释变量个数的选择一实验基本原理好的经济理论的标准通常是希望通过更为简洁的模型来更加精确地描述复杂的经济现象但是这两个目标通常是矛盾的因为通过增加解释变量的个数可以提高模型的精确

7、程度但是同时也牺牲了模型的简洁性因此在现实的经济研究过程中通常使用信息准则来确定解释变量的个数较为常用的信息准则有两个 1 赤池信息准则又称为AIC准则其基本思想是通过选择解释变量的个数使得如下目标函数最小在这个公式中 e代表残差序列 n代表样本数量 K代表解释变量的个数通过这个目标函数可以看出第一项是对拟合优度的奖励即尽可能地使残差平方和变小第二项是对解释变量个数增多的惩罚因为目标函数是解释变量个数的增函数 2 贝叶斯信息准则又称为BIC准则其基本思想是通过选择解释变量的个数使得如下目标函数最小在这个公式中 e代表残差序列 n代表样本数量 K代表解释变量的

8、个数通过这个目标函数可以看出 BIC准则与AIC准则的唯一区别就是K的权重不同一般来说ln n 2 所以BIC更加注重模型的简洁性二实验数据和实验内容根据统计资料得到了美国工资的横截面数据变量主要包括 wage 工资 educ 受教育年限 exper 工作经验年限 tenure 任职年限 lwage 工资的对数值完整的数据在本书附带光盘的data文件夹的 wage1 dta 工作文件中利用wage1的数据来确定以下两个模型模型和模型哪个更为合理其中educ2和exper2分别为educ和exper的平方项三实验操作指导使用信息准则对模型进行检验的命令如下 estat

9、ic n 在这个命令语句中 estatic是进行检验的命令语句选项n 的功能是指定BIC准则中的n值一般使用默认值例如利用wage1的数据获得模型的AIC和BIC值应该输入以下命令 usec data wage1 dta clearreglwageeducexpertenureestatic第一个命令表示打开数据文件wage1 第二个命令语句是对模型进行回归估计第三个命令就是进行信息准则值的计算计算结果如图7 5所示 AIC值为635 10 BIC值为652 16 为了对比分析我们仍然采取Link检验中的方法生成受教育年限educ和工作经验年限exper的平方项建立新的模

10、型重新对其进行回归并计算这时输入的命令如下 geneduc2 educ 2genexper2 exper 2reglwageeducexpertenureeduc2exper2estatic这里不再赘述这些命令语句的含义调整之后的计算结果如图7 6所示可以发现此时计算的AIC值为583 66 BIC值为609 25 通过这两个模型信息准则值的对比分析可以得出结论第二个模型的信息准则值更小所以此模型优于第一个模型实验7 3多重共线性与逐步回归法一实验基本原理多重共线性问题在多元线性回归分析中是很常见的其导致的直接后果是方程回归系数估计的标准误差变大系数估计值的精度降低等多

11、重共线性的问题对于Stata软件来说并不显著因为Stata会自动剔除完全的多重共线性但是出于知识的完整性这里还是介绍一下Stata对于多重共线性的识别和处理方法多重共线性的诊断方法主要有 1 直观上说当模型的拟合优度非常高且通过F检验但多数解释变量都不显著甚至解释变量系数符号相反时可能存在多重共线性 2 对由解释变量所组成的序列组进行相关分析时如果有些变量之间的相关系数很高则也反映出可能存在多重共线性 3 使用命令estatvif 对膨胀因子进行计算经验上当VIF的均值 2且VIF的最大值接近或者超过10时通常认为有较为严重的多重共线性当确认模型存在多重共线性时通常

12、有两种解决方法消除其影响一种是收集更多的数据增大样本容量另一种是通过逐步回归改进模型的形式在现实研究过程中增大样本容量的操作不易执行所以逐步回归法应用更为广泛逐步回归法的基本原理是先分别拟合被解释变量对于每一个解释变量的一元回归并将各回归方程的拟合优度按照大小顺序排列然后将拟合优度最大的解释变量作为基础变量然后逐渐将其他解释变量加入模型中并同时观测t检验值的变化如果t检验显著则保留该变量否则去除不断重复此过程直到加入所有显著的解释变量二实验数据和实验内容根据统计资料得到了某市旅游业的相关数据变量主要包括 Y 旅游收入单位万元 X1 某市旅游人数单位人

13、 X2 城镇居民人均旅游支出单位元 X3 农村居民人均旅游支出单位元 X4 公路里程单位公里 X5 铁路里程单位公里完整的数据在本书附带光盘的data文件夹的 lvyou dta 工作文件中利用lvyou数据估计方程判断是否存在多重共线性若存在采用逐步回归法消除多重共线性三实验操作指导1 估计方程若要进行多重共线性的检验与修正首先要建立基本的回归模型按照第六章所讲述内容建立回归模型的命令如下 usec data lvyou dta clearregressYX1X2X3X4X5执行建立回归的命令可以得到如图7 7所示的回归结果通过判断发现整个模型的拟合

14、优度较高但是变量X1和X5未通过t检验且X5的系数为负与常理违背因为在通常情况下随着铁路里程的增加交通更加方便所以旅游收入应该增加综上所述可以初步认为该模型存在多重共线性 2 多重共线性检验多重共线性的检验通常采取两种方法一种是计算膨胀因子一种是计算变量之间的相关系数下面将会详细介绍 1 计算膨胀因子的命令为 estatvif uncentered 在这个命令语句中 estatvif是计算膨胀因子的命令语句 uncentered选项通常使用在没有常数项的模型中在本实验中在回归之后输入此命令就可得到如图7 8所示的膨胀因子数值结果显示该模型的膨胀因子的平均值为14

15、 50 远远大于经验值2 膨胀因子最大值为20 06 远远大于经验值10 所以可以认为该模型存在严重的多重共线性 2 计算相关系数的命令语句为 pwcorr varlist if in weight pwcorr options 在这个命令语句中 pwcorr是计算相关系数的命令 varlist为将要计算相关系数的变量 if为条件语句 in为范围语句 weight为权重语句 options选项如表7 1所示在本实验中可以通过计算变量X1 X2 X3 X4和X5之间的相关系数来判断模型是否存在多重共线性所使用的命令为 pwcorrX1X2X3X4X5这个命令语句显示的相关系数矩阵如图7 9

16、所示通过观察可以得到解释变量X1与X2 X4 X5之间 X2与X3 X4 X5之间以及X4与X5之间的相关系数非常高因此可以认为解释变量之间存在较为严重的多重共线性 3 逐步回归法 1 手动逐步回归法逐步回顾法的第一步是要分别拟合Y对每一个变量的回归方程从中选出拟合优度最高的方程作为基础方程这个操作所使用到的命令为 regressYX1regressYX2regressYX3regressYX4regressYX5经过这步操作可以得到如表7 2所示的回归结果为了便于观察表7 2是根据Stata输出结果整理而成的表7 2内容显示拟合优度的大小排列顺序为X2 X5 X1 X4 X3 所以这时应将X2作为基础解释变量然后将X5 X1 X4 X3分别加入回归方程进行逐步回归首先将X5加入方程进行回归这时输入的命令为 regressYX2X5结果如图7 10所示通过观察发现 X5的系数的p值为0 658 没有通过检验所以删除解释变量X5 接下来将X1加入基本方程进行回归得到如图7 11所示的回归结果结果显示X1系数的p值为0 068 没有通过检验所以删除

展开阅读全文