第十八章-离散选择模型和受限因变量模型

资源描述

《第十八章-离散选择模型和受限因变量模型》由会员分享，可在线阅读，更多相关《第十八章-离散选择模型和受限因变量模型（31页珍藏版）》请在金锄头文库上搜索。

1、第18章离散选择模型和受限因变量模型18.1概述在经典计量经济学模型中，被解释变量通常被假定为连续变量，但在现实的经济决策中经常面临许多选择问题。在这样的决策问题中，或者选择问题中，人们必须对可供选择的方案作出选择。通常被解释变量是连续的变量，但此时的因变量只取有限多个离散的值。例如：人们对交通工具的选择，是选择坐轻轨、地铁还是公共汽车；某大型企业是否合并另一企业；对某一方案的建议持强烈反对、反对、中立、支持和强烈支持5种态度，可以分别用0，1，2，3和4表示。以这样的选择结果作为被解释变量建立的计量经济学模型，称为离散被解释变量数据计量经济学模型（models with discrete

2、dependent variables），或称为离散选择模型（DCM，discrete choice model）。如果被解释变量只能有两种选择，称为二元选择模型（binary choice model）；如果被解释变量有多种选择，称为多元选择模型（multiple choice model）。20世纪70和80年代，离散选择模型普遍应用于经济布局、企业定点、交通问题、就业问题、购买决策等经济决策领域的研究。在实际中，还会经常遇到因变量受到某种限制的情况，这种情况下，取得样本数据来自总体的一个子集，可能不能完全反映总体。例如，小时工资、住房价格和名义利率都必须大于零。这时需要建立的经济计量模型

3、称为受限因变量模型（limited dependent variable model）。这两类模型经常用于调查数据的分析中。本章将讨论三类模型及其估计方法和软件操作。一是定性（观测值为离散的或者表示排序）；二是截取或者截断问题；三是观测值为整数值的计数模型。18.2二元因变量模型在这个模型中，被解释变量只取两个值，可以是代表某件事发生与否的虚拟变量，也可以是两个决策中选一个，称为二元因变量模型。例如：对样本个体是否就业的研究，个体的年龄、教育背景、种族、婚姻状况以及其他可观测的特征，作为解释变量，目的是研究个体这些特征对个体就业概率的研究。或者对某商品的购买与否，取决于两类因素：一类是该商品具

4、有的属性，诸如用途、价格等；一类是决策个体所具有的属性，诸如职业、年龄、收入水平、健康状况等。从大量的统计中，可以发现选择的结果与影响因素之间具有一定的因果关系。揭示这一因果关系并用于预测研究，对于制定商品销售方案无疑是十分重要的，这就需要建立计量经济学模型来研究这些变量之间的关系。18.2.1二元选择模型形式假设中二元因变量y取0和1两个值，对y和x间不能建一个简单的线性回归模型，因为模型的条件均值对残差设了一个不合理的约束条件。而且简单回归模型中的y的拟合值没有被限制在0和1之间。为了处理二元因变量模型的特别要求，我们必须设定专门的模型。假设观测值取1的概率为：（18.2.1）其中F是连

5、续的、严格递增的函数，其取值在0和1之间。本章讨论时采用最简单的线性函数形式，而在Eviews中也可以处理非线性的函数形式。F函数的类型决定了二元因变量模型的类别，即有：（18.2.2）给定这样的设定后，可以用极大似然法对模型的参数进行估计。对数似然函数如下：（18.2.3）由于极大似然函数的条件就是非线性的，因此需要进行迭代运算才能得到参数的估计值。首先对二元变量模型设定一个潜在解释变量，假设这有一个不可观测的潜在变量与的线性关系如下：（18.2.4）其中：是随机干扰项，由是否超过临界值来决定因变量的观测值取值。则和关系有：（18.2.5）这里临界值设为0，但是只要x包含常数项，临界

6、值的选择就是不相关的。然后：（18.2.6）其中：是的累积分布函数。根据F分布函数类型，常见模型有Probit模型（标准正态分布）、Logit模型（逻辑分布）和Gompit模型（极值分布）。一般地，由于二元因变量模型仅仅是一件事发生与否，那么y的两个数值便不重要了。不过，Eviews需要对y的两个值进行编码。这个约束条件产生很多优点。第一，变量按这种方式进行编码暗示了y的期望值简单就是y=1的概率：（18.2.7）这也为二元因变量模型提供了另一种解释，即条件均值的设定。接下来我们可以将二元因变量模型写为如下的回归模型：（18.2.8）其中：是残差项，代表二元变量y对条件均值的分离，然后有

7、：（18.2.9）（18.2.10）根据残差分布函数不同，常见模型有Probit模型（标准正态分布）、Logit模型（逻辑分布）和Gompit模型（极值分布）。则有：Probit模型：，其中是标准正态分布累积分布函数。Logit模型：，同样是基于逻辑分布的累积分布函数。Gompit模型：，基于Type-I极值分布的累积分布函数。18.2.2二元选择模型的Eviews估计1）模型的估计（1）模型估计估计二元选择模型，从主菜单中选择Object/New Object，并从该菜单中选择Equation选项。从出现的Equation Specification对话框中，选择Binary估计方法。在

8、二元选择模型设定中包括两部分。首先，在Equation Specification区域内，键入二元因变量的名字，随后键入一系列回归项。然后，在Binary estimation method中选择Probit、Logit和Extreme value三种中的一种估计方法，即三种误差项分布函数。例如，使用probit模型对重庆市政府农技推广供给影响因素的研究中，将农技推广服务的供需状况y划分为“有贡献”和“没有贡献”两个层次，具体取值设置为，农技推广供给“没有贡献”或贡献“较小”取0，“有贡献”取1，政府农技推广工作人员的文化水平、所在地区、员工职位以及年龄等对农技推广供给的影响。其中文化水平有4

9、个层次，高中以下、高中、专科、本科以上，3个虚拟变量，即学历为高中，EDU1取值为1，同样专科EDU2和本科以上EDU3的取值；地区area为主城区，取值为1，不是主城区取值0；政府工作人员的职务级别分3个层次，中高级管理者、基层管理者和一般工作人员，对该指标设2个虚拟变量，职务级别为中高级管理者，duty1取值为1，否则取0，职务级别为基层管理者，duty2取值为1，否则取0；年龄age则直接使用年龄的数字。先建一个工作文件夹，点击主菜单上File/New/workfiles，在Workfile structure type中选择Unstructured/Undated，Data rang

10、e输入样本的相关信息，具体如下图：图18.2.1然后依次输入数据序列，图18.2.2再点击主菜单上Quick/Estimate Eqution，进行估计设置：图18.2.3设定好模型后，点击“确定”。Eviews6.0的估计结果如下：图18.2.4参数估计结果的上半部分包括估计方法（ML极大似然估计）和估计中所使用的样本的基本信息，也包括达到收敛要求的迭代次数，和计算系数协方差矩阵所使用方法的信息。在下面显示的是系数的估计、渐近的标准误差、z统计量和相应的概率值及相关统计量。二元选择模型的解释变量的估计系数不能被解释成对解释变量的边际影响，只能从系数的符号来判断因变量取值的概率有多大。则解释变

11、量x对条件概率的边际效应为：（18.2.11）其中是相对于F的密度函数。注意用f对所有回归项的值对系数加权，改变的直接效应通过系数的符号来反映，正的表示增加能增加相应事件发生的概率；而负的值则表示增加将减小相应事件发生的概率。本例中age的系数估计值为正，说明政府工作人员年龄越大，农业科技推广有贡献的概率越大，体现了年龄增加对农业科技推广的供给产生了正向的作用。参数估计结果的下半部分包括常用的描述性统计量，其中有均值和因变量的标准偏离，回归的标准差和残差平方和。标准差和残差平方和也用常用的方式计算的：（18.2.12）另外，在回归结果中还提供了几种似然函数统计量：Log likelihoo

12、d是对数似然函数的最大值。Avg.log likelihood是用观察的个数N去除以对数似然函数，即对数似然函数的平均值。Restr.log likelihood是除了常数以外所有系数被限制为0时的极大似然函数。LR统计量检验除了常数以外所有系数都是0的假设，用-2-计算的。这类似于线性回归模型中的F统计量，测试模型整体的显著性。Probability(LR stat)是LR的检验统计量的P值。在零假设下，LR的检验统计量近似服从自由度等于检验下的约束变量的个数的分布。McFadden R-squared是用1-/计算的似然比率指标，这里是有约束时的似然函数，它是同线性回归模型中的R2是类似的

13、，它总是介于0和1之间。（2）估计的相关选项在用迭代法求极大似然函数的最大值时，可以在Options选项中设定估计算法与迭代限制。单击Options按钮，打开Options对话框如图：图18.2.5Options对话框有如下的几项设置：稳健标准差（Robust Standard Errors）对于二元选择模型，Eviews6.0与5.0一样允许使用准一极大似然函数（Huber/White）或广义的线性模型（GLM）方法估计标准误差（具体理论见计数模型后）。点击Robust Covariances复选框，并从两种方法中选一种。当使用选项估计二元选择模型时，公式输出的顶部将显示用于计算系数协方差矩

14、阵的方法。初始值（Sarting cofficient values）。和其他步骤一样，Eviews允许指定初始值。在Options对话框中，从对话框中下拉菜单中选一项。可以使用Eviews默认值，或者选择默认值的多少倍，零系数，或用户提供的值。如果使用后者，应在工作文件的系数向量C中输入数值，然后在对话框中选择User supplied。Eviews默认值是使用经验运算法则而选择出来的，适用于二元选择模型的每一种类型。估计法则。在Optimization algorithm一栏中选择估计的运算法则。默认地Eviews使用quadratic hill-climbing方法得到参数估计。这种运算

15、法则使用对数似然分析二次导数的矩阵形成迭代和技术的估计的系数协方差矩阵。还有另外两种不同估计发展，Newton-raphson也使用二次导数，BHHH使用一次导数，既确定迭代更新，又确定协方差矩阵估计。2）拟合优度检验与经典模型的变量显著性检验一样，二元选择模型的变量显著性检验，可以通过极大似然估计时给出的z统计量检验系数的显著性。还可以利用Wald统计量、LR统计量（最大似然比）和LM统计量（拉格朗日乘子）对模型进行检验。这里主要介绍对二元因变量模型的特殊检验，即拟合优度检验。Eviews提供了两种检验方法分别由Hosmer-Lemeshow（1989）和Andrews（1998a，1988b）提出的。这些检验的基本思想是比较群的拟合的期望值和实际值，如果差异很大，则拒绝模型，认

展开阅读全文