离散因变量和受限因变量模型

资源描述

《离散因变量和受限因变量模型》由会员分享，可在线阅读，更多相关《离散因变量和受限因变量模型（45页珍藏版）》请在金锄头文库上搜索。

1、第七章第七章离散因变量和受限因变量模型离散因变量和受限因变量模型通常的经济计量模型都假定因变量是连续的，但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择，与通常被解释变量是连续变量的假设相反，此时因变量只取有限多个离散的值。例如，人们对交通工具的选择：地铁、公共汽车或出租车；投资决策中，是投资股票还是房地产。以这样的决策结果作为被解释变量建立的计量经济模型，称为离散被解释变量数据计量经济学模型（models with discrete dependent variables），或者称为离散选择模型(discrete choice model, DCM)。

2、1在实际中，还会经常遇到因变量受到某种限制的情况，这种情况下，取得的样本数据来自总体的一个子集，可能不能完全反映总体。这时需要建立的经济计量模型称为受限因变量模型（limited dependent variable model)。这两类模型经常用于调查数据的分析中。27.1 7.1 二元选择模型二元选择模型在离散选择模型中，最简单的情形是在两个可供选择的方案中选择其一，此时被解释变量只取两个值，称为二元选择模型（binary choice model）。在实际生活中，我们经常遇到二元选择问题。例如，在买车与不买车的选择中，买车记为1，不买记为0。是否买车与两类因素有关系：一类是车本身所具有

3、的属性，如价格、型号等；另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系，即研究具有某一收入水平的个体买车的可能性。因此，二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。 3为了深刻地理解二元选择模型，首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为：（7.1.1）其中：N是样本容量；k是解释变量个数；xj为第j个个体特征的取值。例如，x1表示收入；x2表示汽车的价格；x3表示消费者的偏好等。设 yi 表示取值为0和1的离散型随机变量：式（7.1.1）中ui为相互独立且均值为0的随机扰动项。7.1.17.1.1

4、线性概率模型及二元选择模型的形式线性概率模型及二元选择模型的形式 4令pi = P ( yi =1) ，那么 1 - pi = P ( yi =0) ，于是（7.1.2）又因为E(ui ) = 0 ，所以 E(yi ) = xi，xi =(x1i , x2i , xki ), =(1 , 2 , k )，从而有下面的等式：（7.1.3） 5式(7.1.3)只有当xi 的取值在(0,1)之间时才成立，否则就会产生矛盾，而在实际应用时很可能超出这个范围。因此，线性概率模型常常写成下面的形式：(7.1.4)此时就可以把因变量看成是一个概率。那么扰动项的方差为：(7.1.5)或(7.1.6) 6由此可

5、以看出，误差项具有异方差性。异方差性使得参数估计不再是有效的，修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值在(0,1)之内，这是线性概率模型一个严重的弱点。由于上述问题，我们考虑对线性概率模型进行一些变换，由此得到下面要讨论的模型。假设有一个未被观察到的潜在变量yi*，它与xi之间具有线性关系，即(7.1.7)其中： ui*是扰动项。yi和yi*的关系如下：(7.1.8)7yi*大于临界值0时，yi =1；小于等于0时，yi =0。这里把临界值选为0，但事实上只要xi包含有常数项，临界值的选择就是无关的，所以不妨设为0。这样(7.1.9)其中：F是ui*的分布

6、函数，要求它是一个连续函数，并且是单调递增的。因此，原始的回归模型可以看成如下的一个回归模型：(7.1.10)即yi关于它的条件均值的一个回归。8分布函数的类型决定了二元选择模型的类型，根据分布函数F的不同，二元选择模型可以有不同的类型，常用的二元选择模型如表7.1所示：表表7.1 7.1 常用的二元选择模型常用的二元选择模型 ui*对应的分布分布函数F 相应的二元选择模型标准正态分布Probit 模型逻辑分布Logit 模型极值分布Extreme模型9二元选择模型一般采用极大似然估计。似然函数为 (7.1.11)即(7.1.12)对数似然函数为(7.1.13) 7.1.2 7.1.2 二元选

7、择模型的估计问题二元选择模型的估计问题 10对数似然函数的一阶条件为(7.1.14)其中：fi 表示概率密度函数。那么如果已知分布函数和密度函数的表达式及样本值，求解该方程组，就可以得到参数的极大似然估计量。例如，将上述3种分布函数和密度函数代入式(7.1.14)就可以得到3种模型的参数极大似然估计。但是式(7.1.14) 通常是非线性的，需用迭代法进行求解。二元选择模型中估计的系数不能被解释成对因变量的边际影响，只能从符号上判断。如果为正，表明解释变量越大，因变量取1的概率越大；反之，如果系数为负，表明相应的概率将越小。 11例例7.1 7.1 二元选择模型实例二元选择模型实例考虑Gree

8、ne 给出的斯佩克特和马泽欧（1980）的例子，在例子中分析了某种教学方法对成绩的有效性。因变量（GRADE）代表在接受新教学方法后成绩是否改善，如果改善为1，未改善为0。解释变量（PSI）代表是否接受新教学方法，如果接受为1，不接受为0。还有对新教学方法量度的其他解释变量：平均分数（GPA）和测验得分（TUCE），来分析新的教学方法的效果。12（1 1）模型的估计）模型的估计估计二元选择模型，从Equation Specification对话框中，选择Binary估计方法。在二元模型的设定中分为两部分。首先，在Equation Specification区域中，键入二元因变量的名字，随后键入

9、一列回归项。由于二元变量估计只支持列表形式的设定，所以不能输入公式。然后，在Binary estimation method中选择Probit，Logit，Extreme value选择三种估计方法的一种。以例7.1为例，对话框如图7.2所示。 13图图7.2 7.2 二元选择模型估计对话框二元选择模型估计对话框14例7.1的估计输出结果如下： 15参数估计结果的上半部分包含与一般的回归结果类似的基本信息，标题包含关于估计方法（ML表示极大似然估计）和估计中所使用的样本的基本信息，也包括达到收敛要求的迭代次数。和计算系数协方差矩阵所使用方法的信息。在其下面显示的是系数的估计、渐近的标准误差、z

10、-统计量和相应的概率值及各种有关统计量。16在回归结果中还提供几种似然函数： log likelihood是对数似然函数的最大值L(b)，b是未知参数的估计值。 Avg. log likelihood 是用观察值的个数N去除以对数似然函数L(b) ，即对数似然函数的平均值。 Restr. Log likelihood是除了常数以外所有系数被限制为0时的极大似然函数L(b) 。 LR统计量检验除了常数以外所有系数都是0的假设，这类似于线性回归模型中的统计量，测试模型整体的显著性。圆括号中的数字表示自由度，它是该测试下约束变量的个数。17 Probability（LR stat）是LR检验统计量

11、的P值。在零假设下，LR检验统计量近似服从于自由度等于检验下约束变量的个数的2分布。 McFadden R-squared是计算似然比率指标，正像它的名字所表示的，它同线性回归模型中的R2是类似的。它具有总是介于0和1之间的性质。18利用式(7.1.10)，分布函数采用标准正态分布，即Probit模型，例7.1计算结果为(7.1.15)z = (-2.93) (2.34) (0.62) (2.39)利用式(7.1.15)的Probit模型的系数，本例按如下公式给出新教学法对学习成绩影响的概率，当PSI = 0时：(7.1.19)当PSI = 1时：(7.1.20)式中测验得分TUCE取均值

12、(21.938)，平均分数GPA是按从小到大重新排序后的序列。 19图图7.1 7.1 新教学法对学习成绩影响的概率新教学法对学习成绩影响的概率20（2 2）估计选项估计选项因为我们是用迭代法求极大似然函数的最大值，所以Option选项可以从估计选项中设定估计算法与迭代限制。单击Options按钮，打开对话框如图7.3所示。图图7.3 Options7.3 Options对话框对话框 21（4 4）产生残差序列）产生残差序列通过Procs/Make Reidual Series选项产生下面三种残差类型中的一种类型。表表7.6 7.6 残差类型残差类型普通残差(Ordinary)标准化残差

13、(Standardized)广义残差(Generalized)227.2 7.2 排序选择模型排序选择模型当因变量不止是两种选择时，就要用到多元选择模型 (multiple choice model)。多元离散选择问题普遍存在于经济生活中。例如：(1) 一个人面临多种职业选择，将可供选择的职业排队，用0，1，2，3表示。影响选择的因素有不同职业的收入、发展前景和个人偏好等；(2) 同一种商品，不同的消费者对其偏好不同。例如，十分喜欢、一般喜欢、无所谓、一般厌恶和十分厌恶，分别用0，1，2，3，4表示。而影响消费者偏好的因素有商品的价格、性能、收入及对商品的需求程度等；(3) 一个人选择上班

14、时所采用的方式自己开车，乘出租车，乘公共汽车，还是骑自行车。23上述3个例子代表了多元选择问题的不同类型。前两个例子属于排序选择问题，所谓“排序”是指在各个选择项之间有一定的顺序或级别种类。而第3个例子只是同一个决策者面临多种选择，多种选择之间没有排序，不属于排序选择问题。与一般的多元选择模型不同，排序选择问题需要建立排序选择模型(ordered choice model)。下面我们主要介绍排序选择模型。 24与二元选择模型类似，设有一个潜在变量 yi*，是不可观测的，可观测的是 yi ，设 yi 有0，1，2，M等M+1个取值。（7.2.1）其中：ui*是独立同分布的随机变量，yi 可以通过

15、 yi*按下式得到（7.2.2） 25设ui*的分布函数为F(x)，可以得到如下的概率（7.2.3）和二元选择模型一样，根据分布函数F(x)的不同可以有3种常见的模型：Probit模型、Logit模型和Extreme value模型。仍然采用极大似然方法估计参数，需要指出的是，M个临界值c1, c2, , cM 事先也是不确定的，所以也作为参数和回归系数一起估计。 267.3 7.3 受限因变量模型受限因变量模型现实的经济生活中，有时会遇到这样的问题，因变量是连续的，但是受到某种限制，也就是说所得到的因变量的观测值来源于总体的一个受限制的子集，并不能完全反映总体的实际特征，那么通过这样的样本

16、观测值来推断总体的特征就需要建立受限因变量模型(limited dependent variable models)。本节研究两类受限因变量模型，即审查回归模型(censored regression models)和截断回归模型(truncated regression models)。 277.3.1 7.3.1 审查回归模型审查回归模型1 1模型的形式模型的形式考虑下面的潜在因变量回归模型 (7.3.1)其中：是比例系数；y*是潜在变量。被观察的数据 y 与潜在变量 y* 的关系如下：(7.3.2)28换句话说，yi*的所有负值被定义为0值。我们称这些数据在0处进行了左截取（审查）（left censored）。而不是把观测不到的 yi* 的所有负值简单地从样本中除掉。此模型称为规范的审查回归模型，也称为Tobit模型。更一般地，可以在任意有限点的左边和右边截取（审查），即

展开阅读全文