计量经济学幻灯片-离散选择变量

资源描述

《计量经济学幻灯片-离散选择变量》由会员分享，可在线阅读，更多相关《计量经济学幻灯片-离散选择变量（56页珍藏版）》请在金锄头文库上搜索。

1、1,第七章离散因变量和受限因变量模型,通常的经济计量模型都假定因变量是连续的，但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择，与通常被解释变量是连续变量的假设相反，此时因变量只取有限多个离散的值作为被解释变量建立的计量经济模型，称为离散被解释变量数据计量经济学模型（models with discrete dependent variables），或者称为离散选择模型(discrete choice model, DCM)。在实际中，还会经常遇到因变量受到某种限制的情况，这种情况下，取得的样本数据来自总体的一个子集，可能不能完全反映总体。这时需要建立的

2、经济计量模型称为受限因变量模型（limited dependent variable model)。,2,7.1 二元选择模型在离散选择模型中，最简单的情形是在两个可供选择的方案中选择其一，此时被解释变量只取两个值，称为二元选择模型（binary choice model）。在实际生活中，我们经常遇到二元选择问题。例如，在买车与不买车的选择中，买车记为1，不买记为0。是否买车与两类因素有关系：一类是车本身所具有的属性，如价格、型号等；另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系，即研究具有某一收入水平的个体买车的可能性。因此，二元选择模型的目

3、的是研究具有给定特征的个体作某种而不作另一种选择的概率。,3,为了深刻地理解二元选择模型，首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为：（7.1.1）其中：N是样本容量；k是解释变量个数；xj为第j个个体特征的取值。例如，x1表示收入；x2表示汽车的价格；x3表示消费者的偏好等。设 yi 表示取值为0和1的离散型随机变量：式（7.1.1）中ui为相互独立且均值为0的随机扰动项。,7.1.1 线性概率模型及二元选择模型的形式,4,令pi = P ( yi =1) ，那么 1 - pi = P ( yi =0) ，于是（7.1.2）又因为E(ui ) = 0 ，所以 E(

4、yi ) = xi，xi =(x1i , x2i , xki ), =(1 , 2 , k )，从而有下面的等式：（7.1.3）,5,式(7.1.3)只有当xi 的取值在(0,1)之间时才成立，否则就会产生矛盾，而在实际应用时很可能超出这个范围。因此，线性概率模型常常写成下面的形式： (7.1.4) 此时就可以把因变量看成是一个概率。那么扰动项的方差为： (7.1.5) 或 (7.1.6),6,由此可以看出，误差项具有异方差性。异方差性使得参数估计不再是有效的，修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值在(0,1)之内，这是线性概率模型一个严重的弱点。由

5、于上述问题，我们考虑对线性概率模型进行一些变换，由此得到下面要讨论的模型。假设有一个未被观察到的潜在变量yi*，它与xi之间具有线性关系，即 (7.1.7) 其中： ui*是扰动项。yi和yi*的关系如下： (7.1.8),7,yi*大于临界值0时，yi =1；小于等于0时，yi =0。这里把临界值选为0，但事实上只要xi包含有常数项，临界值的选择就是无关的，所以不妨设为0。这样 (7.1.9) 其中：F是ui*的分布函数，要求它是一个连续函数，并且是单调递增的。因此，原始的回归模型可以看成如下的一个回归模型： (7.1.10) 即yi关于它的条件均值的一个回归。,8,分布函数的类型决定了二

6、元选择模型的类型，根据分布函数F的不同，二元选择模型可以有不同的类型，常用的二元选择模型如表7.1所示：表7.1 常用的二元选择模型,9,二元选择模型一般采用极大似然估计。似然函数为 (7.1.11) 即 (7.1.12) 对数似然函数为 (7.1.13),7.1.2 二元选择模型的估计问题,10,对数似然函数的一阶条件为 (7.1.14) 其中：fi 表示概率密度函数。那么如果已知分布函数和密度函数的表达式及样本值，求解该方程组，就可以得到参数的极大似然估计量。例如，将上述3种分布函数和密度函数代入式(7.1.14)就可以得到3种模型的参数极大似然估计。但是式(7.1.14) 通常是非线性

7、的，需用迭代法进行求解。二元选择模型中估计的系数不能被解释成对因变量的边际影响，只能从符号上判断。如果为正，表明解释变量越大，因变量取1的概率越大；反之，如果系数为负，表明相应的概率将越小。,11,例7.1 二元选择模型实例考虑Greene 给出的斯佩克特和马泽欧（1980）的例子，在例子中分析了某种教学方法对成绩的有效性。因变量（GRADE）代表在接受新教学方法后成绩是否改善，如果改善为1，未改善为0。解释变量（PSI）代表是否接受新教学方法，如果接受为1，不接受为0。还有对新教学方法量度的其他解释变量：平均分数（GPA）和测验得分（TUCE），来分析新的教学方法的效果。,12,（1）模

8、型的估计从Equation Specification对话框中，选择Binary估计方法。在Equation Specification区域中，键入二元因变量的及一列回归项。由于二元变量估计只支持列表形式的设定，所以不能输入公式。然后，从Binary estimation method 的Probit，Logit，Extreme value三种估计方法中选择一种。,13,例7.1的估计输出结果如下：,14,在回归结果中还提供几种似然函数： log likelihood是对数似然函数的最大值L(b)，b是未知参数的估计值。 Avg. log likelihood 是用观察值的个数N去除以对数

9、似然函数L(b) ，即对数似然函数的平均值。 Restr. Log likelihood是除了常数以外所有系数被限制为0时的极大似然函数L(b) 。 LR统计量检验除了常数以外所有系数都是0的假设，这类似于线性回归模型中的统计量，测试模型整体的显著性。圆括号中的数字表示自由度，它是该测试下约束变量的个数。,15, Probability（LR stat）是LR检验统计量的P值。在零假设下，LR检验统计量近似服从于自由度等于检验下约束变量的个数的2分布。 McFadden R-squared是计算似然比率指标，正像它的名字所表示的，它同线性回归模型中的R2是类似的。它具有总是介于0和1之间的性质

10、。,16,利用式(7.1.10)，分布函数采用标准正态分布，即Probit模型，例7.1计算结果为 (7.1.15) z = (-2.93) (2.34) (0.62) (2.39) 利用式(7.1.15)的Probit模型的系数，本例按如下公式给出新教学法对学习成绩影响的概率，当PSI = 0时： (7.1.19) 当PSI = 1时： (7.1.20) 式中测验得分TUCE取均值(21.938)，平均分数GPA是按从小到大重新排序后的序列。,17,图7.1 新教学法对学习成绩影响的概率,18,（2）估计选项因为我们是用迭代法求极大似然函数的最大值，所以Option选项可以从估计选项中

11、设定估计算法与迭代限制。单击Options按钮，打开对话框如图7.3所示。图7.3 Options对话框,19,（3）预测从方程工具栏选择Procs/Forecast（Fitted Probability /Index），然后单击想要预测的对象。既可以计算拟合概率，，也可以计算指标的拟合值。像其他方法一样，可以选择预测样本，显示预测图。如果解释变量向量xt包括二元因变量yt的滞后值，选择Dynamic选项预测，EViews使用拟合值得到预测值；而选择Static选项，将使用实际的（滞后的）yt-1得到预测值。对于这种估计方法，无论预测评价还是预测标准误差通常都无法自动计算。后者能

12、够通过使用View/ Covariance Matrix显示的系数方差矩阵，或者使用covariance函数来计算。,20,（4）产生残差序列通过Procs/Make Reidual Series选项产生下面三种残差类型中的一种类型。表7.6 残差类型,21,7.2 排序选择模型,当因变量不止是两种选择时，就要用到多元选择模型(multiple choice model)。多元离散选择问题普遍存在于经济生活中。例如： (1) 一个人面临多种职业选择，将可供选择的职业排队，用0，1，2，3表示。影响选择的因素有不同职业的收入、发展前景和个人偏好等； (2) 同一种商品，不同的消费者对其偏好不

13、同。例如，十分喜欢、一般喜欢、无所谓、一般厌恶和十分厌恶，分别用0，1，2，3，4表示。而影响消费者偏好的因素有商品的价格、性能、收入及对商品的需求程度等； (3) 一个人选择上班时所采用的方式自己开车，乘出租车，乘公共汽车，还是骑自行车。,22,与二元选择模型类似，设有一个潜在变量 yi*，是不可观测的，可观测的是 yi ，设 yi 有0，1，2，M等M+1个取值。（7.2.1）其中：ui*是独立同分布的随机变量，yi 可以通过 yi*按下式得到（7.2.2）,23,设ui*的分布函数为F(x)，可以得到如下的概率（7.2.3）和二元选择模型一样，根据分布函数F(x)的不同可以有3

14、种常见的模型：Probit模型、Logit模型和Extreme value模型。仍然采用极大似然方法估计参数，需要指出的是，M个临界值c1, c2, , cM 事先也是不确定的，所以也作为参数和回归系数一起估计。,24,例7.2 排序模型的实例在调查执政者的支持率的民意测验中，由于执政者执行了对某一收入阶层有利的政策而使得不同收入的人对其支持不同，所以收入成为决定人们是否支持的因素。通过调查取得了市民收入(INC)与支持与否(Y)的数据，其中如果选民支持则Yi取0，中立取1，不支持取2。我们选取24个样本进行排序选择模型分析。,25,1 模型的估计从主菜单中选择Objects/New Ob

15、ject/Equation选项，估计方法选择ORDERED,标准估计对话框将如图7.4所示。在Equation Specification区域，键入排序因变量的名字，其后列出回归项。排序估计也只支持列表形式的设定，不用输入一个明确的方程。然后选择Normal，Logist，Extreme Value三种误差分布中的一种即可。,26,例7.2估计结果如下：,27,2. 常用的两个过程 Make Ordered Limit Vector产生一个临界值向量c，此向量被命名为LIMITS01，如果该名称已被使用，则命名为LIMITS02，以此类推。 Make Ordered Limit Covaria

16、nce Matrix产生临界值向量c的估计值的协方差矩阵。命名为VLIMITS01，如果该名称已被使用，则命名为VLIMITS02，以此类推。,28,3. 预测因为排序选择模型的因变量代表种类或等级数据，所以不能从估计排序模型中直接预测。选择Procs/ Make Model，打开一个包含方程系统的没有标题的模型窗口，单击模型窗口方程栏的Solve按钮。例7.2因变量 y 的拟合线性指标序列被命名为i_Y_0，拟和值落在第一类中的拟合概率被命名为Y_0_0的序列，落在第二类中的拟合概率命名为Y_1_0的序列中，落在第三类中的拟合概率命名为Y_2_0的序列中，等等。注意对每一个观察值，落在每个种类中的拟合概率相加值为1。,29,4产生残差序列选择Proc/Make Residual Series产生广义残差序列，输入一个名字或

展开阅读全文