《第六章离散因变量和受限因变量模型》由会员分享,可在线阅读,更多相关《第六章离散因变量和受限因变量模型(69页珍藏版)》请在金锄头文库上搜索。
1、1第六章 离散因变量和受限因变量模型离散因变量和受限因变量模型 通通常常的的经经济济计计量量模模型型都都假假定定因因变变量量是是连连续续的的,但但是是在在现现实实的的经经济济决决策策中中经经常常面面临临许许多多选选择择问问题题。人人们们需需要要在在可可供供选选择择的的有有限限多多个个方方案案中中作作出出选选择择,与与通通常常被被解解释释变变量量是是连连续续变变量量的的假假设设相相反反,此此时时因因变变量量只只取取有有限限多多个个离离散散的的值值。例例如如,人人们们对对交交通通工工具具的的选选择择:地地铁铁、公公共共汽汽车车或或出出租租车车;投投资资决决策策中中,是是投投资资股股票票还还是是房房
2、地地产产。以以这这样样的的决决策策结结果果作作为为被被解解释释变变量量建建立立的的计计量量经经济济模模型型,称称为为离离散散被被解解释释变变量量模模型型(modelswithdiscretedependentvariables),或或者者称为分类选择模型。称为分类选择模型。2在在实实际际中中,还还会会经经常常遇遇到到因因变变量量受受到到某某种种限限制制的的情情况况,这这种种情情况况下下,取取得得的的样样本本数数据据来来自自总总体体的的一一个个子子集集,可可能能不不能能完完全全反反映映总总体体。这这时时需需要要建建立立的的经经济济计计量量模模型型称称为为受受限限因因变变量量模模型型(limite
3、ddependentvariablemodel)。这这两两类模型经常用于调查数据的分析中。类模型经常用于调查数据的分析中。3第一节第一节第一节第一节 二元选择模型二元选择模型二元选择模型二元选择模型 在离散选择模型中,最简单的情形是在两个可供选择的在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(择模型(binarychoicemodel)。在实际生活中,我们经常)。在实际生活中,我们经常遇到二元选择问题。例如,在买车与不买车的选择中,买车遇到二元选择问题。例如,在买车与不买车的选择中
4、,买车记为记为1,不买记为,不买记为0。是否买车与两类因素有关系:一类是车。是否买车与两类因素有关系:一类是车本身所具有的属性,如价格、型号等;另一类是决策者所具本身所具有的属性,如价格、型号等;另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。定特征的个体作某种而不作另一种选
5、择的概率。4为为了了深深刻刻地地理理解解二二元元选选择择模模型型,首首先先从从最最简简单单的的线线性性概概率率模型开始讨论。线性概率模型的回归形式为:模型开始讨论。线性概率模型的回归形式为: 其其中中:N是是样样本本容容量量;k是是解解释释变变量量个个数数;xj为为第第j个个个个体体特特征征的的取取值值。例例如如,x1表表示示收收入入;x2表表示示汽汽车车的的价价格格;x3表表示示消消费费者的偏好等。设者的偏好等。设 yi 表示取值表示取值为为0和和1的离散型随机变量:的离散型随机变量:ui为相互独立且均值为为相互独立且均值为0的随机扰动项。的随机扰动项。一、一、一、一、线性概率模型及二元选择
6、模型线性概率模型及二元选择模型线性概率模型及二元选择模型线性概率模型及二元选择模型5令令pi =P (yi =1),那么那么1-pi =P (yi =0)于是于是又因为又因为E(yi ) =xi ,xi =(x1i ,x2i,xki), =( 1 , 2, k) 从而有下面的等式:从而有下面的等式:即:回归模型测量了即:回归模型测量了y=1的概率,所以称之为线性概率模型。的概率,所以称之为线性概率模型。6线性概率模型(线性概率模型(LPM)存在的问题:)存在的问题:1、只只有有当当xi 的的取取值值在在(0,1)之之间间时时才才成成立立,否否则则就就会会产产生生矛矛盾盾,而而在在实实际际应应用
7、用时时很很可可能能超超出出这这个个范范围围。因因此此,线线性性概概率率模模型型常常常写成下面的形式:常写成下面的形式:2、模型存在异方差性、模型存在异方差性73、yi非正态分布。非正态分布。4、P(yi=1)是是x的线性函数。的线性函数。针针对对线线性性概概率率模模型型的的上上述述问问题题,考考虑虑对对模模型型进进行行适适当当变变换换。假假设设有有一一个个未未被被观观察察到到的的潜潜在在变变量量yi*,它它与与xi之之间间具具有线性关系,即有线性关系,即其其中中:ui*是是扰扰动动项项,是是一一个个分分布布函函数数为为F的的连连续续型型随随机机变变量量。yi和和yi*的关系如下:的关系如下:8
8、 yi*大大于于临临界界值值0时时,yi=1;小小于于等等于于0时时,yi=0。这这里里把把临临界界值值选选为为0,但但事事实实上上只只要要xi包包含含有有常常数数项项,临临界界值值的的选选择择就就是是无关的,所以不妨设为无关的,所以不妨设为0。这样。这样其其中中:F是是ui*的的分分布布函函数数,要要求求它它是是一一个个连连续续函函数数,并并且且是是单单调调递递增增的的。因因此此,原原始始的的回回归归模模型型可可以以看看成成如如下下的的一一个个回回归模型:归模型:即即yi关于它的条件均值的一个回归。关于它的条件均值的一个回归。9 分分布布函函数数的的类类型型决决定定了了二二元元选选择择模模型
9、型的的类类型型,根根据据分分布布函函数数F的的不不同同,二二元元选选择择模模型型可可以以有有不不同同的的类类型型,常常用用的的二二元元选选择择模型如表模型如表1所示:所示: 表表表表1 1 常用的二元选择模型常用的二元选择模型常用的二元选择模型常用的二元选择模型 ui*对应的分布对应的分布分布函数分布函数F 相应的二元选择模型相应的二元选择模型标准正态分布标准正态分布Probit 模型模型逻辑分布逻辑分布Logit 模型模型极值分布极值分布Extreme模型模型10例如,例如,Logit模型中,模型中,11例如,例如,Probit模型中,模型中,12二元选择模型采用极大似然估计。似然函数为二元
10、选择模型采用极大似然估计。似然函数为即即对数似然函数为对数似然函数为二、二、二、二、 二元选择模型的估计二元选择模型的估计二元选择模型的估计二元选择模型的估计13对数似然函数的一阶条件为对数似然函数的一阶条件为其其中中:fi 表表示示概概率率密密度度函函数数。如如果果已已知知分分布布函函数数和和密密度度函函数数的的表表达达式式及及样样本本值值,求求解解该该方方程程组组,就就可可以以得得到到参参数数的的极极大大似似然然估估计计量量。例例如如,将将上上述述3种种分分布布函函数数和和密密度度函函数数代代入入上上式式就就可可以以得得到到3种种模模型型的的参参数数极极大大似似然然估估计计。但但是是估估计
11、计式式是是非线性的,需要用迭代法进行求解。非线性的,需要用迭代法进行求解。 二二元元选选择择模模型型中中估估计计的的系系数数不不能能被被解解释释成成对对因因变变量量的的边边际际影影响响,只只能能从从符符号号上上判判断断。如如果果为为正正,表表明明解解释释变变量量越越大大,因因变变量量取取1的的概概率率越越大大;反反之之,如如果果系系数数为为负负,表表明明相相应应的的概率将越小。概率将越小。14例题:心肌梗塞与人体内的两项指标密切相关:例题:心肌梗塞与人体内的两项指标密切相关:HDL高密度脂蛋白(负相关)高密度脂蛋白(负相关)Fib纤维蛋白原(正相关)纤维蛋白原(正相关)Y表示是否患有心肌梗塞(
12、表示是否患有心肌梗塞(1有,有,0无)无)调查调查53个人建立模型。个人建立模型。三、三、三、三、EViewsEViews实现实现实现实现151 1、估计模型、估计模型、估计模型、估计模型(1)在)在EquationSpecification区域中,输入因变量和其他区域中,输入因变量和其他解释变量(不能输入公式)。解释变量(不能输入公式)。 Y C HDL FibY C HDL Fib(2)从)从EstimationSettings列表框中,选择列表框中,选择Binary估计方法;估计方法;然后在然后在Binaryestimation的三种估计方法的三种估计方法Probit,Logit,Ext
13、remevalue中选择一种方法。中选择一种方法。16图图图图2 2 二元选择模型估计对话框二元选择模型估计对话框二元选择模型估计对话框二元选择模型估计对话框17 例例1的估计输出结果如下:的估计输出结果如下: 18参参数数估估计计结结果果的的上上半半部部分分包包含含与与一一般般的的回回归归结结果果类类似似的的基基本本信信息息,标标题题包包含含关关于于估估计计方方法法(ML表表示示极极大大似似然然估估计计)和和估估计计中中所所使使用用的的样样本本的的基基本本信信息息,也也包包括括达达到到收收敛敛要要求求的的迭迭代代次次数数。和和计计算算系系数数协协方方差差矩矩阵阵所所使使用用方方法法的的信信息
14、息。在在其其下下面面显显示示的的是是系系数数的的估估计计、渐渐近近的的标标准准误误差差、z- -统统计计量量和和相相应应的的概率值及各种有关统计量。概率值及各种有关统计量。19在回归结果中还提供几个关于似然函数的统计量:在回归结果中还提供几个关于似然函数的统计量: loglikelihood对数似然函数的最大值对数似然函数的最大值l。 Avg.loglikelihood对数似然函数的平均值,对数似然函数的平均值,l / n。 Restr.Loglikelihood零零模模型型(除除了了常常数数以以外外所所有有系系数被限制为数被限制为0时)的对数似然函数最大值时)的对数似然函数最大值l0。 LR
15、statistic用用于于检检验验模模型型整整体体显显著著性性的的统统计计量量,即即检检验验除除了了常常数数以以外外所所有有系系数数都都是是0的的原原假假设设;其其类类似似于于回归分析中的回归分析中的F检验。检验。LR=- -2(l0- -l) Probability(LRstat)LR统统计计量量的的伴伴随随概概率率。在在原假设下,原假设下,LR统计量近似服从统计量近似服从 2分布。分布。 McFaddenR-squared关关于于似似然然比比的的指指标标,类类似似于于线性回归模型中的线性回归模型中的R2,其值介于,其值介于0和和1之间。之间。202 2、模型分析、模型分析、模型分析、模型分
16、析(1)期望预测表分析()期望预测表分析(EP表)表)用于分析模型预测结果与实际观察值的分组恰当情况(即匹用于分析模型预测结果与实际观察值的分组恰当情况(即匹配吻合情况)。分组恰当的数目也多,表明模型拟合的越好。配吻合情况)。分组恰当的数目也多,表明模型拟合的越好。在方程窗口中,在方程窗口中,ViewPredictionExpectationEvaluation,并并且输入一个截断值(默认为且输入一个截断值(默认为0.5),得到以下结果:),得到以下结果:21 期望预测表期望预测表:(:(Y HDL FibY HDL Fib,p=0.5p=0.5) 22(2)拟合优度检验)拟合优度检验用于用于
17、23 3 3、预测、预测、预测、预测在在方方程程窗窗口口菜菜单单栏栏中中选选择择Procs/Forecast,然然后后单单击击想想要要预预测测的的对对象象。既既可可以以计计算算拟拟合合概概率率,也也可可以以计计算模型中算模型中的的拟合值。拟合值。244 4、产生残差序列、产生残差序列、产生残差序列、产生残差序列通通过过Procs/MakeReidualSeries选选项项产产生生下下面面三三种种残残差差类型中的一种类型。类型中的一种类型。 表表表表3 3 残差类型残差类型残差类型残差类型普通残差普通残差(Ordinary)标准化残差标准化残差(Standardized)广义残差广义残差(Gen
18、eralized)25第二节第二节第二节第二节排序选择模型排序选择模型排序选择模型排序选择模型当当因因变变量量不不止止是是两两种种选选择择时时,就就要要用用到到多多元元选选择择模模型型(multiplechoicemodel)。多多元元选选择择问问题题普普遍遍存存在在于于经经济济生活中。例如:生活中。例如:(1)一一个个人人面面临临多多种种职职业业选选择择,将将可可供供选选择择的的职职业业排排队队,用用0,1,2,3表表示示。影影响响选选择择的的因因素素有有不不同同职职业业的的收入、发展前景和个人偏好等;收入、发展前景和个人偏好等;(2)同同一一种种商商品品,不不同同的的消消费费者者对对其其偏
19、偏好好不不同同。例例如如,十十分分喜喜欢欢、一一般般喜喜欢欢、无无所所谓谓、一一般般厌厌恶恶和和十十分分厌厌恶恶,分分别别用用0,1,2,3,4表表示示。而而影影响响消消费费者者偏偏好好的的因因素素有有商品的价格、性能、收入及对商品的需求程度等;商品的价格、性能、收入及对商品的需求程度等;(3)一一个个人人选选择择上上班班时时所所采采用用的的方方式式自自己己开开车车,乘出租车,乘公共汽车,还是骑自行车。乘出租车,乘公共汽车,还是骑自行车。26 上上述述3个个例例子子代代表表了了多多元元选选择择问问题题的的不不同同类类型型。前前两两个个例例子子属属于于排排序序选选择择问问题题,所所谓谓“排排序序
20、”是是指指在在各各个个选选择择项项之之间间有有一一定定的的顺顺序序或或级级别别种种类类。而而第第3个个例例子子只只是是同同一一个个决决策策者者面面临临多多种种选选择择,多多种种选选择择之间没有排序,不属于排序选择问题。之间没有排序,不属于排序选择问题。下面主要介绍排序选择模型。下面主要介绍排序选择模型。27与与二二元元选选择择模模型型类类似似,设设有有一一个个潜潜在在变变量量yi*,是是不不可可观观测的,可观测的是测的,可观测的是yi,设,设yi 有有0,1,2,M等等M+1个取值。个取值。其其中中:ui*是是独独立立同同分分布布的的连连续续型型随随机机变变量量,yi 可可以以通通过过yi*按
21、按下式得到下式得到28设设ui*的分布函数为的分布函数为F(x),可以得到如下的概率,可以得到如下的概率和和二二元元选选择择模模型型一一样样,根根据据分分布布函函数数F(x)的的不不同同可可以以有有3种种常常见见的的模模型型:Probit模模型型、Logit模模型型和和Extremevalue模模型型。仍仍然然采采用用极极大大似似然然方方法法估估计计参参数数,需需要要指指出出的的是是,M个个临临界界值值c1,c2,cM 事事先先也也是是不不确确定定的的,所所以以也也作作为为参参数数和和回归系数一起估计。回归系数一起估计。29 例例例例22排序模型的实例排序模型的实例排序模型的实例排序模型的实例
22、 在在调调查查执执政政者者的的支支持持率率的的民民意意测测验验中中,由由于于执执政政者者执执行行了了对对某某一一收收入入阶阶层层有有利利的的政政策策而而使使得得不不同同收收入入的的人人对对其其支支持持不不同同,所所以以收收入入成成为为决决定定人人们们是是否否支支持持的的因因素素。通通过过调调查查取取得得了了市市民民收收入入(INC)与与支支持持与与否否(Y)的的数数据据,其其中中如如果果选选民民支支持持则则Yi取取0,中中立立取取1,不不支支持持取取2。我我们们选选取取24个个样样本本进进行行排排序序选选择模型分析。择模型分析。30 1 1估计模型估计模型估计模型估计模型与二元选择模型类似,从
23、主菜单中与二元选择模型类似,从主菜单中选择选择QuickEstimateEquation,在在弹弹出出的的EquationSpecification对对话话框框中中输输入入因因变变量量和和解解释释变变量量(不不包包括括常常数数项项,也也不不能能写写成成表表达达式式),然然后后从从估估计计方方法法中中选选择择ORDERED,并并且且从从Normal,Logist,ExtremeValue三三种种分分布布中中选选择择一一种种,单单击击OK按按钮钮即即可可。对话框如对话框如图图4所示。所示。31图图图图4 4 排序模型的输入对话框排序模型的输入对话框排序模型的输入对话框排序模型的输入对话框32 例例
24、2估计结果如下:估计结果如下:33显示的估计结果中,显示的估计结果中,表表头头包包含含通通常常的的标标题题信信息息,包包括括假假定定的的误误差差分分布布、估估计计样样本本、迭迭代代和和收收敛敛信信息息、y的的排排序序选选择择值值的的个个数数和和计计算算系数协方差矩阵的方法。系数协方差矩阵的方法。在在标标题题信信息息之之下下是是系系数数估估计计和和渐渐近近的的标标准准误误差差、相相应应的的z-统计量及概率值。统计量及概率值。然然 后后 , 还还 给给 出出 了了 临临 界界 值值 LIMIT_1:C(2),LIMIT_2:C(3)的估计及相应的统计量。的估计及相应的统计量。随随着着收收入入水水平
25、平的的提提高高,不不支支持持的的概概率率越越大大。而而且且,y*c1,即即:0.0087x xc2,即即:0.0087x11.5978,=x1330时时,选选民民取取不不支支持态度;而收入在持态度;而收入在9301330只见的选民取中立态度。只见的选民取中立态度。34 2. 2. 模型分析模型分析模型分析模型分析(1)ViewDependentVariableFrequencies产产生生y的的频频率率和累计频率表。和累计频率表。(2)ViewPredictionEvaluation生成期望生成期望-预测表。预测表。3536 3.3.预测预测预测预测 因因为为排排序序选选择择模模型型的的因因变
26、变量量代代表表种种类类或或等等级级,所所以以不不能能用用估估计计的的模模型型直直接接预预测测,需需要要通通过过创创建建模模型型的的方式进行预测。方式进行预测。选选择择Procs/MakeModel,建建立立并并打打开开一一个个包包含含方方程程系系统统的的模模型型窗窗口口,单单击击模模型型窗窗口口方方程程栏栏的的Solve按按钮钮。例例7.2因因变变量量 y的的拟拟合合线线性性指指标标 序序列列被被命命名名为为i_Y_0,拟拟和和值值落落在在第第一一类类中中的的拟拟合合概概率率被被命命名名为为Y_0_0的的序序列列,落落在在第第二二类类中中的的拟拟合合概概率率命命名名为为Y_1_0的的序序列列中
27、中,落落在在第第三三类类中中的的拟拟合合概概率率命命名名为为Y_2_0的的序序列列中中,等等等等。注注意意对对每每一一个个观观察察值值,落落在在每每个个种种类类中中的的拟拟合合概率相加值为概率相加值为1。 表表7.7中中Y_0_0,Y_1_0,Y_2_0分分别别是是支支持持、中中立立、不支持的概率,不支持的概率,Y,INC是实际样本。是实际样本。 37 4 4产生残差序列产生残差序列产生残差序列产生残差序列选选择择Proc/MakeResidualSeries产产生生广广义义残残差差序序列列,输输入入一一个个名名字字或或用用默默认认的的名名字字,然然后后单单击击OK按按钮钮。一一个个排排序序模
28、型的广义残差由下式给出:模型的广义残差由下式给出:(7.5.2)其中:其中:c0=- ,cM+1= 。387.37.3受限因变量模型受限因变量模型受限因变量模型受限因变量模型 现现实实的的经经济济生生活活中中,有有时时会会遇遇到到这这样样的的问问题题,因因变变量量是是连连续续的的,但但是是受受到到某某种种限限制制,也也就就是是说说所所得得到到的的因因变变量量的的观观测测值值来来源源于于总总体体的的一一个个受受限限制制的的子子集集,并并不不能能完完全全反反映映总总体体的的实实际际特特征征,那那么么通通过过这这样样的的样样本本观观测测值值来来推推断断总总体体的的特特征征就就需需要要建建立立受受限限
29、因因变变量量模模型型(limiteddependentvariablemodels)。本本节节研研究究两两类类受受限限因因变变量量模模型型,即即审审查查回回归归模模型型(censored regression models)和和截截断断回回归归模模型型(truncatedregressionmodels)。39 7.3.1 7.3.1 审查回归模型审查回归模型审查回归模型审查回归模型 1 1模型的形式模型的形式模型的形式模型的形式考虑下面的潜在因变量回归模型考虑下面的潜在因变量回归模型(7.3.1)其其中中: 是是比比例例系系数数;y*是是潜潜在在变变量量。被被观观察察的的数数据据y 与与潜潜
30、在变量在变量y*的关系如下:的关系如下:(7.3.2)40换换句句话话说说,yi*的的所所有有负负值值被被定定义义为为0值值。我我们们称称这这些些数数据据在在0处处进进行行了了左左截截取取(审审查查)(leftcensored)。而而不不是是把把观观测测不不到到的的yi* 的的所所有有负负值值简简单单地地从从样样本本中中除除掉掉。此此模模型型称称为为规规范的审查回归模型,也称为范的审查回归模型,也称为Tobit模型。模型。更更一一般般地地,可可以以在在任任意意有有限限点点的的左左边边和和右右边边截截取取(审审查查),即,即(7.3.3)其中:其中: , 代表截取(审查)点,是常数值。如果没有左
31、截代表截取(审查)点,是常数值。如果没有左截取取( (审查审查) )点,可以设为点,可以设为 。如果没有右截取。如果没有右截取( (审查审查) )点,点,可以设为可以设为 。规范的。规范的Tobit模型是具有模型是具有 和和 的的一个特例。一个特例。412 2审查回归模型的极大似然估计审查回归模型的极大似然估计审查回归模型的极大似然估计审查回归模型的极大似然估计 与与前前边边介介绍绍的的几几个个模模型型类类似似,可可以以采采用用极极大大似似然然法法估估计计审查回归模型的参数,对数似然函数为审查回归模型的参数,对数似然函数为(7.3.4)求式求式(7.3.4)的最大值即可得参数的最大值即可得参数
32、 , 的估计。这里的估计。这里f,F分别分别是是u的密度函数和分布函数。的密度函数和分布函数。42特特别别地地,对对于于Tobit模模型型,设设uN(0,1),这这时时对对数数似似然然函数为函数为(7.3.5)式式(7.3.5)是是由由两两部部分分组组成成的的。第第一一部部分分对对应应没没有有限限制制的的观观测测值值,与与经经典典回回归归的的表表达达式式是是相相同同的的;第第二二部部分分对对应应于于受受限限制制的的观观测测值值。因因此此,此此似似然然函函数数是是离离散散分分布布与与连连续续分分布布的的混混合合。将似然函数最大化就可以得到参数的极大似然估计。将似然函数最大化就可以得到参数的极大似
33、然估计。43 例例例例7.37.3审查模型的实例审查模型的实例审查模型的实例审查模型的实例 本本例例研研究究已已婚婚妇妇女女工工作作时时间间问问题题,共共有有50个个调调查查数数据据,来来自自于于美美国国国国势势调调查查局局U.S.BureauoftheCensus(CurrentPopulationSurvey,1993),其其中中y 表表示示已已婚婚妇妇女女工工作作时时间间, x1 x4分分别别表表示示已已婚婚妇妇女女的的未未成成年年子子女女个个数数、年年龄龄、受受教教育育的的年年限限和和丈丈夫夫的的收收入入。只只要要已已婚婚妇妇女女没没有有提提供供工工作作时时间间,就将工作时间作零对待,
34、符合审查回归模型的特点。就将工作时间作零对待,符合审查回归模型的特点。44 7.3.27.3.2截断回归模型截断回归模型截断回归模型截断回归模型 截截断断问问题题,形形象象地地说说就就是是掐掐头头或或者者去去尾尾。即即在在很很多多实实际际问问题题中中,不不能能从从全全部部个个体体中中抽抽取取因因变变量量的的样样本本观观测测值值,而而只只能能从从大大于于或或小小于于某某个个数数的的范范围围内内抽抽取取样样本本的的观观测测值值,此此时时需需要要建建立立截截断断因因变变量量模模型型。例例如如,在在研研究究与与收收入入有有关关的的问问题题时时,收收入入作作为为被被解解释释变变量量。从从理理论论上上讲讲
35、,收收入入应应该该是是从从零零到到正正无无穷穷,但但实实际际中中由由于于各各种种客客观观条条件件的的限限制制,只只能能获获得得处处在在某某个个范范围围内内的的样样本本观观测测值值。这这就就是是一一个个截截断断问问题题。截截断断回回归归模模型型的形式如下:的形式如下:(7.3.7)其其中中:yi 只只有有在在时时才才能能取取得得样样本本观观测测值值,,为两个常数。为两个常数。 对对于于截截断断回回归归模模型型,仍仍然然可可以以采采用用极极大大似似然然法法估估计计模模型型的参数,只不过此时极大似然估计的密度函数是条件密度。的参数,只不过此时极大似然估计的密度函数是条件密度。45 7.5.37.5.
36、3估计估计估计估计审查回归审查回归审查回归审查回归模型模型模型模型 1.1.1.1.模型的估计模型的估计模型的估计模型的估计 为估计审查模型,打开为估计审查模型,打开Equation对话框,从对话框,从EquationSpecification对话框所列估计方法中选择对话框所列估计方法中选择CENSORED估计估计方法。在方法。在EquationSpecification区域,输入被审查的因变区域,输入被审查的因变量的名字及一系列回归项。审查回归模型的估计只支持列量的名字及一系列回归项。审查回归模型的估计只支持列表形式的设定表形式的设定(图图7.5)。46 图图图图7.5 7.5 审查模型的估
37、计对话框审查模型的估计对话框审查模型的估计对话框审查模型的估计对话框47 在三种分布中选择一种作为误差项的分布,在三种分布中选择一种作为误差项的分布,EViews提供提供三种可供选择的分布三种可供选择的分布(表表7.8)。表表表表7.87.8误差项的分布误差项的分布误差项的分布误差项的分布 StandardnormalLogisticExtremevalue (欧拉常数欧拉常数) 还还需需要要在在DependentVariableCensoringPoints一一栏栏提提供供关关于于被被检检查查因因变变量量的的临临界界点点的的信信息息。临临界界点点可可以以是是数数值值、表表达式、序列,还可以是
38、空的。有两种情况需要考虑:达式、序列,还可以是空的。有两种情况需要考虑: 临界点对于所有个体都是已知的;临界点对于所有个体都是已知的; 临界点只对具有审查观察值的个体是已知的。临界点只对具有审查观察值的个体是已知的。48 (1 1)临界点对所有个体都已知)临界点对所有个体都已知)临界点对所有个体都已知)临界点对所有个体都已知按按照照要要求求在在编编辑辑栏栏的的左左编编辑辑区区(Left)和和右右编编辑辑区区(Right)输输入入临临界界点点表表达达式式。注注意意如如果果在在编编辑辑区区域域留留下下空空白白,EViews将假定该种类型的观测值没有被审查。将假定该种类型的观测值没有被审查。例例如如
39、,在在规规范范的的Tobit模模型型中中,数数据据在在0值值左左边边审审查查,在在0值右边不被审查。这种情况可以被指定为:值右边不被审查。这种情况可以被指定为:左编辑区:左编辑区:0右编辑区:右编辑区:blank而一般的左边和右边审查由下式给出:而一般的左边和右边审查由下式给出: 左编辑区:左编辑区:右编辑区:右编辑区:EViews也也允允许许更更一一般般的的设设定定,这这时时审审查查点点已已知知,但但在在观观察察值值之之间间有有所所不不同同。简简单单地地在在适适当当的的编编辑辑区区域域输输入入包包含含审审查查点的序列名字。点的序列名字。49(2 2)临临临临界界界界点点点点通通通通过过过过潜
40、潜潜潜在在在在变变变变量量量量产产产产生生生生并并并并且且且且只只只只对对对对被被被被审审审审查查查查的的的的观观观观测测测测值值值值个体已知个体已知个体已知个体已知在在一一些些情情况况下下,假假设设临临界界点点对对于于一一些些个个体体(和和不不是是对对所所有有的的观观察察值值都都是是可可观观察察到到的的)是是未未知知的的,此此时时可可以以通通过过设设置置0-1虚虚拟拟变变量量(审审查查指指示示变变量量)来来审审查查数数据据。EViews提提供供了了另另外外一一种种数数据据审审查查的的方方法法来来适适应应这这种种形形式式。简简单单地地,在在估估计计对对话话框框中中选选择择Fieldiszero
41、/oneindicatorofcensoring选选项项,然然后后在在合合适适的的编编辑辑区区域域输输入入审审查查指指示示变变量量的的序序列列名名。对对应应于于审审查查指指示示变变量量值值为为1的的观观察察值值要要进进行行审审查查处处理理,而而值值为为0的观察值不进行审查。的观察值不进行审查。50例例如如,假假定定我我们们有有个个人人失失业业时时间间的的观观察察值值,但但其其中中的的一一些些观观察察值值反反映映的的是是在在取取得得样样本本时时仍仍然然继继续续失失业业的的情情况况,这这些些观观察察值值可可以以看看作作在在报报告告值值的的右右边边审审查查。如如果果变变量量rcens是是一一个个代代
42、表表审审查查 的的 指指 示示 变变 量量 , 可可 以以 选选 择择 Field is zero/one indicator ofcensoring设置,并在编辑区域输入:设置,并在编辑区域输入:左编辑区:左编辑区:blank右编辑区:右编辑区:rcens如如果果数数据据在在左左边边和和右右边边都都需需要要审审查查的的话话,对对于于每每种种形形式式的的审查使用单独的审查指示变量:审查使用单独的审查指示变量:左编辑区:左编辑区:lcens右编辑区:右编辑区:rcens这里,这里,lcens也是审查指示变量。完成模型的指定后,单击也是审查指示变量。完成模型的指定后,单击OK。EViews将会使用
43、合适的迭代步骤估计模型的参数。将会使用合适的迭代步骤估计模型的参数。51例例7.3的估计结果如下:的估计结果如下:52 2 2模型的预测与产生残差模型的预测与产生残差模型的预测与产生残差模型的预测与产生残差EViews提提供供了了预预测测因因变变量量期期望望E (y |x, , )的的选选项项,或或预预测测潜潜在在变变量量期期望望E (y*|x, , )的的选选项项。从从工工具具栏栏选选择择Forecast打打开开预预测测对对话话框框。为为了了预预测测因因变变量量的的期期望望,应应该该选选择择Expecteddependentvariable,并并输输入入一一个个序序列列名名称称用用于于保保存
44、存输输出出结结果果。为为了了预预测测潜潜在在变变量量的的期期望望,单单击击Index-Expectedlatentvariable,并并输输入入一一个个序序列列的的名名称称用用于于保保存存输输出出结结果果。潜潜在在变变量量的的期期望望E (y*|x, , )可可以以从从如如下下关关系系中得到:中得到:(7.5.3) 通通过过选选择择Procs/MakeResidualSeries,并并从从残残差差的的3种种类类型型中中进进行行一一种种,可可以以产产生生审审查查模模型型的的残残差差序序列列。审审查查模模型的残差也有型的残差也有3种类型,与前述类似。种类型,与前述类似。53 3 3 估计截断回归模
45、型估计截断回归模型估计截断回归模型估计截断回归模型估估计计一一个个截截断断回回归归模模型型和和估估计计一一个个审审查查模模型型遵遵循循同同样样的的步步 骤骤 , 从从 主主 菜菜 单单 中中 选选 择择 Quick/Estimate Equation, 并并 在在EquationSpecification对对话话框框中中,选选择择CENSORED估估计计方方法法。出出 现现 估估 计计 审审 查查 和和 截截 断断 回回 归归 模模 型型 对对 话话 框框 。 在在 EquationSpecification区区域域键键入入截截断断因因变变量量的的名名称称和和回回归归项项的的列列表表,并并从从
46、三三种种分分布布中中选选择择一一种种作作为为误误差差项项的的分分布布。选选择择Truncatedsample选项估计截断模型。选项估计截断模型。有几点需要补充说明:有几点需要补充说明:首首先先,截截断断估估计计只只对对截截断断点点已已知知的的模模型型进进行行估估计计。如如果果用用指指标标指指定定截截断断点点,EViews将将会会给给出出错错误误信信息息,指指出出这这种种选选择是无效的。择是无效的。 其次,如果有一些因变量的值在截断点之外,其次,如果有一些因变量的值在截断点之外,EViews将将会发出错误信息。而且,会发出错误信息。而且,EViews将会自动排除掉严格等于截将会自动排除掉严格等于
47、截断点的所有观察值。例如,如果指定零作为左截断点,如果断点的所有观察值。例如,如果指定零作为左截断点,如果有观察值低于零,有观察值低于零,EViews将会发出错误信息,并将排除严格将会发出错误信息,并将排除严格等于零的任何观察值。等于零的任何观察值。54在在实实际际应应用用中中,我我们们应应该该根根据据要要研研究究的的变变量量的的数数据据类类型型选选择择合合适适的的模模型型。当当因因变变量量y 表表示示事事件件发发生生的的数数目目,是是离离散散的的整整数数,即即为为计计数数变变量量,并并且且数数值值较较小小,取取零零的的个个数数多多,而而解解释释变变量量多多为为定定性性变变量量时时,应应该该考
48、考虑虑应应用用计计数数模模型型(countmodels)。例例如如,一一个个公公司司提提出出申申请请的的专专利利的的数数目目,以以及及在在一一个个固固定定的的时时间间间间隔隔内内的的失失业业人人员员的的数数目目。在在计计数数模模型中应用较广泛的为泊松模型。型中应用较广泛的为泊松模型。7.47.4计数模型计数模型计数模型计数模型 55 7.4.1 7.4.1 泊松模型的形式与参数估计泊松模型的形式与参数估计泊松模型的形式与参数估计泊松模型的形式与参数估计 设设每每个个观观测测值值yi 都都来来自自一一个个服服从从参参数数为为m(xi , )的的泊泊松松分布的总体,分布的总体,(7.4.1)对对于
49、于泊泊松松模模型型(poissonmodel),给给定定xi 时时yi 的的条条件件密密度度是是泊松分布:泊松分布:(7.4.2)由泊松分布的特点,由泊松分布的特点,(7.4.3)参参数数 的的极极大大似似然然估估计计量量(MLE)通通过过最最大大化化如如下下的的对对数似然函数来得到:数似然函数来得到:(7.4.4)56倘倘若若条条件件均均值值函函数数被被正正确确的的指指定定且且的的条条件件分分布布为为泊泊松松分分布布,则则极极大大似似然然估估计计量量是是一一致致的的、有有效效的的、且且服服从从渐近正态分布。渐近正态分布。 泊泊松松假假定定的的约约束束条条件件在在经经验验应应用用中中经经常常不
50、不成成立立。最最重重要要的的约约束束条条件件是是式式(7.4.3)中中的的条条件件均均值值和和条条件件方方差差相相等等。如如果果这这一一条条件件被被拒拒绝绝,模模型型就就被被错错误误设设定定。这这里里要要注注意意泊泊松松估估计计量量也也可可以以被被解解释释成成准准极极大大似似然然估估计计量量。这种结果的含义在下面讨论。这种结果的含义在下面讨论。57 7.4.2 7.4.2 负二项式模型的形式与参数估计负二项式模型的形式与参数估计负二项式模型的形式与参数估计负二项式模型的形式与参数估计对对泊泊松松模模型型的的常常用用替替代代是是使使用用一一个个负负二二项项式式(negativebinomial)
51、分分布布的的似似然然函函数数极极大大化化来来估估计计模模型型的的参参数数。负负二二项项式分布的对数似然函数如下:式分布的对数似然函数如下:(7.4.5)其其中中: 2是是和和参参数数 一一起起估估计计的的参参数数。当当数数据据过过度度分分散散时时,经经常常使使用用负负二二项项式式分分布布,这这样样条条件件方方差差大大于于条条件件均均值值,由由于于下面的矩条件成立:下面的矩条件成立:(7.4.6)(7.4.7)因此,因此, 2测量了条件方差超过条件均值的程度。测量了条件方差超过条件均值的程度。58 7.4.3 7.4.3 准准准准- -极大似然估计极大似然估计极大似然估计极大似然估计如如果果因因
52、变变量量的的分分布布不不能能被被假假定定为为泊泊松松分分布布,那那么么就就要要在在其其他他分分布布假假定定之之下下执执行行准准-极极大大似似然然估估计计(quasi-maximumlikelihood,QML)。即即使使分分布布被被错错误误假假定定,这这些些准准-极极大大似似然然估估计计量量也也能能产产生生一一个个条条件件均均值值被被正正确确设设定定的的参参数数的的一一致致估估计计,即即对对于于这这些些QML模模型型,对对一一致致性性的的要要求求是是条条件件均均值值被被正正确设定。确设定。 关关 于于 QML估估 计计 的的 进进 一一 步步 的的 细细 节节 参参 见见 Gourieroux
53、,Monfort,和和Trognon( (1984a,1984b) )。Wooldridge( (1990) )介介绍绍了了在在估估计计计计数数模模型型参参数数时时QML方方法法的的使使用用。也也可可参参见见关关于于广义线性模型广义线性模型( (McCullagh和和Nelder,1989) )的扩展的相关文献。的扩展的相关文献。59 1. 1. 泊松准泊松准泊松准泊松准- -极大似然估计极大似然估计极大似然估计极大似然估计如如果果条条件件均均值值被被正正确确设设定定,泊泊松松极极大大似似然然估估计计也也是是服服从从其其他他分分布布类类型型的的数数据据的的准准-极极大大似似然然估估计计。它它将
54、将产产生生参数参数 的一致估计量。的一致估计量。60 2. 2. 指数准指数准指数准指数准- -极大似然估计极大似然估计极大似然估计极大似然估计指数分布的对数似然函数如下:指数分布的对数似然函数如下:(7.4.8)和和其其他他QML估估计计量量一一样样,倘倘若若m(xi, )被被正正确确指指定定,即即使使y 的的条条件件分分布布不不是是指指数数分分布布,指指数数分分布布的的准准-极极大大似似然然估计仍是一致的。估计仍是一致的。61 3. 3. 正态准正态准正态准正态准- -极大似然估计极大似然估计极大似然估计极大似然估计正态分布的似然函数如下:正态分布的似然函数如下:(7.4.9)对对于于固固
55、定定的的 2和和正正确确设设定定的的m(xi, ),即即使使分分布布不不是是正正态的,正态分布的对数极大似然函数仍提供了一致的估计。态的,正态分布的对数极大似然函数仍提供了一致的估计。624. 4. 负二项式准负二项式准负二项式准负二项式准- -极大似然估计极大似然估计极大似然估计极大似然估计 最最大大化化式式(7.3.12)所所表表示示的的负负二二项项式式分分布布的的对对数数似似然然函函数数,对对于于固固定定的的 2,可可以以得得到到参参数数 的的准准-极极大大似似然然估估计计。倘倘若若m(xi , )被被正正确确指指定定,即即使使 y 的的条条件件分分布布不不服服从从负负二二项项式式分分布
56、布,这这个个准准-极极大大似似然然估估计计量量仍仍是是一一致致的。的。63 例例例例7.47.4计数模型的实例计数模型的实例计数模型的实例计数模型的实例 本本例例研研究究轮轮船船发发生生事事故故的的次次数数与与轮轮船船的的特特征征属属性性、运运行行时时间间之之间间的的关关系系。因因变变量量y 表表示示平平均均每每月月轮轮船船发发生生事事故故数数。解解释释变变量量是是轮轮船船特特征征属属性性,包包括括轮轮船船类类型型、建建造造时时间间、使使用用时时期期等等。轮轮船船类类型型有有5种种,分分别别用用x1x5表表示示,4个个建建造造时时间间,分分别别用用y1y4表表示示, z1, z2表表示示两两个
57、个使使用用时时期期,da表表示示运运行行时时间。间。本本例例数数据据符符合合计计数数模模型型的的条条件件,故故采采用用泊泊松松模模型型建建模模。注注意意到到定定性性数数据据较较多多,为为防防止止多多重重共共线线性性,在在引引进进虚虚拟拟变变量量时时,需需要要人人为为地地去去掉掉一一个个。例例如如,轮轮船船类类型型有有5种种x1x5,则则去去掉掉x1,而而在在模模型型中中只只用用其其余余4个个变变量量x2x5,同同样样4个个建建造造时时间间y1y4,在在模模型型中中只只用用其其余余3个个变变量量y2y4,两两个个使使用用时时期期在在模型中只用模型中只用z2。模型如下:。模型如下:(7.4.10)
58、64 7.5.4 7.5.4 估计计数模型估计计数模型估计计数模型估计计数模型 1. 1. 模型的估计模型的估计模型的估计模型的估计 估计一个计数模型,打开估计一个计数模型,打开Equation对话框,然后在估计方对话框,然后在估计方法中选择法中选择COUNT作为估计方法。作为估计方法。EViews显示计数模型估计对显示计数模型估计对话框话框(图图7.6)。图图图图7.6 7.6 计数模型的估计对话框计数模型的估计对话框计数模型的估计对话框计数模型的估计对话框65在在上上面面的的编编辑辑区区域域,列列出出被被解解释释变变量量和和解解释释变变量量。必必须须通通过过列列表表形形式式指指定定计计数数
59、模模型型。模模型型的的形形式式如如方方程程(7.5.4)所示:)所示:(7.5.4)在在Options标标签签中中,可可以以根根据据需需要要改改变变缺缺省省估估计计的的运运算法则、收敛准则、初始值和计算系数协方差的方法。算法则、收敛准则、初始值和计算系数协方差的方法。66EViews提供的提供的5种计数模型的估计方法:种计数模型的估计方法:PoissonMLandQML;NegativebinomialML;ExponentialQML;Normal/NLSQML;NegativebinomialQML。 从上面的从上面的5种计数模型中选择一种,并且对于种计数模型中选择一种,并且对于Negat
60、ivebinomialQML模型需要指定一个值作为固定的方差参数。模型需要指定一个值作为固定的方差参数。前前4种方法对应种方法对应4种因变量的分布,分别为泊松分布、负二项种因变量的分布,分别为泊松分布、负二项分布、指数分布和正态分布。分布、指数分布和正态分布。67例例7.4的估计结果如下:的估计结果如下: 68写成方程如下:写成方程如下:z=(- -6.41)(- -1.29)(- -2.26)(- -0.46)(1.13)(4.31)(4.28)(1.5)(3.13)(8.87) 轮船类型对事故发生有影响,如类型是轮船类型对事故发生有影响,如类型是x5的系数是正的,的系数是正的,会使事故发生
61、的可能增加;建造时间会使事故发生的可能增加;建造时间y2y4的系数基本是递减的,的系数基本是递减的,表明建造时间越长,则发生事故的可能越大;使用时期表明建造时间越长,则发生事故的可能越大;使用时期z2也对也对事故发生产生很大影响,使用时间越长,则发生事故的可能越事故发生产生很大影响,使用时间越长,则发生事故的可能越大;运行时间大;运行时间ln(da)的系数是的系数是0.9,表明运行时间每增加,表明运行时间每增加1%,则发生事故数量会增加则发生事故数量会增加0.9%,因此对发生事故有显著的影响。,因此对发生事故有显著的影响。69 2. 2. 模型的预测与产生残差模型的预测与产生残差模型的预测与产生残差模型的预测与产生残差 选择选择Forecast可以预测因变量可以预测因变量 和线性指标和线性指标( (xb) ),b是参数是参数 的估计值,二者的关系为的估计值,二者的关系为 =exp(xb)。选。选择择ProcMakeResidualSeries,可以产生计数模型的,可以产生计数模型的3种种类型残差,残差类型参照表类型残差,残差类型参照表7.6。