经济计量方法导论第六讲

上传人:新** 文档编号:568335086 上传时间:2024-07-24 格式:PPT 页数:56 大小:1.19MB
返回 下载 相关 举报
经济计量方法导论第六讲_第1页
第1页 / 共56页
经济计量方法导论第六讲_第2页
第2页 / 共56页
经济计量方法导论第六讲_第3页
第3页 / 共56页
经济计量方法导论第六讲_第4页
第4页 / 共56页
经济计量方法导论第六讲_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《经济计量方法导论第六讲》由会员分享,可在线阅读,更多相关《经济计量方法导论第六讲(56页珍藏版)》请在金锄头文库上搜索。

1、第六讲第六讲限值因变量模型限值因变量模型1n限值因变量限值因变量(limited dependent variable, LDV):(limited dependent variable, LDV):即取值范围明即取值范围明显受到限制的因变量显受到限制的因变量n例:因变量值取例:因变量值取1/0(1/0(是否购买是否购买) )n例:因变量为非负数例:因变量为非负数( (出险理赔次数出险理赔次数) )等等n二值因变量的回归建模二值因变量的回归建模n线性概率模型、对数单位模型、概率单位模型线性概率模型、对数单位模型、概率单位模型n不完整观测样本和非随机样本的回归建模不完整观测样本和非随机样本的回归

2、建模n断尾正态回归模型、截取正态回归模型、托宾模断尾正态回归模型、截取正态回归模型、托宾模型型n泊松回归模型泊松回归模型概述2二值因变量回归建模3n二值因变量:因变量只取二值因变量:因变量只取0/10/1两个值两个值n二值响应模型二值响应模型(binary response models):(binary response models):用于二值因变量用于二值因变量的回归建模,目标:研究响应概率的回归建模,目标:研究响应概率n给定自变量给定自变量x x条件下,因变量条件下,因变量y y取取1 1的概率的概率n二值响应模型主要包括二值响应模型主要包括n线性概率模型线性概率模型n对数单位模型对数

3、单位模型n概率单位模型概率单位模型二值因变量回归建模响应概率4n线性概率模型线性概率模型( (linear probability model,LPM)(7.5linear probability model,LPM)(7.5节节) )n是一种最简单的二值响应模型是一种最简单的二值响应模型n源于一般线回归模型源于一般线回归模型n模型形式为:模型形式为:n系数的含义:系数的含义: j j度量了因度量了因x xj j的变化导致的变化导致y y成功成功( (取取1)1)概率的平均变化概率的平均变化: :简单的二值响应模型-线性概率模型5n线性概率模型示例线性概率模型示例: :分析影响妇女外出工作的因

4、素分析影响妇女外出工作的因素(MROZ.WFL)(MROZ.WFL)n是否工作,其他收入来源,受教育程度,工作经历,年龄,年龄小是否工作,其他收入来源,受教育程度,工作经历,年龄,年龄小于于6 6岁的子女数,年龄在岁的子女数,年龄在6-186-18岁之间的子女数岁之间的子女数6n线性概率模型的问题:线性概率模型的问题:n无法保证模型给出的概率值限制在无法保证模型给出的概率值限制在0-10-1范围内范围内n前例中,当:前例中,当:n解决方法:预测值小于解决方法:预测值小于0.50.5的取的取0 0,大于等于,大于等于0.50.5的取的取1 1educ小于3.84时概率为负数;本例中的educ均大

5、于5,虽不必担心,但仍为一个潜在问题7n线性概率模型的问题:线性概率模型的问题:n线性概率模型反映了概率与线性概率模型反映了概率与自变量取值自变量取值之间的线之间的线性相关,无法反映非线性关系性相关,无法反映非线性关系n例:家庭收入和购买商品房的概率例:家庭收入和购买商品房的概率n违背了高斯马尔科夫假定,当违背了高斯马尔科夫假定,当y y为二值变量时:为二值变量时:n表明:除非概率与任何一个表明:除非概率与任何一个x x都不相关,否则都不相关,否则一定存在异方差一定存在异方差8n复杂的二值响应模型复杂的二值响应模型n目的:克服线性概率模型的局限性目的:克服线性概率模型的局限性n策略:策略:nG

6、(z)G(z)的函数值限制在的函数值限制在0-10-1之间,一般为累积分之间,一般为累积分布函数布函数(cumulative distribution function,CDF)(cumulative distribution function,CDF)n种类:种类:n对数单位模型和概率单位模型对数单位模型和概率单位模型n差异:主要体现在差异:主要体现在G G函数的具体形式上函数的具体形式上n问题:问题:G G函数具体形式的选择?函数具体形式的选择?复杂的二值响应模型9n选择选择G G函数具体形式策略的出发点函数具体形式策略的出发点n以满足以满足经典线性模型假设经典线性模型假设的的潜变量模型潜

7、变量模型为基础为基础n潜变量:其值无法观测到的变量潜变量:其值无法观测到的变量( (这里为这里为y y* *,如购买,如购买带来的效应带来的效应) )n显变量:其值能被观测到的变量显变量:其值能被观测到的变量( (这里为这里为y y,取,取1 1或或0)0)ny y* *大于大于0 0时时,y=1; y,y=1; y* *小于等于小于等于0 0时时,y=0,y=0n于是:于是:G G的具体形式取决于的具体形式取决于e e的分布的分布复杂的二值响应模型x对潜变量均值的影响方向与对P(y=1|x)的影响方向相同10n若若e e是逻辑斯蒂随机变量,选用是逻辑斯蒂随机变量,选用LogitLogit模型

8、模型n概率密度函数概率密度函数(PDF)g(PDF)g为:为:nG G是逻辑斯蒂函数,为标准逻辑斯蒂是逻辑斯蒂函数,为标准逻辑斯蒂随机变量的累积分布函数随机变量的累积分布函数(CDF)(CDF):对数单位模型(Logit Model)概率与自变量呈非线性关系与正态分布的形状接近g(0)=0.25g(0)=0.2511n若若e e服从正态分布,选用服从正态分布,选用ProbitProbit模型模型nG G是标准正态的累积分布函数是标准正态的累积分布函数概率单位模型(Probit Model)概率与自变量呈非线性关系 (0)=1/sqrt(2(0)=1/sqrt(2 )=0.4)=0.4逻辑斯蒂函

9、数与正态分布CDF的形状接近,前者较平坦些,正态分布趋近更快些12n极大似然估计极大似然估计(Maximum likelihood estimation,MLE)(Maximum likelihood estimation,MLE): :在所有可能在所有可能的的 值中选择使样本有最大似然性的值中选择使样本有最大似然性的 n基本思路:基本思路:n在给定在给定X Xi i下下y yi i的概率合写为:的概率合写为:n似然函数与联合概率密度函数形式相同:似然函数与联合概率密度函数形式相同:n对数似然函数:对数似然函数:模型的参数估计13nLogitLogit模型具体为:模型具体为:nProbitPr

10、obit模型具体为:模型具体为:求使对数似然函数达到最大时的求使对数似然函数达到最大时的代入整理14解释变量的偏效应n因为:二值响应模型因为:二值响应模型n所以:所以:j j表示表示x xj j变化一个单位引起的变化一个单位引起的I I的平均变化的平均变化( (图中横坐标的变化图中横坐标的变化) ),含义不直观,含义不直观G的反函数关心图中阴影面积的变化15解释变量的偏效应n关心:关心:x xj j变化一个单位引起的响应概率变化一个单位引起的响应概率P P的变化的变化n当当x xj j取值是大致连续,取值是大致连续,x xj j变化极小时响应概率的变变化极小时响应概率的变化近似为图中红色部分的

11、面积化近似为图中红色部分的面积xj的偏效应不仅与j有关,还与比例因子(这里为概率密度函数)有关,即与xj的具体取值有关,是非线性的比例因子16n为方便量化为方便量化x x的偏效应,计算两种偏效应:的偏效应,计算两种偏效应:n第一:平均个人偏效应第一:平均个人偏效应(partial effect at the average, PEA)(partial effect at the average, PEA)n将将x x以均值代入,计算比例因子:以均值代入,计算比例因子:n乘以乘以j j得到得到x xj j的平均个人偏效应的平均个人偏效应n不足:有时不足:有时x x的均值是没有意义的的均值是没有意

12、义的n第二:平均偏效应第二:平均偏效应(average partial effect, APE(average partial effect, APE) ),常用常用n以概率密度均值作为比例因子:以概率密度均值作为比例因子:n乘以乘以j j得到得到x xj j的平均偏效应的平均偏效应n比例因子与概率密度函数有关比例因子与概率密度函数有关nLogitLogit模型为:模型为:nProbitProbit模型为:模型为:17n理论上,理论上,LogitLogit和和ProbitProbit的选择取决于潜变量模型误的选择取决于潜变量模型误差项分布的假设差项分布的假设nLogitLogit和和Probi

13、tProbit偏效应的精确对比:偏效应的精确对比:n不仅看不仅看j j,还需乘以各自的比例因子,还需乘以各自的比例因子 nLogitLogit和和ProbitProbit偏效应的粗略对比:偏效应的粗略对比:n对数单位模型中:对数单位模型中:n概率单位模型中:概率单位模型中:n若两模型给出大致相同的偏效应估计,则两若两模型给出大致相同的偏效应估计,则两j j的关系:的关系: (0)=1/sqrt(2(0)=1/sqrt(2 )=0.4)=0.4g(0)=0.25g(0)=0.25复杂二值响应模型的比较概率单位模型的j j乘以0.4/0.25=1.6,或,对数单位模型的j j除以1.6,两者才可对

14、比18nLogitLogit模型和模型和ProbitProbit模型的示例:模型的示例:分析影响妇女外出工作的因分析影响妇女外出工作的因素素(MROZ.WFL)(MROZ.WFL)19概率与自变量呈非线性nLogitLogit模型的模型的 较较ProbitProbit模型,实际含义更直观明显模型,实际含义更直观明显nLogitLogit模型中:模型中:Logit P的取值范围满足一般线性模型的要求Logit变换,是一种连接函数20的实际意义仍不明显例:有例:有x x1,1,x x2 2两个自变量,两个自变量,x x1 1是二值解释变量。当是二值解释变量。当x x1 1从从0 0变化到变化到1

15、1时:时:优势(odds)优势比自变量变化一个单位引起响应概率比(相对风险)近似为exp()nLogitLogit模型中:模型中:n于是于是: :自变量变化一个单位引起的优势比为exp()接近0时:21nLogitLogit模型中的模型中的 示例示例:分析影响妇女外出工作的因素分析影响妇女外出工作的因素(MROZ.WFL)(MROZ.WFL)妇女受教育年份增加一年,平均外出工作的概率是原来的exp(0.22)=1.25倍22n通常的预测依据:概率阈值通常的预测依据:概率阈值n评价指标评价指标1 1:通过混淆矩阵判断阈值是否恰当:通过混淆矩阵判断阈值是否恰当二值响应模型的评价例:分析影响妇女外出

16、工作的因素(MROZ.WFL)实际值01预测值0 1 23n评价指标评价指标1 1:通过正确预测百分比判断阈值是否恰当:通过正确预测百分比判断阈值是否恰当n例:分析影响妇女外出工作的因素例:分析影响妇女外出工作的因素(MROZ.WFL)(MROZ.WFL)y=0的325个观测中,预测概率小于0.5的有207个,其余有118;0类预测正确率63.69%,总正确率73.57%;与常数模型相比,该模型对0类的预测性能较好,提升了63.69%,对1类的预测性能不好,下降了18.39%,总体提升了16.73%63.69/100、-18.93/0、16.73/43.16混淆矩阵的期望频数分布不足:受样本分

17、布的影响,尤其在非平衡样本中0 01 1合计合计 正确率正确率0 0140140202016016087.50%87.50%1 140400 040400%0%合计合计180180202020020070%70%24n评价指标评价指标2 2:麦克法登:麦克法登(McFadden)(McFadden)的伪的伪R R2 2(pseudo R-squared)(pseudo R-squared), 分子为当前模型的对数似然函分子为当前模型的对数似然函数值,分母是只有截距项模型数值,分母是只有截距项模型的对数似然函数值的对数似然函数值对数似然函数值越大,表明所对数似然函数值越大,表明所在模型参数下得到

18、特定样本的在模型参数下得到特定样本的的可能性越大,模型的拟和优的可能性越大,模型的拟和优度高;反之;度高;反之;如果对数似然比与如果对数似然比与1 1无显著差异,无显著差异,则说明自变量对则说明自变量对Logit Logit P P的线性的线性解释无显著贡献;如果对数似解释无显著贡献;如果对数似然比远远小于然比远远小于1 1,与,与1 1有显著差有显著差异,则说明解释变量对异,则说明解释变量对Logit Logit P P的线性有显著贡献的线性有显著贡献若现有解释变量没有解释若现有解释变量没有解释能力,则:能力,则:越接近越接近1 1越好(取不到越好(取不到1 1)等于1,伪R R2 2等于0

19、25nMcFaddenMcFadden伪伪R R2 2示例:示例:分析影响妇女外出工作的因素分析影响妇女外出工作的因素(MROZ.WFL)(MROZ.WFL)26非随机样本不完整观测样本的回归建模27n非随机样本:采用非概率抽样方式获得的样本非随机样本:采用非概率抽样方式获得的样本(9.5(9.5节节) )n外生样本选择外生样本选择(exendogenous sample selection)(exendogenous sample selection):以自变量以自变量为依据,根据自变量取值范围有针对性地进行样为依据,根据自变量取值范围有针对性地进行样本选择本选择n例:研究年龄职业等因素对年

20、收入例:研究年龄职业等因素对年收入( (因变量因变量) )影响时,影响时,重点考察中年人群,即中年人群入样重点考察中年人群,即中年人群入样n基于外生样本选择方式获得的非随机样本,采用基于外生样本选择方式获得的非随机样本,采用OLSOLS,估计量具有良好特性,估计量具有良好特性n因为:目的是得到因为:目的是得到E(y|x)E(y|x),在由,在由x xi i取值决定的取值决定的任何一个子总体中研究任何一个子总体中研究E(y|x)E(y|x)都是一样的都是一样的非随机样本28n非随机样本:采用非概率抽样方式获得的样本非随机样本:采用非概率抽样方式获得的样本n内生样本选择内生样本选择(endogen

21、ous sample selection)(endogenous sample selection):以因变量为以因变量为依据,根据因变量取值范围有针对性地进行样本依据,根据因变量取值范围有针对性地进行样本选择选择n例:研究年龄职业等因素对年收入例:研究年龄职业等因素对年收入( (因变量因变量) )影响时,影响时,只考察到了低收入人群,即低收入人群入样只考察到了低收入人群,即低收入人群入样只观测到5万元以下的样本。较总体中的真实回归线平坦,且不知道误差有多大!OLS估计存在偏差通常采用断尾正态回归模型29n不完整观测样本:在不完整观测样本:在随机样本随机样本中,有部分观测的因变中,有部分观测的

22、因变量的具体取值无法确定量的具体取值无法确定n例:研究年收入例:研究年收入( (因变量因变量) )和受教育年份关系时,采用随机和受教育年份关系时,采用随机抽样方式调查。只获得了年收入抽样方式调查。只获得了年收入5 5万元以下万元以下( (或以上或以上) )人群人群的具体年收入值,其余人年收入的具体取值不确定,只知的具体年收入值,其余人年收入的具体取值不确定,只知道其不低于道其不低于( (或不高于或不高于) )5 5万元万元n调查中的调查中的“顶端编码顶端编码(top coding)(top coding)”n例:顶端编码是:例:顶端编码是:5 5万元以上万元以上n特点:特点:n随机样本随机样本

23、n因变量取值不完整,受限制观测因变量取值不完整,受限制观测不完整观测样本30n问:不完整观测样本回归建模时,可否忽略顶端问:不完整观测样本回归建模时,可否忽略顶端编码编码观测观测;答:量大则不能忽略;答:量大则不能忽略n因变量取值特点:在大于因变量取值特点:在大于( (或小于或小于) )某值的区间上某值的区间上连续取值;有大量不可忽略的观测,因变量取值连续取值;有大量不可忽略的观测,因变量取值集中在一个点上集中在一个点上n类似的应用问题类似的应用问题n例:耐用消费品例:耐用消费品( (汽车汽车) )支出支出y yi i,要么大于,要么大于 ( (表示表示该耐用消费品的该耐用消费品的最低最低支出

24、水平支出水平) ),要么等于零,要么等于零n虽然并非不完整观测样本,但性质很类似:虽然并非不完整观测样本,但性质很类似:n随机样本,因变量取值受限制随机样本,因变量取值受限制nOLSOLS估计不恰当,通常采用截取正态回归模型或托宾估计不恰当,通常采用截取正态回归模型或托宾模型模型31n断尾正态回归模型断尾正态回归模型(Truncated normal regression model) (Truncated normal regression model) :针:针对基于内生样本选择方式获得的非随机样本对基于内生样本选择方式获得的非随机样本n例:研究年龄等因素对年收入例:研究年龄等因素对年收入

25、(y)(y)影响时重点考影响时重点考察高收入人群,即没有观测察高收入人群,即没有观测y y小于小于 的样本的样本n断尾类型:上断尾断尾类型:上断尾(y(y大于大于 的无观测的无观测) )、下断尾、下断尾(y(y小于小于 的无观测的无观测) )n断尾正态回归模型派生于满足断尾正态回归模型派生于满足经典线性模型假设经典线性模型假设的潜变量模型,以下断尾为例:的潜变量模型,以下断尾为例:断尾正态回归模型32n给定给定x x下下y y* *的概率密度函数为:的概率密度函数为:n截距放入截距放入x x中,中, ()()为标准正态分布的为标准正态分布的PDFPDFn因仅有因仅有y*y* 的样本的样本( (

26、认为截取了原来分布的一部分认为截取了原来分布的一部分) ),密度函,密度函数下方的面积不再等于数下方的面积不再等于1 1。Greene 2003Greene 2003年年提出在提出在y*y* 的的PDFPDF( (归一化处理归一化处理) ), ,即即给定给定x x下下y y的概率密度函数:的概率密度函数:断尾正态分布33断尾正态分布的参数估计n采用极大似然法估计参数采用极大似然法估计参数n似然函数为:似然函数为:n对数似然函数为:对数似然函数为:n最大化对数似然函数,得到最大化对数似然函数,得到( (潜变量模型中的斜率潜变量模型中的斜率参数参数) )和和的极大似然估计值的极大似然估计值34断尾

27、正态回归模型n断尾正态回归模型:描述了因变量的期望:断尾正态回归模型:描述了因变量的期望:n直观上:下断尾中,直观上:下断尾中,E(y)E(y)大于大于E(yE(y* *););上断尾中,上断尾中,E(y)E(y)小于小于E(yE(y* *) )n依据:若依据:若x x是服从均值为是服从均值为方差为方差为2 2的正态分布的正态分布的随机变量,有:的随机变量,有:35n因为:因为:n所以:所以:n因为:因为:n所以,对于任意所以,对于任意c c,都有:,都有:n 称为逆米尔斯比率称为逆米尔斯比率(inverse Mills ratio)(inverse Mills ratio),是标准正态,是标

28、准正态PDFPDF与标准正态与标准正态CDFCDF在在c c处的值之比处的值之比n可见:可见:潜变量潜变量Y Y* *的期望不是的期望不是Y Y期望的一致性估计,偏期望的一致性估计,偏误为误为 。对样本采用。对样本采用OLSOLS估计是有偏误的估计是有偏误的( 时时y y等于等于y y* *( (无限观测无限观测值值);y);y* * 00时时y y等于等于y y* *( (无限观测值无限观测值) );y y* *00)E(y|y0)同断尾正态回归模型同断尾正态回归模型n又因为:又因为:n所以:所以:简写为45nTobitTobit模型模型( (因变量的期望因变量的期望) )为:为:nE(y|

29、x)E(y|x)是是x x和和的非线性函数的非线性函数托宾模型46n因为:因为:n所以,所以,x xj j的偏效应:的偏效应:n结论:结论:nx xj j的偏效应不仅与潜变量模型中的的偏效应不仅与潜变量模型中的j j有关,还与有关,还与比例因子有关比例因子有关. .通常通常APEAPE比例因子取:比例因子取:n对偏效应估计很重要对偏效应估计很重要n对样本采用对样本采用OLSOLS估计得到的偏效应需乘以比例因子,估计得到的偏效应需乘以比例因子,才与才与TobitTobit模型的偏效应有可比性,进而判断模型的偏效应有可比性,进而判断TobitTobit模型的效果模型的效果比例因子,取值在(0-1)

30、之间托宾模型解释变量的偏效应47n忽略忽略角点解响应且采用角点解响应且采用断尾回归模型:断尾回归模型:n不忽略不忽略角点解响应且采用角点解响应且采用TobitTobit模型:模型:n两者对因变量期望的估计相差两者对因变量期望的估计相差 (x(x / / ) )倍,即样本中倍,即样本中非角点解响应的比例非角点解响应的比例n所以所以: :当当y=0y=0的观测很少,断尾回归与的观测很少,断尾回归与TobitTobit模型模型的估计近似相等;否则,应采用的估计近似相等;否则,应采用TobitTobit模型模型断尾回归模型与托宾模型48n断尾正态回归模型的示例断尾正态回归模型的示例( (例例17.2

31、MROZ.WFL)17.2 MROZ.WFL):已婚妇女外出工作:已婚妇女外出工作小时数的影响因素分析小时数的影响因素分析( (受教育程度受教育程度) )n采用断尾回归:采用断尾回归:735735人中人中325325人工作小时数为人工作小时数为0 0,视为断尾,视为断尾49断尾回归:潜变量模型断尾回归模型50截取回归模型潜变量模型截取回归:51n泊松回归模型泊松回归模型(Poisson regression model)(Poisson regression model)解决因变量为解决因变量为计数变量计数变量(count variable)(count variable)的问题的问题n例:研

32、究驾龄等因素对车辆保险赔付平均次数例:研究驾龄等因素对车辆保险赔付平均次数(y)(y)的影响;给定驾龄等自变量,赔付次数为的影响;给定驾龄等自变量,赔付次数为某次的概率某次的概率n计数变量可能为计数变量可能为0 0,可选择指数模型:,可选择指数模型:泊松回归模型52n计数变量服从泊松分布计数变量服从泊松分布n泊松回归模型:泊松回归模型:y y服从以服从以x x为条件的泊松分布为条件的泊松分布n用于估计用于估计x x条件下条件下y y取取h h次的概率次的概率n用于参数估计的对数似然函数:用于参数估计的对数似然函数:n最大化对数似然函数,得到最大化对数似然函数,得到的极大似然估计值的极大似然估计

33、值泊松回归模型53n自变量自变量x xj j对对E(y)E(y)的偏效应:的偏效应:n偏效应不仅取决于偏效应不仅取决于,还取决于比例因子,还取决于比例因子n通常采用通常采用APEAPE比例因子:比例因子:n比例因子等于比例因子等于y y的样本平均值的样本平均值n偏效应为:偏效应为:n与普通对数与普通对数- -水平模型的大致比较:水平模型的大致比较:x提高一个单位,E(y)变化百分数大致为100比例因子54n泊松回归示例泊松回归示例( (例例17.4 CRIME1.WFL)17.4 CRIME1.WFL):分析拘捕次数的影响因素:分析拘捕次数的影响因素55nC17.2C17.2nC17.3C17.3nC17.5(C17.5(第三问不做第三问不做) )作业56

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号