《二元选择模型》PPT课件.ppt

资源描述

《《二元选择模型》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《二元选择模型》PPT课件.ppt（45页珍藏版）》请在金锄头文库上搜索。

1、二限值因变量模型限值因变量有哪些情形 limiteddependentvariableregressionmodel LDV 当因变量为定性变量或不连续变量或是受约束的变量时统称为限值因变量回归模型不同的限值因变量模型中因变量的情形不同所使用的估计方法不同如非线性最小二乘法但使用最大似然估计法较多限值因变量有哪些情形 limiteddependentvariableregressionmodel LDV 线性概率模型 linearprobabilitymodel LPM 对数单位模型 logitmodel 概率单位模型 probitmodel 托比模型 tobitmodel

2、泊松模型 possionmodel 截取回归模型 censoredregressionmodel 断尾回归模型 truncatedregressionmodel 二元选择模型 Binaryoutcomemodel 一线性概率模型二 Logitmodel三 probitmodel二元选择模型下的参数估计解释系数解释等 2 1线性概率模型因变量是一个取值为0 1的二值结果的分类变量考虑模型其中 y表示已婚妇女是否参与劳动力市场 x为一系列自变量如收入的其他来源经验经验平方年龄小于6岁的子女数家庭中6 18岁的子女数 ExampleFromWooldridge 在线性概率模型中

3、参数度量的是在保持其他因素不变的情况下因自变量的变化导致成功概率的变化用OLS来估计何为成功的定义 Y 1 example Wooldridge Mroz 1987 线性概率模型的缺陷 1 干扰项的非正态性 2 干扰的异方差性 Ui的方差依赖于Yi的条件期望值后者又依赖于X的取值所以Ui的方差最终依赖于X 3 4 可疑的拟合优度R2对于给定的X Y不是0就是1 要不是位于横轴的一条线要么是y 1的一条线很难有LPM能很好地拟合这样的点对于异方差问题即使通过广义最小二乘法得到异方差条件下的有效估计量仍有下面问题 1 概率拟合值仍可能落在 0 1 之外 2 因为随机扰动项

4、的分布不是正态的是两点分布所以该估计量不是有效估计量是渐近有效估计量线性概率模型的改进所估计的概率能落在 0 1 之间同时对于所有的xi 当xi增加时希望yi也单调增加或单调减少显然累积概率分布函数能满足这样的要求常用的包括logistic分布正态分布 weibull分布极值分布但probit和logit分布最常用 Weibull分布不假设对称性 P Y 1 X exp exp xb cdf Log log分布 P Y 1 X 1 exp exp xb Probit和logistic分布 Probit曲线和logit曲线很相似两条曲线都是在pi 0 5处有拐点但lo

5、git曲线在两个尾部要比Probit曲线厚两种分布的概率值分别见表1 2 2Logit模型在线性概率模型LPM中假定响应概率对一系列参数是线性的 Logit模型也称为对数单位模型表示为 linkfunction 对数单位模型的特点该模型是McFadden于1973年首次提出采用的是logistic概率分布函数从logit模型可以看出 logit模型的一个重要优点是把在 0 1 区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比也叫发生比率odds 问题 logit累积概率分布函数的斜率在pi 0 5时最大在累积分布两个尾端的斜率逐渐减小说明相对于pi 0 5附近的

6、解释变量xi的变化对概率的变化影响较大而相对于pi接近0和1附近的xi值的变化对概率的变化影响较小对数单位模型的特点 1 P保证落在0 1之间 2 虽然L对X是线性但P对X并不是线性 3 斜率系数解释的是X的变化导致的L的变化而不是概率的变化 4 但我们关心的是X的变化导致的概率的变化如何导出在估计出系数后利用推导出 5 如何估计 2 3LOGIT模型的估计采用极大似然估计法为什么采用极大似然估计法 Stata命令 logitdepvar indepvars if in weight options 极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的的估计值从样本

7、看如果第一种选择发生了n次第二种选择发生了N n次设采取第一种选择的概率是pi 采取第二种选择的概率是 1 pi 重新将样本数据排列使前n个观测值为第一种选择后N n个观测值为第二种选择则似然函数是发生比率 odds 概念的延伸 1 发生比率比 oddsratio 如男性相对于女性的失业发生比率比为 2 相对风险 relativerisk 指某一暴露期内 exposureinterval 的相对发生概率风险是指所关注事件在某一给定时期内的发生概率 example 设有两个规模各为25人的试验组试验组服用某种药物控制组服用安慰剂若试验组中有2人感染了疾病控制组中有3人感染

8、了疾病则试验组的患病风险为2 25 0 08 控制组为3 25 0 12 则试验组相对于控制组的相对患病风险为0 08 0 12 0 67 说明试验组的患病风险大约为控制组的三分之二当事件发生的概率很小时发生比率比常被用来近似地表示相对风险 Probit模型为了解释二分因变量除了逻辑斯蒂函数以外还可以采用正态分布函数这就是Probit模型也称为概率单位模型若G采取如下形式这样可得到Probitmodel Probit模型的估计极大似然估计法STATA命令 probitdepvar indepvars if in weight probit options 2 4潜变量模型导

9、出的logit和probit模型 Logitandprobitmodel都可以由潜变量模型推导出来以公共交通工具和私人交通工具的选择为例如果某一个体选择公共交通工具或私人交通工具的效用分别表示为无论对于标准正态分布还是逻辑分布上式都可以写成似然函数可写为其中f表示概率密度函数模型回归系数的解释 1 由于Probit与Logit使用的分布函数不同其参数估计值并不直接可比须计算边际效应然后进行比较 2 但对于非线性模型边际效应不是常数随着解释变量而变常用的边际效应概念 1 平均边际效应 averagemarginaleffect 即分别计算在每个样本观测值上的边际效应然后

10、进行简单算术平均 2 样本均值处的边际效应 marginaleffectatmean 即在X 均值处的边际效应 3 在某代表值处的边际效应 marginaleffectatarepresentativevalue 即给定x 在x x 处的边际效应 3 在非线性模型中样本均值处的个体行为并不等于样本中个体的平均行为 averagebehaviorofindividualsdiffersfrombehavioroftheaverageindividual 4 对于政策分析而言平均边际效应 Stata的默认方法或在某代表值处的边际效应通常更有意义模型回归系数解释1 以发生比率比的方式解释lo

11、git参数估计值适用于虚拟变量含义为在控制了收入的情况下女性参与投票的发生几率几乎是男性的2倍对于连续变量回归系数的指数表明该自变量每上升一个单位所带来的发生比率的倍数变化即在性别相同的情况下收入每增加1000元投票的发生比率将是原来的1 01倍 exp 0 012 模型回归系数的解释对于logit和probit模型我们关注的是自变量对响应概率的影响若是连续的对的较小变化则有通常是将的样本平均值带入上式来求 Stata中可通过margins的命令来求得边际效应模型评价与比较1 的局限性因变量本身不含有尺度信息是类别变量 2 拟合优度检验3 对数似然比统计量4

12、嵌套模型比较 1 拟合优度检验 R2 0 表示模型完全不拟合样本观测值 R2 1 表示模型完全拟合样本观测值 McFaddenR squared 2 总体显著性检验构造一个似然比统计量其中的零假设是所有参数都为0 备择假设是不全为0 为模型满足零假设时的似然函数值为模型估计得到的似然函数值若LR较大倾向于拒绝零假设而接受备择假设自由度为当前模型中参数的个数与零模型中参数的个数之差嵌套模型之间的比较如果模型之间是一种嵌套关系对两个模型孰优孰劣进行比较时可以用卡方差异得分来进行检验卡方差异得分等于无约束模型的模型减去约束模型的模型相应自由度为残差自由度的差比较模型1和2

13、孰优孰劣统计不显著说明两个模型在数据拟合上不存在显著差别但是模型2更俭约更好点统计检验与推断单一参数检验 1 Wald检验检验某一变量是否显著依靠的是最大似然估计方法的大样本性质在零假设条件下Agresti 1996 曾指出对于样本规模较小的情况似然比检验要比Wald检验更可靠 2 似然比检验如果两个模型只差一个自变量可看做是存在嵌套关系的模型可以用嵌套模型的检验多参数检验 1 Wald检验也可广义化地应用于多个约束的情况待检验的零假设为 2 似然比检验嵌套模型似然比检验也可以用于对多个约束条件进行检验而这也是常用的联合检验多个参数估计值的方法设M1为具有较多

14、约束的模型对应的似然函数值为L1 M2为具有较少约束的模型对应的似然函数值为L2 那么似然比卡方统计量为自由度为大模型M2中参数个数与小模型中参数个数之差注 M1嵌套于M2 Wald统计量和似然比统计量都利用了大样本性质因此就相同数据相同模型做相同的假设检验它们的结果未必完全相同但随着样本量增加它们会逐渐趋于相等 EXAMPLE 借用wooldridge的数据来看LPM LOGIT PROBIT模型对已婚妇女劳动力市场参与的影响因素系数的比较不同模型之间的系数不能直接比较规律是将probit的系数估计值乘以1 6可以与logit模型的系数估计值进行比较或者将logit模型的系数估计值乘以0 625可以与probit进行比较将probit的斜率估计值除以2 5可以与LPM模型比较或者将logit的斜率估计值除以4可以与LPM比较

展开阅读全文

《二元选择模型》PPT课件.ppt

最新文档