文档详情

stata第六讲山大陈波

博****1
实名认证
店铺
PPT
115.50KB
约43页
文档ID:605493938
stata第六讲山大陈波_第1页
1/43

单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,Stata上机实验,,1,离散选择模型,1二项选择模型,,主要包括:,,Probit模型(标准正态分布),,Logit模型(逻辑分布),2,,Logit 模型,,Logit模型假定模型的误差项服从Logistic分布,,,,利用极大似然估计方法拟合,,,Yhat=0 负的产出,,Yhat0(通常yhat=1) 正的产出,,,3,,例如:,,sysuse auto,clear,,logit foreign weight mpg,,相当于计算如下概率:,,Pr(foreign = 1) = F(B0 + B1weight + B2mpg),4,,1获得个体取值为1的概率predict p1,pr,,list p1 foreign,,对比一下结果,判断有正有误,,2对预测准确率的判断,,estat class,,结果解读,5,,敏感性(Sensitivity)指,,即真实值取1而预测准确的概率;,,特异性(Specificity)是指,,即真实值取0而预测准确的概率默认的门限值为0.5。

6,,3受试者操控曲线(Receiver operating characteristic,简称为ROC曲线)是指敏感性与(1-特异性)的散点图,即预测值等于1的准确率与错误率的散点图lroc,,4goodness-of-fit 拟合优度检验,,estat gof,,5变量的边际影响,,回归结果中,,估计量,β,并非“边际效应”(marginal effects),因此要用命令:,,mfx,7,,Probit模型,,Probit模型假定误差项的分布形式为标准正态分布:,,,,,回归方法和检验方法与Logit模型类似probit foreign weight mpg,8,,注意:由于Probit 与Logit 所使用的分布函数不同,其参数估计值并不直接可比雨宫(Amemiya)提出:同一个模型的logit和probit模型大概具有如下关系:,,B,logit,约等于 1.6*B,Probit,,但利用mfx计算的两者的边际效应应该大致相同9,,一个综合例子,,使用美国妇女就业数据集“womenwork.dta”,估计决定就业的Probit与Logit模型被解释变量为work=1,就业;work=0,不就业。

解释变量为age(年龄), married(婚否), children(子女数), education(教育年限)10,,use womenwork,clear,,logit work age married children education,,mfx,,estat class,,predict p1,pr,,list work p1,,lroc,,estat gof,,注意:married是离散变量,因此执行mfx后的结果的含义不同11,,probit work age married children education,,mfx,,estat class,,predict p2,pr,,list work p2,,lroc,,estat gof,,tab work,,tab work if p2>0.5,12,,2多项选择模型,,多项Logit模型:由于可选项目有多项,因此输出结果时stata将自动指定一个为基础类别(Base Output),显示各个变量对另外几个类别的影响系数 13,,use brand,clear,,tab brand,,mlogit brand age female,,结果分析,,可以利用predict提取个体选择概率,,predict p1 p2 p3,,list,,可以根据研究需要,自由地指定用来比较的base outcome(参照点)。

mlogit brand age female,base(3),14,,排序选择模型,,根据GSS的调查数据,不同的家庭母亲与子女之间的关系也不同根据调查显示,有的家庭母子(女)关系比较紧张,有的比较融洽变量包括:warm=关系融洽度(0、1、2、3);educ=子女接受教育的程度;age=子女年龄;male=儿子;prst=职业威望;white=白人;y89=89年调查结果分析不同因素对母子(女)关系的融洽程度有何影响15,,use ordwarm,clear,,tab warm,,建立如下方程:,,,16,,ologit warm ed age male prst white yr89,,oprobit warm ed age male prst white yr89,,结果解读,,,,,,predict p1 p2 p3 p4,,list p1 p2 p3 p4,17,,18,,计数模型,,1泊松回归,,2负二项回归,19,,泊松回归模型,,有些被解释变量只能取非负整数,即0,1, 2, ...,对于这一类“计数数据” ,常使用“泊松回归”(Poisson regression)。

yi,=1, 2,…我们知道,泊松分布的最大特点是条件期望和方差相等即,,20,,利用数据集poissonreg.dta估计决定初中生旷课天数(daysabs)的计数模型解释变量为langarts(语言艺术课成绩)与male(是否男性)use poissonreg,clear,,poisson daysabs langarts male,,predict p1,n,,list,,mfx,,estat gof,21,,泊松MLE分析常常受到很多限制,如泊松分布的所有概率以及更高阶矩完全由其均值决定,特别是方差等于均值这一点有明显的局限性事实表明,大多数应用都难以满足这一条件如果被解释变量的方差明显大于期望,即存在“过度分散”(overdispersion),,因此,如果出现“过度分散”,可以考虑使用“负二项回归”22,,负二项回归模型,所谓负二项分布是指,在独立的实验中,成功n次的时候,失败次数x的概率分布当成功n次时,实验停止,此时失败次数为x,那么总的实验次数为(n+x),而且最后一次(即第(n+x)次)是成功的那么,前(n+x-1)次试验中成功次数为(n-1)、失败次数为x负二项分布适用于当试验成功的次数(n)确定下来后,试验失败的次数(x)的分布。

23,,nbreg daysabs langarts male,,命令结果中将提供一个LR 检验,,,原假设:不存在过度分散,应该使用泊松回归此时alpha=0备则假设: alpha0,不能使用泊松回归24,,受限因变量模型,1断尾回归,,2截取回归,25,,断尾回归,,对于线性模型,yi,=,x’B,+,εi,,假设由于某种原因,只有满足,yi,≥,c,(,c,为常数)的数据才能观测到因此,当,yi,<,c,时,没有任何有关{xi,yi} 的数据被解释变量在C点就存在“左边断尾”(left truncation at C)26,,左边断尾:truncreg y x1 x2 x3,ll(#),,右边断尾:truncreg y x1 x2 x3,ul(#),,双边断尾:truncreg y x1 x2 x3,ll(#) ul(#)、,,,sysuse auto,clear,,truncreg price weight length gear_ratio, ll(10000),,reg price weight length gear_ratio if price>=10000,27,,截取回归,,对于线性模型,yi,=,x’B,+,εi,,如果满足,yi,≥,c,或者( yi ≤ c)( c为常数),使得yi=c。

截取回归与断尾回归不同的是,我们虽然有全部的观测数据,但对于某些观测数据,被,,解释变量,yi,被压缩在一个点上了此时,,yi,的概率分布就变成由一个离散点与一个连续分布所组成的“混合分布”28,,tobit y x1 x2 x3,ll(#) (变量<#的被左截断),,tobit y x1 x2 x3,ul(#)(变量>#的被右截断),,tobit y x1 x2 x3,ll(#) ul(#)(l同时定义下限和上限),29,,利用womenwork.dta的数据进行普通OLS回归和截取回归被解释变量为lwf(log of wage if working and 0 if not working)解释变量为age(年龄), married(婚否), children(子女数), education(教育年限)use womenwork,clear,,reg lwf age married children education,,tobit lwf age married children education,ll(0),30,,随机数的产生和常用分布,,例1:产生10000个服从[0,1]均匀分布的随机数和10000个服从正态分布的随机数。

clear,,set obs 10000,,gen x = uniform(),,histogram x,,gen y = invnormal(uniform()),,histogram y, normal,31,,伪随机数,,例二:,,clear,,set obs 10000,,gen x1 = uniform(),,gen x2 = uniform(),,,list x1 x2 in 1/50,,但是如果加上一句话:,set seed 123,,情况会发生变化32,,set seed 12345,,gen x3 = uniform(),,set seed 12345,,gen x4 = uniform(),,,list x3 x4 in 1/50,33,,原因:计算机产生的随机数是伪随机数,它是通过一个或者多个复杂的公式计算出来的,是有迹可寻的例如:公式可以为:,,,X_j = (a*X_(j-1) + c) mod m (j = 1,2, ...),,其中:,m,是一个很大的数;,,,a*X_(j-1),为种子蒙特卡罗模拟和自抽样一般都要提供种子,已被检验和分析34,,常用分布随机数的产生,,findit rnd,,1。

自由度为k的chi2 分布 Chi2(k),,clear,,rndchi 10000 5,,histogram xc, normal,,特点:向右拖尾自由度为,k,的,t,分布 t(k),,clear,,rndt 10000 5,,histogram xt, normal,,特点:尖峰厚尾,35,,3自由度为k1,k2的F分布,,clear,,rndf 1000 3 20,,histogram xf,,4参数为,λ,的指数,分布:,,,clear,,rndexp 10000 3,,histogram xe,,,更多的统计分布量察看 help rnd,36,,自抽样(Bootstrap),,实质:可重复抽样,,通过一个简单例子说明基本原理:1---9九个数求均值clear,,input x 输入1---9九个数,,保存为sample.dta,,use sample,clear,,bsample 9,,list,,反复执行:可以发现每次不同的重复抽样37,,利用Bootstrap命令实现模拟:,,use sample,clear,,bootstrap x_m = r(mean), reps(500) saving(sample1,replace): sum x,,或者简写为:,,bs x_m = r(mean), reps(500) saving(sample1,replace): sum x,,use sample1,clear,,sum x_m,38,,使用BS得到标准误,,sysuse auto,clear,,普通回归: reg price weight length foreign,,利用BS方法:reg price weight length foreign,vce(bs,reps(500)),,或者使用下列方法:,,bootstrap, reps(500):reg price weight length foreign,39,,蒙特卡罗模拟,,基本思想:,,,,向这个正方形随机地射箭,并假设其落点在该正方形上服从二维均匀分布。

重复实验,n,次(,n,很大),其中有,m,次落在1/4圆内根据大数定律,,,m/n,→,π/,4 ,故,π,≈ 4,m/n,40,,模拟中心极限定理,,根据中心极限定理(CLT),当样本容量,n,→ ∞时,样本均值收敛于正态分布假设,x,,服从在(0,1) 上的均匀分布,样本容量为30,我们用蒙特卡罗法得到样本均值的分布,并将其与正态分布相比较为此,抽取10,000 个样本容量为30 的随机样本,得到30个样本均值的10,000 个观测值,然后画其直方图41,,建立程序:lnsim.ado,,cap program drop lnsim,,program define lnsim, rclass,,version 10,,drop _all,,set obs 30,,tempvar z,,gen `z' = uniform(),,summarize `z',,return scalar mean = r(mean),,end,42,,simulate mean=r(mean) ,reps(10000): lnsim,,hist mean,normal,,edit,,显示的每一个数是30个[0,1]之间随机数的均值,一共10000个,其分布为正态分布。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档