4.3-离散计数数据模型

上传人:小** 文档编号:44838030 上传时间:2018-06-14 格式:PPT 页数:93 大小:1.16MB
返回 下载 相关 举报
4.3-离散计数数据模型_第1页
第1页 / 共93页
4.3-离散计数数据模型_第2页
第2页 / 共93页
4.3-离散计数数据模型_第3页
第3页 / 共93页
4.3-离散计数数据模型_第4页
第4页 / 共93页
4.3-离散计数数据模型_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《4.3-离散计数数据模型》由会员分享,可在线阅读,更多相关《4.3-离散计数数据模型(93页珍藏版)》请在金锄头文库上搜索。

1、4.3 离散计数模型 (Count data models) 离散计数模型的提出 计数事件的概率模型 泊松回归模型 离散计数模型的扩展一、离散计数模型的提出1、经济社会研究中的离散计数问题 计数变量是取值为非负整数的变量 许多经济、社会问题的描述变量都为计数变量 一定时间内发生事故的次数 一年中公司申请的专利数量 一定时间内变换工作的次数 一定时间内到医院就诊的次数 家庭生育孩子的数量 学生在本科4年中不及格课程门数 以这些变量为被解释变量,研究它们的影响因素 ,构成了计量经济学的一类问题。2、计量经济学中的离散计数数据模型 假设 y 是计数变量,x 是一组解释变量 常见的建模方法是选用线性模

2、型 ,用OLS进行回归 由于 , 应该对所有x都非负,矛盾。 选用自然对数变换 在计数数据应用中难以实现,因为相当比例的y取值为 0。 当y没有上界时,最常用的模型是指数函数 非线性最小二乘方法(NLS)可以用于估计离散计 数模型,但效果不理想 NLS 估计量是无效的,除非 是常数 所有计数数据的标准分布都意味着异方差 因此,非负整数和异方差特征决定,有必要引进描 述非负整数特征的概率分布分析离散计数模型。 七十年代末以来,许多学者在计数数据模型的处 理方法方面作出了较大贡献,包括: Gilbert(1979)提出了泊松回归模型, Hausman,Hall和Griliches(1984)提出了

3、负二项回 归模型和Panel方法, Gourier,Monfort和Trogonon(1984)提出了仿最 大似然法。 其中,最先提出的泊松方法在研究计数数据模型 问题中应用得非常广泛。 二、计数事件的概率模型1、计数过程 计数过程的定义 随机过程 被称为计数过程,如果N(t) 表示t时间前发生的事件总量 平稳性(Stationary) 在任何时间区间上,事件发生数量的分布只由 时间区间的长度决定2、单变量泊松过程 在时间区间 上,事件发生1次的概率与t时 间前事件发生的数量无关 在时间区间 上,事件发生1次和0次的概率 分别为 其中, 可以看出,在一个足够短的区间上,事件发生两 次以上的概率

4、趋近于0 使用初始条件 求解以上微分方程 利用概率生成函数得到泊松分布3、泊松分布(Poisson distribution) 在泊松过程中,标准化时间区间长度为 t=1, 则可 以得到参数为 的标准泊松分布 泊松分布的一个重要特征是均值和方差相等,称 为equidispersion。 如果方差大于均值,称为overdispersion;如果 方差小于均值,称为underdispersion。 定理令 , 。当且仅当X与Y独立时, 随机变量 Z=X+Y是泊松分布。 当X与Y独立时,Z的概率生成函数为 则Z服从泊松分布,参数为4、二项分布(Binomial distribution) 随机变量X

5、服从参数为n和p的二项分布, 0p1, 如果 则均值和方差为 E(X)=np, Var(X)=np(1-p) Underdispersion X 服从参数为 和 的负二项分布,即 令 overdispersion 5、对数分布(Logarithmic distribution ) 其中方差和均值为6、计数数据分布特征 如果以泊松分布作为标准,二项分布更集中于均 值,而负二项分布更为分散 所有分布都向左侧倾斜(skewed to the left), 说明在计数分布中,数值较小的数据出现的概率 较高。 7、Katz分布族 非负整数分布可以用递归概率比表示 Katz分布族定义为 其中, ,且当 ,

6、 当 ,分布为泊松分布 当 ,分布为二项分布 当 ,分布为负二项分布 当 ,分布为对数分布三、泊松回归模型1、泊松回归模型(Poisson regression model ) 假设1: 假设2: 假设3:独立同分布 从模型假设可以发现: 非负整数特征 取值为0的概率不可忽略 可以预测事件发生概率 不对称分布(skewed distribution) 异方差2、极大似然估计(MLE) 对数似然函数 最大化似然函数,一阶条件: Hessian矩阵: 由于Hessian矩阵是负定的,对数似然函数是凹 函数,估计值 的二阶条件满足 利用迭代算法,可以求解一阶条件 例如,Newton-Raphson方

7、法g(.)是梯度向量3、例题:本科不及格门数的原因分析 变量 Unpass不及格门数 Score高考成绩 Stime平均每周于用学习的时间 Dsa理、文科虚变量 Dbody健康状况虚变量 数据 数据 经典模型(OLS) Poisson回归模型多余变量检验剔除不显著变量例题 轮船事故次数(accidents)与轮船型号(typea 、b、c、d、e)、制造年份(year60、65、70、 75)、投入使用年份(yearop60、75)和实际服 务时间(servmonth)的关系研究。 样本:34注意入 选的解 释变量部分参数 的经济意 义缺乏合 理解释。 只作为试 例。ACCIDENTS = E

8、XP(1.645572184*TYPEA + 2.353413299*TYPEB + 0.4488787812*TYPEC + 0.8131627072*TYPED + 1.401045748*TYPEE - 0.6726004217*YEAR60 + 0.3731874354*YEAR65 + 0.7675535312*YEAR70 - 0.6994767419*YEAROP60 + 6.388715642e-05*SERVMONTH) 预测结果与观测值的比较4、估计量的性质 模型正确设定,当且仅当存在 满足假设模型正确设定,围绕 对 进行 Taylor展开由一阶条件可知,根据iid假设和大

9、数定律, I为Fisher信息矩阵根据中心极限定理因此, 以上结果表明, 是 的一致估计量由于大样本方差矩阵达到Cramer-Rao下界 ,估计量是大样本有效的因此,正确设定的泊松回归模型满足5、模型设定偏误的原因 柏松回归模型设定偏误的三个来源 均值函数假设 分布假设 独立样本假设 回归模型、方差函数和分布函数联系紧密 在泊松假定下,条件均值和方差相等 比通常的最小二乘回归模型少1个自由度均值函数设定偏误 无法观测的异质性(Unobserved heterogeneity) 解释变量不足以解释所有的个体差异 可以通过如下方法引入, 其中,u独立于x 泊松参数 变化的来源有两个 解释变量x引起

10、的系统性因素 独立于x的个体随机影响令 ,则无法观测的异质性可以看成由省略独立于x 的变量造成的E(u)标准化为1 定理 X、Y都为随机变量,Y有有限的均值和方差, 那么:根据定理,overdispersion分布函数设定偏误 Gourieroux, Monfort and Trognon (1984) 证明 ,当均值正确设定时,当且仅当概率分布函数族 为线性指数族(linear exponential family)时 ,PMLE(pseudo maximum likelihood estimator)是 的一致估计量。 定义:概率测度族被称为线性指数族,如 果 每个关于y的概率密度函数都可

11、以表示为 m是概率密度为l(y,m)的随机变量y的均值 根据Kullback不等式,可以得到等号成立,当且仅当 的PMLE最大化当l(y,m)为线性指数族,均值函数正确设定 时, 最大化因此, 的PMLE是一致估计量 因为泊松分布函数属于线性指数族,所以 当均值函数正确设定时,泊松回归模型得 到参数的一致估计量。6、模型设定检验 在更一般的参数模型中检验泊松模型的参 数约束条件是否成立 LR test (likelihood ratio test) Wald test LM test (Lagrange multiplier test) 基于回归检验equidiversion是否成立 拟合优度

12、检验LR检验 表示最大化的泊松对数似然函数 表示有一个额外参数的更一般模型的 对数似然函数 在泊松假设下:Wald检验 当 为 Wald统计量为 其中, 是 的大样本方差, 是 的 Jacobian矩阵 为参数为 的泊松分布 为均值为 ,方差为 的负二项分 布 原假设设立,当 检验基于t统计量 t统计量在大样本条件下趋近N(0,1)分布LM 检验 LM 检验统计量 是约束条件下的极大似然估计量 g(.)是梯度向量 I(.)是信息矩阵 H0为泊松分布,H1为Katz族Katz函数族定义为:原假设成立,当在原假设下,梯度向量为检验统计量为在原假设下,统计量大样本趋近N(0,1)基于回归的检验 定义

13、 和 回归 的估计量应趋近于1 回归 应趋近于1, 应趋近于0拟合优度检验 Pearson 统计量 Deviance 两个统计量都趋近自由度为n-k的 分布 Pseudo R-squared 由于泊松模型的条件均值非线性,且回归方程存 在异方差,所以它不能产生类似于线性方程中的 R2统计量。学者提出了若干个替代性的统计量, 用以衡量该模型的拟合优度。 该统计量通过把泊松模型 同只有一种观察值的模型 相比较的方法,考察该模 型的拟合优度。但是这个 统计量有时为负,而且会 随变量的减少而变小。 该统计量为各样本观察 值的偏差之和。如果拟 合达到完美状态,则该 统计量为零。 分子和分母都衡量了模型在

14、 只有一种观察值的模型基础 上的改进,分母为改进的最 大空间。所以该统计量的数 值在0到1之间。 “仿R2”统计量 参数约束检验举例 三种经典检验方法 LR test (likelihood ratio test) Wald test LM test (Lagrange multiplier test) 三个统计量都服从 分布,自由度为约束条件的 个数用LR统 计量进 行假设 检验0假设为: 制造年份 对事故次 数无影响拒绝0假设四、离散计数模型的扩展1、不可观测的异质性 均值函数 y的边缘分布为 g(.)为u的概率密度函数 令 假定 为泊松分布 Gamma混合 Gamma分布 为 假设u为Gamma分布 为负二项分布 Inverse Gaussian混合 u为inverse Gaussian分布 Log-Normal混合 exp(u)为均值为 ,方差为 的正态分布2、负二项分布模型(Negative Binomial Regres

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号