分位回归教程及r语言 实现

上传人:f****u 文档编号:128301393 上传时间:2020-04-20 格式:PDF 页数:23 大小:1.34MB
返回 下载 相关 举报
分位回归教程及r语言 实现_第1页
第1页 / 共23页
分位回归教程及r语言 实现_第2页
第2页 / 共23页
分位回归教程及r语言 实现_第3页
第3页 / 共23页
分位回归教程及r语言 实现_第4页
第4页 / 共23页
分位回归教程及r语言 实现_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《分位回归教程及r语言 实现》由会员分享,可在线阅读,更多相关《分位回归教程及r语言 实现(23页珍藏版)》请在金锄头文库上搜索。

1、14 2 19 用R语言进行分位数回归 基础篇 用R语言进行分位数回归 基础篇 1 詹鹏 北京师范大学经济管理学院 北京 本文根据文献资料整理 以介绍方法为主要目的 作者的主要贡献有 1 整理了分位数回归的一些 基本原理和方法 2 归纳了用R 语言处理分位数回归的程序 其中写了两个函数整合估计结果 3 写 了一个分位数分解函数来处理MM2005 的分解过程 4 使用一个数据集进行案例分析 完整地展现了分 析过程 第一节 分位数回归介绍 一 为什么需要分位数回归 传统的线性回归模型描述了因变量的条件均值分布受自变量X 的影响过程 其中 最小二乘法是估计回 归系数的最基本方法 如果模型的随机误差项

2、来自均值为零 方差相同的分布 那么回归系数的最小二乘 估计为最佳线性无偏估计 BLUE 如果随机误差项是正态分布 那么回归系数的最小二乘估计与极大似 然估计一致 均为最小方差无偏估计 MVUL 此时它具有无偏性 有效性等优良性质 但是在实际的经济生活中 这种假设通常不能够满足 例如当数据中存在严重的异方差 或后尾 尖 峰情况时 最小二乘法的估计将不再具有上述优良性质 为了弥补普通最小二乘法 OLS 在回归分析中的 缺陷 1818年Laplace 2 提出了中位数回归 最小绝对偏差估计 在此基础上 1978年Koenker 和Bassett 3 把中位数回归推广到了一般的分位数回归 Quanti

3、le Regression 上 分位数回归相对于最小二乘回归 应用条件更加宽松 挖掘的信息更加丰富 它依据因变量的条件分 位数对自变量X 进行回归 这样得到了所有分位数下的回归模型 因此分位数回归相比普通的最小二乘回 归 能够更加精确第描述自变量X对因变量Y的变化范围 以及条件分布形状的影响 二 一个简单的分位数回归模型 4 假设随机变量的分布函数为 1 Y的分位数的定义为满足的最小值 即 2 回归分析的基本思想就是使样本值与拟合值之间的距离最短 对于Y 的一组随机样本 样本 均值回归是使误差平方和最小 即 3 样本中位数回归是使误差绝对值之和最小 即 4 样本分位数回归是使加权误差绝对值之和

4、最小 即 14 2 19 用R语言进行分位数回归 基础篇 5 上式可等价表示为 其中 为检查函数 check function 定义为 其中 为指示函数 indicator function z 是条件关系式 当z 为真时 当z 为假时 同线性方程y kx比较 相当于直线的斜率k 可以看出 为分段函数 如下图 所示 现假设因变量Y由k 个自变量组成的矩阵X 线性表示 对于条件均值函数 通过求 解 8 式得到参数估计值 对于条件分位数函数 通过求解 9 式得到参数估计值 式中 函数表示取函数最小值时的取值 三 分位数回归模型的参数估计算法 1 主要算法 1 单纯形算法 Simplex Metho

5、d Koenker和Orey 5 1993 把分两步解决最优化问题的单纯形算法 6 扩展到所有回归分位数中 该算法 估计出来的参数具有很好的稳定性 但是在处理大型数据时运算的速度会显著降低 2 内点算法 Interior Point Method 由于单纯形算法在处理大型数据时效率低下 Karmarker 提出了内点算法 7 Portnoy和Koenker 把这种 方法是用在分位数回归中 得出了处理大型数据时内点算法的运算速度远快于单纯形算法的结论 但内点 14 2 19 用R语言进行分位数回归 基础篇 算法每计算一步都要进行因数分解 当自变量比较多的时候效率比较低 其次 如果要达到和单纯形算

6、法 一样的精度 就必须进行舍入步骤的计算 者也降低了算法的运行效率 3 平滑算法 Smoothing Method 上述两种算法都有各自的优点和不足 而有限平滑算法则是一种同时兼顾运算效率以及运算速度的方 法 Chen把这种算法扩展到计算回归分位数中 8 2 R语言quantreg包中的假设检验 加载quantreg 包以后 使用summary 函数或summary rq 函数 可以得到参数系数的一些假设检验统计 量 其实 以上两个函数是一致的 在使用summary 的时候 如果sumamry 加载的模型 对象 是分位数 回归模型 则会自动调用summary rq 来处理这个对象 summar

7、y rq 的调用格式为 summary object se NULL covariance FALSE hs TRUE 其中主要参数有 object 分位数回归对象 根据rq 函数等得到的结果 se 用于计算参数估计值标准差的方法 可以选取的值包括 rank 根据Koenker 1994 的秩检验得到标准差的估计值 默认情况下假定残差是服从独立 同分布 如果补充另一个参数iid FALSE 则采用Machado 1999 的方法计算标准差 参数的 写法 se rank iid FALSE iid 这个与上面提到的iid FALSE 不同 这里是参数se 的一个取值 而上面的iid 是一个 逻辑

8、参数 假定残差服从独立同分布 并按照KB 1978 的方法计算残差 nid 用sparsity算法计算的参数估计值标准差 ker 用Powell 1990 的核密度估计方法得到标准差 boot 采用bootstrap自助抽样的方法计算标准差 默认情况下 se NULL且convariance FALSE 标准差的默认算法是se rank 其他情况 下 se默认值为 nid covariance 逻辑参数 是否返回参数估计量的协方差矩阵 不同参数的结果 可参看下面的程序案例 四 分位数分解 MM2005方法 9 我们可以进一步运用分位数分解法对各个影响因素进行分解分析 10 这里仅介绍MM200

9、5方法 为讲解方便 这里以各因素对城乡家庭收入的影响为例 观察各个影响因素在不同分位数上对城乡家 庭收入差异的影响度的大小 这里介绍Machado和Mata 11 2005 提出的分位数分解法 将每个分位数上 的城乡收入差异分解为两个部分 一部分是由于城乡家庭劳动力特征的不同回报率引起的 即分位数回归 参数的不同引起的 The Return Effects 例如城乡家庭劳动力在相同的教育程度 工作年限以及所处当地 的经济发展水平相同的特定因素下不同的回报率引起的家庭人均收入差异 另一部分是由于城乡家庭劳动 14 2 19 用R语言进行分位数回归 基础篇 力的特征变量分布不同引起的 即影响因素变

10、量值的不同引起的 The Covariate Effect 城乡家庭人均收 入这部分的差异会随着样本分布的不同而略有变化 利用Machado和Mata 分位数分解方法的关键是进行反事实分析 the counter factual analysis 我们最关 心的一种反事实分析就是 如果城市家庭劳动力按照农村家庭劳动力的分位数回归参数决定家庭人均收入 的话 城市家庭的人均收入分布会如何 这里定义反事实分布为 其中 表示影响城市家 庭人均收入的变量分布 表示影响农村家庭人均收入的变量在每个分位数上的回归参数 表示如果 城市家庭劳动力按照农村家庭劳动力的分位数回归参数决定家庭人均收入的话 城市家庭的

11、反事实人均收 入的大小 的具体计算步骤为 1 确定不同的分位点 分别表示为 2 在农村家庭样 本中 分别以做分位数回归 得到 组分位数回归参数向量 3 将城市家庭样本数据 表示为 4 把 2 中得到的分位数回归参数和 3 中得到得城市家庭子样本变量分布相结合 得 到一个新的样本 即反事实分布样本 假定在 分位数下城市家庭人均收入 反事实家庭人均收入和农村家庭人均收入分别为 则不同分位数下的城乡家庭人均收入分布差异可表示为 等式右边的第一项称为 回报影响 the return effect 它表示在不同的分位数下 由于城乡家庭劳动力 的生产回报率不同所导致的城乡差异部分 等式右边第二项成为 变量

12、影响 the covariate effect 它表示 不同分位数下城乡家庭随机抽样的样本变量分布不同所导致的城乡差异部分 五 非线性分位数回归和非参数分位数回归 暂略 第二节 用R语言进行分位数回归 一 安装和加载包 R 语言的基本包中没有进行分位数回归的程序包 故需要在官网下载并安装相应的程序包quantreg 在电 脑上安装过quantreg包以后 下次不需要再次安装了 但每次使用分位数回归前 需要加载quantreg包 install package quantreg 保持联网的情况下安装包 library quantreg 加载包 help start 进入R帮助首页 help rq

13、 获取rq函数的帮助 也可以写成 rq example rq 显示分位数回归函数rq 的一个简单示例代码 二 一个简单的分位数回归模型及结果 data engel 加载quantreg包自带的数据集 见说明 fit1 rq foodexp income tau 0 5 data engel 进行分位数回归 见说明 fit1 直接显示分位数回归的模型和系数 见说明 summary fit1 得到更加详细的显示结果 见说明 r1 resid fit1 得到残差序列 并赋值为变量r1 c1 coef fit1 得到模型的系数 并赋值给变量c1 见说明 summary fit1 se nid 通过设置

14、参数se 可以得到系数的假设检验 说明 说明 engel 1857 是考察食物支出与家庭收入之间关系的一个数据集 用函数head engel 可以查 看前六行的值 14 2 19 用R语言进行分位数回归 基础篇 income foodexp 1 420 1577 255 8394 2 541 4117 310 9587 3 901 1575 485 6800 4 639 0802 402 9974 5 750 8756 495 5608 6 945 7989 633 7978 这里因变量为foodexp 即食物支出 自变量为income 即家庭收入 tau 表示 计算 50 分 位点 的 参

15、数 这 里可 以同 时 计 算 多 个 分 位点 的 分位 数 回 归 结果 如 tau c 0 1 0 5 0 9 是同时计算10 50 90 分位数下的回归结果 data engel指明这里处理的数据集为engel method 进行拟合的方法 取值包括 A 默认值 br 表示 Barrodale 233 residual 用summary 函数可以得到回归模型的详细结果 包括系数和上下限 Call rq formula foodexp income tau 0 5 data engel tau 1 0 5 Coefficients coefficients lower bd upper

16、bd Intercept 81 48225 53 25915 114 01156 income 0 56018 0 48702 0 60199 coef 函数得到的系数为向量形式 第一个元素为常数项的系数 第二个及以后为自变量的系数 14 2 19 用R语言进行分位数回归 基础篇 summary函数se参数的说明 A se rank 按照Koenker 1994 的排秩方法计算得到的置信区间 默认残差为独立同分布 注意的 是 上下限是不对称的 Coefficients coefficients lower bd upper bd Intercept 81 48225 53 25915 114 01156 income 0 56018 0 48702 0 60199 B se iid 假设残差为独立同分布 用KB 1978 的方法计算得到近似的协方差矩阵 Coefficients Value Std Error t value Pr t Intercept 81 48225 13 23908 6 15468 0 00000 income 0 56018 0 01192 46 99766

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号