回归建模的一些新方法

上传人:j****9 文档编号:57527755 上传时间:2018-10-22 格式:PPT 页数:58 大小:926.50KB
返回 下载 相关 举报
回归建模的一些新方法_第1页
第1页 / 共58页
回归建模的一些新方法_第2页
第2页 / 共58页
回归建模的一些新方法_第3页
第3页 / 共58页
回归建模的一些新方法_第4页
第4页 / 共58页
回归建模的一些新方法_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《回归建模的一些新方法》由会员分享,可在线阅读,更多相关《回归建模的一些新方法(58页珍藏版)》请在金锄头文库上搜索。

1、回归建模的一些新方法,王明进 博士 北京大学光华管理学院 2008年6月11日,主要内容,线性回归模型(回顾) 分位数回归模型 非参数回归 半参数回归模型 总结与讨论,1. 线性回归模型,从一个例子开始,国家统计局2004年中国城市入户调查数据,随机抽取5000个人组成的样本; 具体变量:年收入(y: 元); 受教育年限(x1: 接受正规教育年数,研究生18.5,本科15.5, 专科14.5, 中专高中11.5, 初中8.5, 小学5.5,未上学或文盲0); 性别(x2: 男0,女1); 是否属于东部地区(x3: 是1, 否0); 工龄(x4:参加工作年限); 年龄(z).,收入的分布,收入取

2、对数之后的分布,对收入分布的统计描述,回归分析(regression analysis),理解一个变量当中的变异性:与什么因素有关,是什么因素导致的.Sir Francis Galton (1822-1911),回归函数,对收入变异性的理解,从人力资本投资的角度理解收入的差异;明瑟(Mincer, 1958, 1974)收入函数:明瑟收益率(个人教育的收益率):,一个扩展的Mincer收入函数,写成矩阵形式,回归系数的最小二乘估计,当 时,系数的估计值,解读得到的结果,个人教育收益率10.46%; 男女之间收入的差距:27.21%; 地区之间存在的收入差距:36.23%; 工龄对收入的影响:工

3、龄的曲线,传统回归模型的局限,回归函数: 只是条件分布的均值;条件方差: 常数?(同方差假设);条件分布: 正态?(古典假定);回归函数形式的设定:线性形式?,2. 分位数回归模型,条件分布的分位数,一个现实的例子: 如何判断孩子的身高体重是否正常?,(线性)分位数回归模型 (Koenker & Bassett, 1982),或者写成这里的,参数的估计,其中,估计系数的(渐近)协方差矩阵,对协方差矩阵的估计,用分位数回归计算教育的收益率,Buchinsky (1994, 1998),系数估计结果,不同分位数下对应的教育收益率,不同分位数下对应的男女收入差距,不同分位数下对应的地区收入差距,直接

4、针对收入进行的分位数回归,估计结果,教育导致的绝对收入的差距,给出条件分布的更详细的信息,一个大学毕业在东部地区工作的男性,他的收入随着工龄变化:,分位数回归的有关问题,特别适合于条件分布具有异方差的问题; 如果除了常数项之外,不同分位点对应的其它回归系数都相同,那么意味着条件分布的变异特征一样,此时没有必要用分位数回归;分位数回归函数的设置,3. 非参数回归,回归函数的非参数形式,其中假定:是一个光滑函数;误差项满足,非参数回归的任务,给定一组样本 ,如何得到对甚至它的导函数的估计?基本思想:在x的一个小的范围内,可以用直线(多项式)近似,可以用落在该范围内的样本点来估计出这条直线(曲线)。

5、,回归函数的局部线性近似,局部线性回归估计(1),用落在 x 临近的样本观测估计如下的线性模型其中对 的估计将分别给出 及其导函数在 x 处值的估计,局部线性回归估计(2),所以,核函数及其作用,高斯核:,均匀核:,三角核:,Epanechnikov核:,带宽系数(h)的作用,收入与年龄的关系:局部线性回归,带宽的选择- GCV函数,其中常被称为帽子矩阵,该例子的 GCV函数,非参数回归的有关问题,进行非参数回归的其它方法:注意的问题:样本不能太小;自变量不能太多(curse of dimensionality).,4. 半参数回归模型,Mincer收入函数的一个自然拓展,工龄对收入的影响为什

6、么是二次曲线?有没有可能更出更合理的形式?这对估计教育收益率有什么影响吗?(王明进、陈良焜 , 2008),部分线性模型(PLM),其中,部分线性模型的估计,其中是对 进行非参数回归时对应的帽子矩阵。(Speckman, 1988; Hamilton, 1997),对收入数据的估计结果,估计得到的工龄的函数形式,兰色实线为半参数估计结果:其中带宽系数=0.4倍的工龄的样本标准差=4.1655; 红色虚线为前面估计的二次曲线.,将参数模型中工龄曲线设置为四次,兰色实线为半参数估计结果:其中带宽系数=0.4倍的工龄的样本标准差=4.1655; 红色虚线为前面估计的四次曲线.,更深入的推广,教育收益

7、率是否与工龄有关?(王明进、岳昌君, 2008),变系数部分线性模型,关于模型的估计可以参见Fan 王明进、岳昌君 (2008),对收入数据的估计结果,教育收益率随着工龄的变化,对另外一个函数的估计,半参数回归模型的有关问题,回归函数结合了参数和非参数的特征以避免维自变量的维数比较大时带来的困难;能够有效地揭示出一些新的规律,帮助确定参数模型的形式;通常算法比较复杂; 当前研究的一个热点方向。,总结与讨论,回归模型:理解变量之间的关系:如何合适地设置关系;给出条件分布的信息:如何给出更丰富的分布特征;建立模型,解读数据!,关于软件,线性回归模型:几乎所有的统计软件 分位数回归:Stata; SAS; R; 非参数回归:部分能够使用SAS, R, Stata; 半参数回归: Matlab自己编写程序,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号