部分线性单指标模型的复合分位数回归及变量选择

上传人:ji****72 文档编号:46588704 上传时间:2018-06-27 格式:PDF 页数:24 大小:1.16MB
返回 下载 相关 举报
部分线性单指标模型的复合分位数回归及变量选择_第1页
第1页 / 共24页
部分线性单指标模型的复合分位数回归及变量选择_第2页
第2页 / 共24页
部分线性单指标模型的复合分位数回归及变量选择_第3页
第3页 / 共24页
部分线性单指标模型的复合分位数回归及变量选择_第4页
第4页 / 共24页
部分线性单指标模型的复合分位数回归及变量选择_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《部分线性单指标模型的复合分位数回归及变量选择》由会员分享,可在线阅读,更多相关《部分线性单指标模型的复合分位数回归及变量选择(24页珍藏版)》请在金锄头文库上搜索。

1、 吕亚召等 : 部分线性单 指标模型 的复合分位数回归及变量选择 素为正, 即 0 】 0 , 其中 lI II 表示 E u c l i d范数 为方便起见, 我们称 0为指标参数, g ( ) 为指标函数, 为线性参数 作为部分线性模型和著名的降维方法的单指标模型的组合, 部分线性单指标模型可以有效地避免 “ 维数灾难”的影响, 同时又保持了模型的灵活性 源于此, 部分线性单指标模型激发了很多学者的研 究兴趣, 很多估计和推断方法相继提出 文献 3 1 基于局部线性方法提出了一步估计和全迭代 的方法 文献 f4 指出文献 【 3 】 所提方法不够稳定, 而且为得出参数的可达最优收敛速度的估

2、计, 对指标 函数的 “ 欠光滑”是无法避免的为 了克服这个困难, 文献 4 基于惩罚样条提出了一个估计方法之后, 文 献 5 推广 了文献 【 6 关于单指标模型的 MA VE方法到部分线性单指标模型, 基于构造性的方法得到 了参数的可达 、 收敛速度的估计 文献 7 采用剖面似然的方法重新考虑 了部分线性单指标模型, 指 出剖面似然方法是半参数意义下最有效的估计, 同时指出 MA VE方法所得估计量的方差也达到了最 小值 近年来, 文献 8 1 从降维角度提出了关于部分线性模型的两步估计方法, 有效地避免了迭代计算, 提高了计算效率 上述关于部分线性单指标模型的估计方法都是集 中于均值回归

3、, 基于最小二乘法或似然方法 但 是均值回归容易受到异常点的影响, 特别地, 当误差服从非正态分布时, 其估计效率大打折扣 为克服 均值回归的这一弱点, 文献 9 提出了分位数回归 如今分位数 回归作为均值回归分析的稳健替代被 广泛地用于探索响应变量与协变量之间的潜在关系 在实际应用中, 分位数回归可 以刻画响应变量更 多的分布特征, 引起了统计学者的广泛关注, 采用分位数回归进行统计推断的理论研究成果层出不穷, 可参见文献 1 0 以获得更深入的了解 文献 1 1 指出, 分位数回归估计 的效率容易受到分位数特定取值的影响, 为了进一步提高估计效 率, 文献 1 1 1 提出了 C QR ,

4、 综合 了多处分位数回归的信息, 提高了模型估计效率 文献 1 2 】 将 C QR 理论推广到非参数回归中, 提出了局部多项式复合分位数回归 f 局部 C Q R) 用于估计非参数回归函数 局部多项式 C Q R 方法被证实是非参数估计中局部多项式方法的一种安全且有效的替代方法此外, 在模型误差服从非正态分布时, CQ R和局部 CQ R方法 已经被证实可以显著地提高估计效率 受到关 于局部 C QR估计的优 良性质的启发, 文献 f 1 3 将局部 C Q R推广到了半参数变系数部分线性模型 单指标模型和部分线性单指标模型是另一类重要的半参数模型, 已经有文献关注单指标模型的分 位数回归和

5、复合分位数回归 文献 1 4 提出了一个最小化平均分位数损失的算法, 用于实现单指标模 型分位数回归文献 1 5 1 将这种算法推广到单指标模型的复合分位数回归最近, 文献 【 1 6 又提出 了一个新的两步估计方法, 可 以在 “ 线性条件”满足的条件下实现单指标模 型的复合分位数回归文 献 【 1 7 考虑了单指标模型的复合分位数回归, 并结合 S C A D ( s mo o t h l y c l i p p e d a b s o l u t e d e v i a t i o n ) 方 法 1 引实现 了其中的变量选择 问题 尽管关于单指标模型的分位数回归己有较多的研究成果, 关

6、于部 分线性单指标模型的分位数回归的研究M U IJ 起步, 文献 1 9 1 考虑 了 P L S I M 的分位数回归和其中的变 量选择 问题, 关于 P L S I M 的复合分位数回归仍未见有文献研究 在实际数据分析中采用 P L S I M 建模时, 常常遇到的问题是有不少的无关变量包含在 x 或 z之 中, 此时, 如何挑选显著变量构建模型成为实施 P L S I M 建模时亟待解决的问题 均值回归下部分线性 单指标模型的变量选择问题 已经有部分学者进行了讨论, 如文献 f 7 1 结合 S C AD惩罚方法和剖面似然 方法实现了变量选择, 文献 2 0 利用 自适应 L A S

7、S O提出了两步方法, 实现变量选择 尽管有文献研究 了均值 回归意义下 P L S I M 的变量选择问题, 复合分位数回归框架下部分线性单指标模型的变量选择 问题仍亟待解决 本文提出 C MA C L E方法实现了部分线性单指标模型的复合分位数回归 首先, 本文基于高维核 函数构造 0和 的相合估计作为初始估计, 进一步地, 采用一维的指标核函数提高估计效率, 从而得 1 3 00 中国科学 : 数学第 4 4卷第 1 2期 到了参数 0和 的可达 收敛速度的估计, 与此同时, 所得 9 f )的估计也达到了最优收敛速度 有 必要指 出的是, 在我们提出的 C MAC L E方法中, 为得

8、到参数部分的最优收敛速度, 无需对非参数函数 进行 “ 欠光滑”估计 进而, 讨论 C MAC L E方法所得估计量的渐近性质, 并比较 P L S I M 的 C MAC L E 方法和均值回归的 MA VE方法所得估计量的相对渐近效率 进一步地, 本文结合 C MA C L E方法和 自 适应 L AS S O提 出了 P L S I M 的复合分位数回归框架下的变量选择方法, 并建立所提变量选择方法的 o r a c l e性 质 本文后续内容结构如下: 第 2节介绍实现 P L S I M 的复合分位数回归的 C A MC L E估计方法; 第 3 节建立 CMA C L E估计的渐近

9、性质, 并比较 C MA C L E估计和均值回归 MA VE估计的相对渐近效率; 第 4节在 C Q R 框架下提 出 P L S I M 的变量选择方法, 并说明其具有 o r a c l e性质; 第 5节考虑模型误 差服从各种正态和非正态分布的随机模拟, 并考虑所提方法在 B o s t o n住房数据的应用, 分别验证了所 提 C MAC L E估计方法和变量选择方法在有限样本和实际数据中的表现; 所有定理的证明和证明所需 的正则性条件都放在第 6节 2 估计方法 本节介绍部分线性单指标模型的复合分位数回归的 C MAC L E方法 令 P ( ) = 丁 一I ( u0 对任意的

10、J=1 , , 礼 , 令 a s k =C k +lg ( x ) , b j =9 ( x ) , 则 a j l , a j g , , J=1 , , n可以通过下式估计, q n ( a t 1 , 5 5 , ) = a r g mm,P 一 0 J 一 b j X O z T k j , u31, “J0, k= l i = 1 其中窗宽 h可以选为最优窗宽; 第 2步 给定 a j k , b j , J=1 , n , k=1 , , q , ( , )的估计值通过下式更新, n q n ( , ) = a r 等 i n 一 一 ( x ) 一 z ( 2 5 ) 第 3步

11、 重复第 2 和第 3 步直至收敛, 记 ( 0 , ) 的最终估计值为 ( , ) 注 1 在上述算法 中, 的标准化过程如下: = , 其中 s i g n 是 0的第一个元素的符号 1 302 中国科学 : 数学第 4 4卷第 1 2期 其中 最后, 对 xT 的支撑 中的任一点 , g ( u )的估计定义为 3 渐近性 质 3 1 渐近分布 昙 塾 ) a g I 6b ) - q n - a k - g m in b (x T O 一 z T K ( 、 o (2 6 ) ,a , p 一 ,“ ) 一( (2 6 ) 1, 一 , q, D : 1 i = 1 。 本节给出 (

12、, ) 的 C MA C L E估计的渐近性质, 以及通过 ( 2 6 ) 所得非参数估计 ( ) 的渐近性质 引理 1 令 和 为基于高维核函数得到的估计量, 设第 6 节中的条件 ( A1 ) 一 ( A 6 ) 成立, 且有 b_ 0 , n b P + l o g n- 。 。 若初始值 满足 0 o 0 , 则有 o=O p ( 1 ) , 一3 0=o r ( 1 ) 这个引理告诉我们, 基于高维核函数所得 的参数的估计可能效率比较低, 收敛速度不快, 然而却 是真实参数的相合估计, 这 己足 以构建 0 。和 的最终的可达 收敛速度 的估计 下面给 出基于指 标核函数得到的 (

13、0 0 , 0 )的估计的渐近性质 令 , ( )和 F( )分别表示模型误差 的密度函数和分布函数选择核函数 ( ) 为对称 的密度函 数并记 = u J K (u ) d u , = u j K 。 (u ) d u ,J = 0 , 1 2 定义 酬 1 麓 , 酬 一。 k= l k = l , ( 3 1 ) 其 中 c :F ( ) , k , =mi n -k , , ) 一 , , c = ( c ) i( 3一- 3。o ) c。,R c口 一 , c32 x ) g ( )为 9 ( )的一阶导函数, 1 3 0 3 吕亚召等: 部分线性单指标模型的复合分位数回归及变量选择

14、 由定理 1可以看 出, 基于指标核函数的估计量 ( , ) 可达最优的收敛速度 在得到 0 o和 的 、 相合估计之后, g ( )的估计可以通过 ( 2 6 ) 得到 在下面的定理中, 我们给 出 9 ( )的复合分位数回归的 渐近性质 定理 2 假设第 6 节中条件 ( A 1 ) 一 ( A 7 ) 成立, 我们有 俪 0 (x ) 一 c 1 ) 号 (0 , 舭 (x 酬), (3 3 ) 其中 ( ) 为 xT 的边际密度函数 注 2 当模型误差服从对称分布时, 我们有 这样, 由定理 2可以看出, 关于非参数函数 9 ( )的复合分位数估计的偏差首项和均值 回归下所得估计 的偏

15、差首项是相 同的, 估计的差异在于方差 容易得到估计 ( 钆 ) 的 MS E( me a n s q u a r e d e r r o r ) 为 M s z + 酬 ( n ) 通过直接计算, 最小化 MS E( t) ( u ) )可以得到最优窗宽为 t = n叫5 在实际中, 常数窗宽往往通过最小化 MI S E( me a n i n t e g r a t e d s q u a r e d e r r o r ) 得到, 其中 M Is E ( ) = f M S (O ( “ )叫 ( ) , ( 札 ) 为给定的权函数 最小化 MI S E ( ) 可得最优窗宽为 t = 佗 叫 5 这说明, 估计 9 ( ) 时采用的窗宽达到了最优的阶数 n 1 5 注意到 h 。 。 的值依赖于很多未知量, 估计这些量的计算复杂度很高, 因此在实际计算中很难得 到 h 0 D t的值 注意到复合分位数回归下的最优窗宽 h o D t 和最小二乘 (

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号