多元线性回归模型变量选择的总偏回归平方和法-2016年最新医学论文

资源描述

《多元线性回归模型变量选择的总偏回归平方和法-2016年最新医学论文》由会员分享，可在线阅读，更多相关《多元线性回归模型变量选择的总偏回归平方和法-2016年最新医学论文（7页珍藏版）》请在金锄头文库上搜索。

1、精品文档欢迎来主页查询更多精品文档,欢迎来我主页查询多元线性回归模型变量选择的总偏回归平方和法【摘要】提出一个新概念总偏回归平方和(Pt， total partial regression sum of squares),将 Pt 定义为全部自变量Xi(i=1,2,m,m 为自变量数目或个数)的偏回归平方和 Pi 之总和。根据 Pi 占 Pt 的比例 Ri(PiPt)，进行 m+1 个回归方程计算后，可选择出“较优”自变量组合，从而得到一至数个“较优”多元线性回归模型，以供进一步分析。【关键词】偏回归平方和；总偏回归平方和；多元线性回归；变量选择1 问题的提出多元线性回归在诸多学科

2、中有广泛应用。在多元线性回归的实际应用中，考虑的自变量 Xi(i=1,2,m,m 为自变量数目或个数)经常包括所有可能影响因变量 Y 的因素。在众多的 Xi 中，有的对 Y 有显著影响，有的影响很小甚至基本无影响。如果把对 Y 影响小的 Xi 保留在回归模型中，不仅增加收集数据和分析数据的负担，使得回归方程不稳定，而且会因 Xi 的数目过多而不便于使用。因此，自变量精品文档欢迎来主页查询更多精品文档,欢迎来我主页查询选择在理论和应用上都十分重要。自变量选择通常有两类方法14：一是全局择优法，可选出全局“最优”回归模型。该法是对自变量各种不同的组合所建立的回归方程进行比较，进而从全部组合中挑出一

3、个“最优”回归方程。挑选“最优”回归模型的指标一般有 R2 法、校正 R2 法、残差均方和或剩余标准差最小法、Cp 统计量法、AIC、BIC 及 AICC 信息量准则等。对于给定的方法和准则，“最优”回归方程应从所有可能回归子集(共有 2m-1 个)选出。问题是，根据不同的方法和准则，选出的“最优”回归模型不一定相同，真正哪个回归模型“最优” ，同样面临选择的困难。而且，从所有可能回归子集中选择“最优”回归方程，计算量较大或极大(视 m 值而定)。二是逐步选择法(包括前进法、后退法和逐步回归法)。每一种逐步选择法选出的“最优”回归方程不一定相同。同一种方法，给定的检验水准 (0.10,0.05

4、,0.01,0.001)不同，选出的“最优”回归方程亦不同。而且，在确定哪些变量应当添加或者剔除时，采用的统计规则(显著性水平或者方差统计值的大小)都有一定的武断性5 。笔者认为，从统计学意义上说，真正的最优回归方程是不存在或不可能得到的。与其花费大量的时间和高计算成本而得不到“最优”回归方程，不如少些武断性，用少量的时间和低计算成本得到 1 至数个“较优”多元线性回归模型以供选择，在实践中发挥相似的效果和作用。基于上述考虑，本研究从偏回归平方和的概念出发，提出一个概念总偏回归平方和(Pt total partial regression sum of squares)，Pt 这个概念或术语，

5、作者尚未见文精品文档欢迎来主页查询更多精品文档,欢迎来我主页查询献报道。借助 Pt，我们提出简便实用的选择“较优”多元线性回归模型的总偏回归平方和法。2 原理与方法设 1 个应变量 Y 与 m 个自变量 Xi(i=1,2,m,m 为自变量个数)呈线性相关。从多元回归全模型中取消一个自变量 Xi 后，回归平方和 U 减少的部分，称为这个自变量 Xi 对 Y 的偏回归平方和(Pi)，即这个自变量 Xi 对 Y 的回归贡献。关于每个自变量 Xi 在多元回归中所起的作用大小，可通过相应 Xi 的偏回归平方和 Pi 来衡量。Pi 表明对 Y 的回归贡献。Pi 越大，表示相应的 Xi 在回归中对 Y 的作

6、用越大；当 Pi 很小时，表示相应的 Xi 在回归中所起的作用越小。总偏回归平方和(Pt)表示全部 Pi 之和，如能计算出每个 Pi 与 Pt 之比Ri(PiPt,Ri0，1)，根据 Ri 大小不同，可较快选择出“较优”自变量组合或子集。方法如下：估计全模型即包括所有自变量 Xi 回归方程的残差平方和 Q：Q=Y*Y-Y*X*(X*X)-1*X*X 计算每个自变量 Xi 的偏回归平方和 Pi2：Pi=Qi-Q (i=1,2,m)(1)式(1)中 Qi 表示自变量 Xi 不在回归模型时的残差平方和，即 Y 与 m-1 个自变量 X1，Xi-1，Xi+1，Xm 的选模型的残差平方和。Q 为包括所

7、有自变量 Xi 回归方程即全模型的残差平精品文档欢迎来主页查询更多精品文档,欢迎来我主页查询方和。至此所计算回归方程总数为 m+1 个。计算总偏回归平方和Pt ：Pt=Pi (i=1,2,m)(2) 计算各 Pi 占 Pt 的比例：Ri=PiPt (Ri0,1)(3)根据各 Ri 大小选择自变量，选出“较优”回归方程。将 Ri 按由大到小秩序排列，然后计算累积 Ri。一般地，可选择使累积 Ri095( 或 085 ，090 ，099 ，需按数据的实际情况而定)的自变量组合，作为“较优”回归模型的自变量组合，从而得到所求“较优”回归方程。上一页 1 2 下一页3 实例实例 1Hald 水泥问

8、题是一多元回归的经典实例，在诸多文献4，6中均有研究，说明存在一些不确定的模型。用本法作变量选择，结果见表 1。表 1 各自变量的偏回归平方和、总偏回归平方和及其比例与累积比例（略）由表 1 可知，X1 和 X2 的累积 Ri 为 0.9878，而 X4 与 X3 对回归精品文档欢迎来主页查询更多精品文档,欢迎来我主页查询的贡献是微不足道的，两者的 Ri 均不到 001 ，故“较优”自变量子集应为 XX1,X2，这个结果与 Cp 统计量法选出的结果相同。如需选 3 个自变量进入回归方程，自变量子集应是 XX1,X2，X4，而不是 XX1,X2，X3，与用最小残差方差、最小残差标准差、R2及校正

9、 R2 选出的结果相一致。但本法仅计算了 m+1=5 个回归方程子集便得到与用 2m-1=15 个回归方程子集相一致的结论，表明本法计算量明显减小。本法的结果亦与逐步选择法(包括前进法、后退法和逐步回归法)的结果相同。实例 2 为了研究正常少年儿童心像面积 Y 与性别(X1)，年龄(X2)，身高(X3)，体重(X4)，胸围(X5)的关系，某单位调查了 254 名男性，267 名女性，月龄在 30 月178 月的正常少年儿童，全部可能的回归方程的主要结果见文献7 ，应用本法选择自变量子集的数据见表2。表 2 各自变量的偏回归平方和、总偏回归平方和及其比例与累积比例（略）由表 2 可知，自变量子集

10、X1,X3,X4的累积 Ri 为精品文档欢迎来主页查询更多精品文档,欢迎来我主页查询0.97950.95，故较优自变量子集应为 XX1,X3，X4。如限定选2 个自变量，自变量子集应是 XX1，X3，其累积 Ri 为0.91000.90。如限定选 4 个自变量，自变量子集应是XX1,X3，X4，X5，其累积 Ri 为 0.99390.99。本法仅计算了m+1=6 个回归方程子集便得到与用 2m-1=31 个回归方程子集相一致的结论，进一步表明本法计算量小，结果可靠。4 讨论本研究在提出总偏回归平方和(Pt)概念的基础上，用 Pt 法选择自变量子集，进而优选出所需多元回归模型。本法的变量选择结果

11、与全局择优法及逐步选择法的结果基本一致。本法计算量小，简便实用。本法的不足之处是累积 Ri 的选择标准亦有一定的主观性，标准不同，选出的自变量子集相异。另外，变量较多时，本法虽能选出“较优”回归模型，但不一定是在某一准则下“最优”的。这些尚有待进一步研究。【参考文献】1 孙振球，徐勇勇医学统计学第 1 版北京：人民卫生出版精品文档欢迎来主页查询更多精品文档,欢迎来我主页查询社，2002，2422512 高惠璇统计计算第 1 版北京：北京大学出版社，2005，3133243 柳青，主编中国医学统计百科全书(多元统计分册) 第 1 版北京：人民卫生出版社，2004，2631.4 黄小兰比较几种挑选“最优”回归模型的指标中国卫生统计，1988，5(4)：235 Quinn GP, Keough MJ(蒋志刚，等译) 生物实验设计与数据分析第 1 版北京：高等教育出版社，2003，142148.6 吕纯廉，等线性模型中变量和变换的同时选择数值计算与计算机应用，2005，26(1)：267 郭祖超，主编医用数理统计方法第 3 版北京：人民卫生出版社，1988，420432.上一页 1 2 下一页

展开阅读全文

多元线性回归模型变量选择的总偏回归平方和法-2016年最新医学论文

最新文档