线性回归模型中自变量选择问题

上传人:豆浆 文档编号:36881337 上传时间:2018-04-03 格式:PDF 页数:10 大小:555.42KB
返回 下载 相关 举报
线性回归模型中自变量选择问题_第1页
第1页 / 共10页
线性回归模型中自变量选择问题_第2页
第2页 / 共10页
线性回归模型中自变量选择问题_第3页
第3页 / 共10页
线性回归模型中自变量选择问题_第4页
第4页 / 共10页
线性回归模型中自变量选择问题_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《线性回归模型中自变量选择问题》由会员分享,可在线阅读,更多相关《线性回归模型中自变量选择问题(10页珍藏版)》请在金锄头文库上搜索。

1、第10卷1期中国 科 学 技 术大学 学报19 80年线性回归模型中自变量选择问题不抓拜.子内月口二(一)回归自变量的选择问题在一个大型回归 周题中,可 供选择的自变量为数很多。国 内地鬓工作者使用 的“趋势面分析”,自变量可 多达二 十多个。在将回归固题用于气象予报方面,也存在这种 尚题。在 国外,将回归分析用 于污染因子 与死亡率的 关系研究中,在汽事役 蔚因子与每公里耗油率的关系的研究中,所用的自变 量在十 到二 十个之简。据报导,在有些 周题中涉及的自变量个数有可能达到50一 7 0个之多。因此,在实 用回归分析的研究中,关于从一 大批可能的 自变量中把真正最重 要的那些 自变量挑选出

2、来的周题,一 直是 一个很受重视的周题。这种 挑选 的意义,远不在于仅从 淤算的角度着眼。实际上,所 建立的回归方程 的稳定性、予报的精度,与这种挑选工作 有很密 切的关 系。而 且,通过这 种挑选,可 以对自变量与因变 量的 关系、自变量之简的关 系获得不少有用信泊,一这点应当看作是回归分析的主要目的之 一。 近二 十年特别是近十年来,对回归 自变量的 选择固题,数理杭静工作者和 实 用抚爵工作者都作了不少工作。理 输方面的 主要成就是 提出了一系列的选 择准则,对它们的 就静性 臀作了一些 分析研究,为 在实 际应用中处 理这 个 尚题 提供了一定 的理瑞 浓扼一。但这 方 面的拮果,整个

3、靓来,还处 在相当初步的阶 段。由于 阴题的困难,要取得 实鬓性 进展,还需 作 很 大努力。另一方面的 尚题是寻找良好的静算方法。由于牵 涉到 极大 量的静算,为 了使理 湍成果付藉实用,这是 一个必需解决的远非视 而易举 的 尚题,在这方面,近年来也取得了 很 大 的 进展。在十多年以前,关于 选择回归 自变量的淮8 J J,几乎 全是基于残差平方和,爵算方面I I J是用逐 步回归(包括 向前法 和向后 法)。近年来提出的某些 选 择准则,例如 比较受重砚的,由M泪 肠毕提出的所谓c,准则,一 也是基 于残差 平方和,另外一 些,例 如 所 稠P 找ES S准则,还有llo erl等人2

4、的岭回归法,以及 种种形式的主成份 分析法 等,则是基 于其它 的 考虑 31、18。是 关于这方 面的粽合性介貂。不湍怎样,基于 残差平方和的准g l J,现 在看 来仍 属于最重要 的一类。如果基 于 这 个准则,就 必须处 理 这样的朋题:投全部自变量有左个,对任何户,1p一左,找出残差平方和最小、次小前若干 个(例如,个),个 白变最的机。由于 可能的 粗数c卜,一二典一二_二一J一,一,-,一一P!(左一/ , )!仕往极大,在缺乏有 效的算法时难 于实现,逐步回归往往被用来作为一 种近似。虽 然这个方法起过重要作用且现在 也未丧失其意义,但近年来的研究表明,这个方法有着一些缺陷。从

5、理渝上靓,其中所用的F检墩是 建立在不正确的基础上的,从应用上靓,它井不能保征挑出最优的(残差平方和 最小的)p自变量粗(国外报导的一个例子表明,差别能达到 3 7%之多),另一 更大的缺陷是不适 合用于分析自变量与因变量及 自变量之简的关系。由于上述原因,近年来在国外对寻找残差平方和最小(及若干个按序排列最小)的子集回归(即所稍最优子集回归)的有效爵算方法抬予很大 的注意L3,】 1。Cal side1965 )、Se, arzoff(19 65)、FL,lniv al(1 9 7 2)、入I,:gin(19 7 2)、FLlr niv al和Wils o n(2974)l相撇提出了一些算法

6、和程序,看来以Ft l l l l ival和 Wi loo n(1 97劝的程序为 最 优。本 文对Fl l rn ival的算法进行了归钠分析,衬渝了它们的性臀,并以其子程序为基础抬出了 扑算前q个最优子集回归的 完整程序。对这些回归,部算出残差平方和、回归系数的最小 二乘估静及其方差。利用这些歌息我们可以进 一 步分析自变 量的重 要性及其相互关系。(二)计算问题由于从掩个自变量中选择p个的方法多达c露种,不难毅想,若不按一种粗积良好的方式进行爵算,则补算量可能达到不现 实的地 步,解决这个困难的基本方法,就是众所周知的,在逐 步回归中使 用的那个规I l J,它使得在 原有的基 础上加

7、进或弃却一个自变量时,只需对当时的协方差 障作一 种筒单的p运算(晃附录1),即 使这样,也还有两个固题要解决:一是编排 一种合适的次序,使 能用最少个数的p运算来算出任 一个自变 量子集的重要的回归抚静量(残 差平方和,系数估 爵及其方差,协方差等)。另一个周题是,一个矩障的元素握过反复的p运算,累积视 差不 断增加,考虑 到在 自变量子集的选择中涉及到 极多次数的尸运算,如不对这个尚题加 以充分的考虑并作出相应的安排,则上述 累积视差最后将便静算桔果完 全失其。这里所介貂的程序对这个尚 题有较好的处理,它是 基于以下的想法:尽可能不要对同一矩障以同一元 作枢轴作一 次以上的尸运算。当然,这

8、就必须使淤算在静多“存储块”内进行,因而导 致需要 较多的存储单元。还有两项关 于节省静算量的考虑。一是在p运算中,涉及矩障的全部元素,但在静算过程的一 个特定阶 段上,往往某些 自变量已注定不再进入或退出,这时,在以后的p运算中,和这些 自变 量对应 的行列 可以比 较筒单地加以处 理。另一 种情况是当只需要算出残差平方和时,可以 用通常的Ca二s消去法代替尸运算。这种 作法的缺点是,在选定好最优的自变量子集后,有 关的回归毓 补量还需另行爵算。以上 是关于舒算简题的若干一般性考虑。(三)自 然式 算 法具 有左个自变量的 技性回归周题一 切可能的自变量选择有2 / 种,它们对应2心个子集回

9、归,我们可以用树形图-一回归树(图1,左一约)形象地表示出它洲的关系。图中圆点“”后面的数字表示已进入回归的自变量足标,圆点前面的数字表示可能进入而尚未进入回归的自变量足标。树根1 2 34.的左边一支表示所有包含二:的子集回归,右边一支表示所有不包合x,的子集回归。又如 顶点2 3 妞.1下面左支表示听有包含x;,x:的子集回归,右边一支是所有包含二:,但不包含苏:的子集回归:从树根1:3 4.到顶点23 4.1只了之3干. /众环。1 决环,1峨、/之只 东扩、:东(、.j J.心万峥、蜘 初/ 陈坎 /、4.j2;衣仪、,. 旋工/次、.。勺矛/了抖。|八人、!.,了 了J改,沪凡 了人

10、之J、|、夕/J抖勺矛声1.1才体产 了 了/、./口刀2;呼,!23.甲之斗刁之了垮,3图1回归树是二:进入回归,在矩障运算上,这只需对样本协方差矩障才施以a,;:为枢翰的尸运算,图中用实接 表示。如果我 们把树根1 234.理解为左+1阶方阵才,H l J顶点23 . 1.1就是左+1阶方障p,A.以后我卿把 各顶点对应的方障称为由才产生的子矩障。从树根 到 顶点2 34.,是删去自变量朴(图中用虚 技表示),即 在本支各顶点二:不进入子集回归。从矩障角度,顶点2 3 4.理解为 删去A的第一行和第一列得 到的子矩障,甜为刀:才(在 程序中,删去A的 第I行和第I列,就是对第I行和第 1列

11、不 再进行运算,但 在存潇子矩阵。工A时,仍和A一样是左+1阶方阵)。树的2呼一1 6个悬拼点表示 自变量的各种选择即 全部子集回归。如果略去图1中的虚楼,得到图2。图2中每个顶点表示 一个子集回归。从一个子集回归(只要不是/久34 .,f二3个./拜,又峨浮3 /! 抖.戈 4.下之了.了并,1抖23毕.1之科图2自然式和字典式算法悬拼点)趣过一次p运算或一 次尸运算加若干次“删去”就得到另一个子集回 归中,“册0去”井不需要单独执行,它通过存储尸运算枢轴的行号的数粗J,来实瑰)。所稠自然式算头是按水平方 向自左至右由上 向下的次序爵算所有 子集回归。(在 程序对左二417。(图2)哥 卜算

12、出的子集回归次序是一,2,3,J,2 2,13,zJ,2 3,2 4,3 4,12 3,224,23才-2 34,1 234.即先补算一个自变量的回归,其次补算两个 自变员的f 9 I归等等。一般在 补算l一1个自变量 的回归后,把所得 子矩障存储起 来,供下一 步补算l个 自变 吊回归时使用,因此 I l然式算法存储量 较大。从 图2可 以看出,自然 式算法确实 实现 了(二)段所述 的考虑:对 同一矩障不 以同一元 为枢翰作一 次以上的尸运算。从而对 同一 矩障做的尸运算次 数也很 少。最多的一个只左+1次。如果 把回归树祝为家族的家槽,g l J有如下 有趣的事实:家放中齐代所有 最小

13、儿 子 无后代。因此,最小 儿子对应 的顶点的 子矩障不需要存储,利用这一 事 实,可以节 豹相当大一部分存储。最小 儿子对应的顶点是悬褂点,圆点后面都有左.因此,同点后面没有左的顶点而且只有这 种 顶点对应的子矩障需要存储。当自变 最总数为左时对p个自变量的回归,算出的子矩阵个数 为c寿(p一1,2,左),其中需要存储的只有c月一:个(户一1,2,左.规 定e聋一,一。)、对固定 的左,个G=m:、 xe刃一,户=z,2,左,则有。真,一。真丁。 大当左为 偶数当甩为奇数!咤It一一G二二,:。*_。、左,二,。,。*、二、。、。+ I .*。_尸雀,口、 抓J声U切J忙,曰少屯月入l、女又

14、/夕l下-l目习样月华 习1币3袱.,士咐目丫J闪二翎气f一穷气月又刁7,夕飞l胜u一七戈一101上仁1丈 L乙J淤算过程中,需同时存储 的子矩障数比G植更大些,(因而G可 以用来估补 自然 式算法存储最的下界)。以左一4为例,l个和2个自变量的回归需存庸子矩障数替为最大植G一C聋一C聋3在淤算完l个自变量的四个子集回归过 渡到爵算2个自变量的子集回归时,不仅需要存储三个顶点2 34.1,34.2和4.3对应的子矩障,还 要存储两个(以下把增加的这个数耙为H)顶点34.1 2和4.1 3对 应的 子矩障。只有当顶点.1 4被i f l .算过后,顶点2 3 41对应的子矩阵 占用的单元才被释放

15、。因此,对左一4,同时需存储的子矩阵个 数 最 大值月才笼一G一卜H一 3一朴2一5.表I拾出了若干G、刀和MAx的值。表I日nUQ 白113456789101 11 21 52233455672361 02 0357012625 2理 6 2十342 392 3782244101024、1358“2“580, 5 0从 表 I 可 以看出,G、月和MAx之值随左增加 速度很快。在应 用上 为筒单静,对左住 7的小 型回归固题,可 取MAX一3 0,对左一8,9,可取MAX一1 00,对左二1 0,可 取材Ax一15 0.这样仔韧地考虑,可能对使用中、小型机器的实用杭静工 作者 是必要的。当左

16、多1 1,G) 2 52,再注意到运算过程中一切子矩障都是左十1阶方阵,因此,这时所需的存庸量过大。程序(田各,参考字典式程序)中过程c0M P A舒算样本协方差矩神A。过程SEMI用P.Ga s。联合运算,对 自变筑的每种选择辞算出残差 平方和、回归系 数的最小二乘 估 辞 及其方差协方差 障(仅差一个因子 护- 一一随机改差的方差)。为了对任何户,1越p左,找出残差平方和最 小、次小二前q个(宁事先任意抬 定)p个 自变量的子集回归,程序中安排有二推数粗Stor e和排序过 程orde r.sto re存潇了当时残差平方和最小的前宁个子集回归 的翻算桔果。数粗,存放即将施 以P运算的子矩障已视做过 和将要做的p运算枢帕的行号,它侧正是 我l l J l J选出的回归自变 址。三掀数粗才用来存放子 矩阵。(四)字典式算法字典式算法是“垂 直”

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号