通过LASSO回归压缩和选择汇总

资源描述

《通过LASSO回归压缩和选择汇总》由会员分享，可在线阅读，更多相关《通过LASSO回归压缩和选择汇总（22页珍藏版）》请在金锄头文库上搜索。

1、通过LASSO回归压缩和选择RobertTibshirani加拿大多伦多大学【1994年1月收到，1995年1月修订】【摘要】本文提出一个线性模型估计的新方法。LASSO最小化残差平方和使得系数绝对值之和小于一个常数。由于此约束的性质倾向于产生一些为0的系数，从而给出了解释模型。我们的仿真研究表明，LASSO具有一些子集选择和岭回归的有利特性。它产生了例如子集选择的解释模型并展示了岭回归的稳定性。在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。LASSO思想是相当广泛的并可用于各种统计模型：本文简要介绍了广义的回归模型和基于树的模型的扩展。关键词：二次规划；回归；压缩；子

2、集选择1.引言考虑通常的回归情况：已知数据其中和分别是观察数据的第个回归因子和响应量。通过最小化残差平方的误差得到普通最小二乘法(OLS)估计。数据分析师经常不满意OLS估计值有两个原因。第一是预测精度：OLS估计经常是低偏压高方差；预测精度有时可以通过压缩或设置一些系数为0进行改善。通过这样，牺牲一些偏压，减少预测值的方差，从而提高可以总体的预测精度。第二个原因是解释。拥有大量的经常想要决定更小子集的预测值，我们表现出强烈的影响。改进OLS估计的子集选择和岭回归这两种标准标准技术都有缺点。子集选择提供可解释模型，但是由于它是一个从模型中保留或删除的离散过程变量，它可能极其易变。数据的一点更改

3、可能导致选中非常不同的模型,这样可以减少其预测精度。岭回归是一个系数收缩的连续的过程，并且因此更加稳定：然而，它的任何系数都不为0，因此没有给出一个容易解释的模型。我们提出一个新技术，LASSO即最小绝对收缩和选择算子。它将一些系数收缩，其他的系数设置为0，从而试图保持子集选择和岭回归的良好特征。第2节给出LASSO的定义，看一些特殊情况。第3节给出真实数据示例，而在第4节我们讨论预测误差与LASSO收缩参数估计的方法。第5节简要介绍LASSO的贝叶斯模型。第6节描述LASSO算法。第7节描述仿真研究。第8、9节讨论广义回归模型的扩展和其他问题。一些关于soft thresholding和与L

4、ASSO的关系的结果在第10节中进行了讨论，第11节包括一些讨论和总结。2.LASSO方法2.1定义假设已知数据其中是预测变量，是响应变量。在一般的回归设置中，我们假设观测值独立或者对给定的，是条件独立的。假设是标准化的，那么,。令,LASSO估计的定义如下： (1)其中，调优参数。现在对于所有，的解决方案是。我们可以假设不是一般性，因此省略。方程(1)的解决方案的计算是具有线性不等式约束的二次规划问题。在第6节，针对这个问题，我们描述了一些高效、稳定的算法。参数控制了应用于估计的收缩量。令为完全最小二乘估计，。将导致方案的收缩趋向于0，并且一些系数可能刚好等于0。例如，如果，效果会大致类似

5、于寻找大小为的最优特征子集。还要注意，设置的矩阵不一定需要满秩。在第4节，我们给出基于数据的估计的方法。LASSO的动机来自于布赖曼(1993)的一个提议。布赖曼的非负最小化。 (2)始于普通最小二乘估计，通过总和被限制的非负因素进行收缩。在广泛的仿真研究中，布赖曼显示，除非真正的模型中有许多小的非零系数，具有保持比子集选择更低的预测误差且与岭回归具有竞争力。的一个缺点是它的解决方案取决于标志和OLS估计量。在OLS表现不佳的过拟合或高度相关的设置中，可能会深受其害。相比之下，LASSO避免显示使用OLS估计。弗兰克和弗里德曼(1993)提出了使用绑定的参数范数，是一个大于等于0的数；LASS

6、O方法中。在第10节中简要讨论了这个问题。2.2正交设计深入了解收缩的性质可以从正交设计案例中进行收集。令为既定矩阵，元素为，假定,为单位矩阵。方程(1)的解很容易证明是 (3)其中，由决定。有趣的是，这与多诺霍和约翰斯通(1994)和多诺霍等人(1995)提出的软收缩建议具有相同的形式，应用于小波系数的函数估计。软收缩和最低范数惩罚的关系也由多诺霍等人(1992)在非负参数信号和图像恢复中指出。我们将在第10节进行详细的解释说明。在正交设计的情况下，大小为的最佳子集的选择减少到最大系数的绝对值，将其余的设置为0。对的一些选择相当于如果，设置；否则设置为0。岭回归使得下面式子最小或者等价地，使

7、得如下最小 (4)岭回归的解是：其中取决于或。估计是图1显示了这些函数的曲线。岭回归用一个常数因子衡量系数，然而LASSO通过常数因子转换，截断为0。函数与LASSO十分相近，都是系数愈大收缩愈小。我们的仿真程序显示，当设计不是正交时，与LASSO差异可能会很大。2.3LASSO几何从图1中很明显的看出为什么LASSO产生的系数经常是0。为什么这种情况会出现在一般（非正交）的设置中？并且为什么这种现象在岭回归中没有出现，其中岭回归使用的约束条件是而不是？图2提供了当时的试图。标准与加上一个常数相等。由图2(a)，函数的椭圆轮廓由全曲线显示出来；它们集中于OLS估计周围；约束区域是个旋转的正方形

8、。LASSO解决方案是首先轮廓触摸了广场，并且有时这也会发生在一个角落，该角落对应于系数为0的地方。图2(b)显示了岭回归的图像，没有有角的轮廓，因此很少有零解。这个图片中出现了一个有趣的问题：LASSO估计的符号可以与最小二乘估计不同吗？由于变量是标准化的，当时，主要的轮廓线轴线与坐标轴成，并且我们可以表明，轮廓必需与包含的正方形在同一个象限中。然而，当时，在数据上至少是中度相关，这不必是真的。图3在三维空间中进行举例。图3(b)中的视图证实：椭圆与约束区域在第八象限的接触与它中心所在的象限不同。图1. （a）子集选择，（b）岭回归，（c）LASSO和（d）garotte:，正交设计情况下，

9、系数压缩的形式；倾斜角为45的线作为参考图2. （a）是LASSO的预估图像，（b）是岭回归的预估图像图3. （a）不同于总体最小二乘估计LASSO估计落在第八区的例子；（b）俯视图然而，保留了每个的符号，LASSO可以改变符号。甚至在LASSO估计与有相同符号的矢量的情况下，中OLS估计得存在也会使结果不同。带有约束条件的模型可以表示成约束条件是，模型为。举例，如果且，效果将会横向拉伸图2(a)的正方形。结果，青睐于较大的和较小的。2.4关于两个预测的其他信息假设，并且不失一般性，最小二乘估计都是正的。那么我们可以展示LASSO估计是图4. 对于两个预测值的例子，实线表示LASSO，虚线表

10、示岭回归：曲线说明，作为LASSO或者岭回归参数的数据对是变化的；从底部的虚线开始并向上移动，相关系数是0,0.23,0.45,0.68和0.90 (5)其中选定使得。这个公式适用于时，并且及时预测值是相关的这个公式也是有效的。解得出 (6)相反，岭回归收缩的形式取决于预测值的相关性。图4给出了一个例子。在没有干扰的情况下，我们从模型中产生100个数据点。这里和是标准正常变量，两者的相关系数为。图4的曲线表明岭回归和LASSO估计得边界和是变化的。对的所有值，LASSO估计均遵循全曲线。岭回归估计（间断的曲线）取决于。当时，岭回归成比例收缩。然而，对于更大的值岭估计收缩变得不同并且边界降低是甚

11、至可以增加一点。杰罗姆弗里德曼指出，这是由于岭回归试图使系数等于他们最小平方范数的趋势。2.5标准误差由于LASSO估计是响应值的一个非线性、非可微函数，即使对应固定的，所以很难得到标准误差的一个准确估计。一种方法是通过自助法；要么可以固定，要么为每个样本对进行优化。固定类似于选择一个最佳子集，然后对每个子集使用最小二乘标准误差。一个近似封闭的形式估计可能通过把惩罚写成得到。因此，对于LASSO估计，我们可以通过形式的岭回归近似解决，其中是一个对角矩阵，对角元素为，是的广义逆矩阵并且的选定使得成立。估计的协方差矩阵可以用以下近似 (7)其中是误差方差的一个估计值。这个公式的一个困难在于对的预测

12、值给出了0的一个估计方差。这种近似也表明了计算LASSO估计本身的一个迭代岭回归的算法，但这是很低效的。然而，它对LASSO参数（第4节）的选择很有用。3.例子前列腺癌数据前列腺数据来自于斯塔米等人(1989)的一项研究，检查接受根治性前列腺切除术的人前列腺特异性抗原水平与临床措施的相关性。因素有：日志（癌症卷）（lcaval）、日志（前列腺重量）（lweight）、年龄、日志（良性前列腺增生）（lbph）、精囊入侵（svi）、日志（荚膜渗透）（lcp）、格里森评分（gleason）和百分比格里森评分4或5（pgg45）。在第一个标准化预测因子后，我们找到适合日志（前列腺特异抗原）（lpsa）

13、的线性模型。图5. 前列腺癌例子中，系数的LASSO压缩：每个曲线代表了一个系数（右边有标注），该曲线作为LASSO参数（没有将截距画出来）；虚线代表了的模型，该值是由广义交叉验证所得的最优值图5显示了作为一个绑定的标准函数的LASSO估计。请注意，随着趋于0，每个系数的绝对值也趋于0。在这个例子中，曲线单调且趋于0，但一般情况下不会总发生。单调性的缺乏是由岭回归与子集选择所共同承担，例如，大小为5的最优特征子集可能不包含大小为4的最优特征子集。垂直的虚线是当时的模型，该值是由广义交叉验证所得的最优值。粗略地说，这与保持略低于预测值的一半相对应。表1显示了完全最小二乘法、最优子集和LASSO程

14、序的结果。第7.1节会给出所使用的最佳子集的详细步骤。LASSO给出了癌症卷、前列腺重量和精囊入侵的非零系数；子集选择选择了同样的三个预测因子。请注意，子集选择所选择的预测因子的系数和得分往往比完整模型值大；这在呈正相关的预测中是常见的。然而，LASSO显示了相反的作用，因为它从完整的模型值中压缩系数的得分。倒数第二列的标准误差通过充分的最小二乘法残差的自助重采样进行估计。标准误差的计算是通过对原始数据集中的取最优值0.44计算得到。表2表1表2图6. 在前列腺癌例子中，盒状图中给出了8个预测值LASSO系数估计的200个引导值比较了岭估计近似公式(7)固定自助值和在自助法中对每个样本重新估

15、计。除了零系数，岭估计公式给了一个自助值的一个相当好的近似。允许变化包含额外的变异来源，因此给出了一个较大的标准误差估计。图6显示固定估计值为0.44的LASSO估计的200自助复制的框块。估计系数为0的预测因子展示倾斜自助分布。中央百分之九十的时间间隔（自助分布的第五百分位和第九十五百分位）都包含零，癌症卷和精囊入侵这些例外。4.的误差预测与估计在本节中我们描述了LASSO参数的三种估计方法：交叉验证、广义交叉验证和分析风险的无偏估计。严格地说，前两种方法适合于“X-random”情况，在这种情况下假设观测值来自于未知分布，第三种方法适用于“X-fixed”情况。然而，在现实中存在的问题往往不能明确的区分这两种情况，我们可能只需选择最有效的方法。假设其中，。估计的均方误差定义如下：固定，预期接管和的联合分布。类似的措施是的预测误差由下式给出 . (8)我们通过五倍交叉验证正如埃夫隆和Tibshirani(1993)

展开阅读全文