LASSO算法的总结与思考.doc

资源描述

《LASSO算法的总结与思考.doc》由会员分享，可在线阅读，更多相关《LASSO算法的总结与思考.doc（3页珍藏版）》请在金锄头文库上搜索。

1、LASSO方法的总结与思考统计学习中如果一味提高对训练数据的拟合能力，模型复杂度也会相应提高，这种情况下训练出的方程总是能很好的拟合训练数据，得到的代价函数可能非常接近于0，但这样的曲线千方百计的去拟合训练数据，通常会导致它无法泛化到新的数据样本中，这类情况被叫做过拟合(overfitting)。例如在生物医学领域中，数据的维度很高，但由于收集数据需要实验代价高昂，可用的训练数据却相当少，很容易发生过拟合问题3。对于过拟合，可以通过人工筛选去除某些变量，留下关键的变量，但是在剔除变量的时候，就舍弃了一部分信息，可能会对最终的预测结果造成影响。另一种方法是正则化，在经验风险的基础上加一个正则化项

2、，降低某些参数的影响，事实上，这些参数的值越小，对应更加简单的函数，就不易发生过拟合的问题。常见的正则化方法有岭回归和LASSO回归，它们间的区别在于，岭回归是一个系数收缩的连续的过程，并且因此更加稳定，但任何系数都不为0，因此不能使模型降维。LASSO(Least absolute shrinkage and selection operator)算法1于1996年由Robert Tibshirani首次提出，这种方法在保留了岭回归的优点的同时，可以将某些参数变为0，使模型更简洁2。对最简单的线性回归模型：(1)然后如式(2)按照经验风险的最小化策略，求解多项式系数：(2)其中是输入的观测值

3、，是输出的观测值。该问题具有解析解：(3)如果变量个数大于数据点的个数的话，矩阵将会不是满秩的，会有无穷多个解。如果从所有可行解里随机选一个的话，很可能并不是真正好的解，发生过拟合。岭回归是在经验风险上再添加一个正则化项：(4)此时问题的解为：(5)从数学上可证明是可逆的，故岭回归可以避免过拟合。不过，岭回归并不具有产生稀疏解的能力，从计算量上来说并没有得到改观。对于LASSO回归，用正则化项代替，则有：(6)为了便于描述两种正则化方法的几何意义，考虑两维的情况，可在平面上画出目标函数与约束区域图像如图1所示：图1 LASSO和岭回归的估计图可以看到，LASSO与岭回归图像的不同就在于LASS

4、O中和每个坐标轴相交的地方都有“角”出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交，角的位置为产生稀疏性，例如图中的相交点就有。扩展到三维空间内，会有一条棱和目标函数相交，所以LASSO能够产生稀疏性，对变量空间进行压缩。参考文献1 R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58(1):267288, 19962 Friedman J, Hastie T, Tibshirani R. Regularization Paths for Generalized Linear Models via Coordinate DescentJ. Journal of Statistical Software, 2010, 33(01):1-22.3 张靖, 胡学钢, 张玉红,等. K-split Lasso:有效的肿瘤特征基因选择方法J. 计算机科学与探索, 2012, 6(12):1136-1143.

展开阅读全文