线性回归中的模型选择

上传人:桔**** 文档编号:578137170 上传时间:2024-08-23 格式:PPT 页数:49 大小:1.11MB
返回 下载 相关 举报
线性回归中的模型选择_第1页
第1页 / 共49页
线性回归中的模型选择_第2页
第2页 / 共49页
线性回归中的模型选择_第3页
第3页 / 共49页
线性回归中的模型选择_第4页
第4页 / 共49页
线性回归中的模型选择_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《线性回归中的模型选择》由会员分享,可在线阅读,更多相关《线性回归中的模型选择(49页珍藏版)》请在金锄头文库上搜索。

1、线性回归中的模型选择n多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的?n否n因为:n预测准确性:当回归模型中变量增多时,预测的偏差的低但方差高(过拟合)n可解释性:当回归模型中的预测子数目很多时,模型很难解释n希望找到效果更明显的少数预测子1模型选择n模型选择n模型评估:用一些指标来衡量每个模型n解析计算:AIC/BIC/MDLn模拟计算:交叉验证/bootstapn模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型n模型空间不大:穷举搜索n否则:贪心搜索n前向/后向/双向逐步n上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法n岭回归nLasso2回顾:线性

2、回归模型n假定 不依赖于x:n其中 n模型类型:参数模型n损失:平方误差损失n参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,= 极大似然 )n计算:矩阵求逆/QR分解n模型选择:AIC/BIC3回顾:线性回归模型n最小二乘参数估计的结果:n点估计:n偏差:n方差:n 的无偏估计为:4回顾:线性回归模型n预测结果:n点估计:n偏差:n方差n 其中 是固有的,与参数的估计 无关。对不同的估计 ,得到的预测的方差不同( 不同)5子集选择n只保留变量的一个子集,将其余变量从模型中删除(将其系数置为0)n当p较小时,可穷尽搜索最佳子集n对每个 ,其中p为变量的总数目,找出容量为k的子集

3、,计算每个模型的得分(AIC/BIC)n具体算法参考 Furnival&Wilson 1974n容量较大的最佳子集不必包含容量较小的最佳子集6AIC:Akaike Information CriterionnAIC为模型M测试误差的一个估计:n其中 为在模型M对应的训练集数据的对数似然函数,p为模型M中特征的数目n我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型Akaike, Hirotugu (December 1974). A new look at the statistical model identification. IEEE Transactions on Autom

4、atic Control 19 (6): 训练集上的拟合度模型复杂度7AIC:Akaike Information Criterionn当假设高斯噪声时,n这样导出AIC另一种表示:n其中 为从一个低偏差估计的MSE估计n低偏差估计:复杂模型,即包括所有特征的模型8BIC :Bayesian Information Criterionn类似AIC,可用于极大对数似然实现的拟合中n所以 n最小化BIC,等价于最大化 n最小描述长度(MDL)的结论同BIC Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statis

5、tics, 6, 461-464.9前向逐步回归n从截距开始,每次增加一个特征n计算增加特征后每个模型的AIC,假设当前模型有k个输入特征,则其AIC为:n选择AIC最小的模型n直到AIC不再变小10后向逐步回归n从包含所有特征的模型开始,每次去掉一个特征n计算去掉特征后每个模型的AICn选择AIC最小的模型n直到AIC不再变小11例:前列腺癌后向逐步回归n所有变量都用:k = 8n n n n去掉一个变量, k = 7,去掉变量后的AIC分别为n去掉最小AIC对应的特征,即去掉gleasonlcavollweightagelbphlbphsvisvilcplcpgleasongleasonp

6、gg45pgg45100.7971100.797179.566879.566873.948673.948676.226576.226578.097278.097275.485475.485472.021572.021575.020175.020112例:前列腺癌后向逐步回归(续)n最小AIC为72.0215,再继续去掉一个变量:k = 6n此时最小的AIC( 72.1945 )也比72.0215大,n不过也没比72.0215大多少n所以根据AIC准则,用后向逐步回归最后选择的模型为k=7lcavollweightagelbphlbphsvisvilcplcppgg45pgg4599.36489

7、9.364877.915077.915072.194572.194574.230574.230576.262776.262773.487173.487174.703774.703713例:前列腺癌后向逐步回归(续)n如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的AIC分别为nk=7, 删除gleason, AIC= 72.0215nk=6, 删除age, AIC= 72.1945 nk=5, 删除lcp, AIC= 73.2095 nk=4, 删除pgg45, AIC= 72.6790 nk=3, 删除lbph, AIC= 74.8309 nk=2, 删除sv

8、i, AIC= 77.1088 nk=1, 删除lweight, AIC= 89.7667 nk=0, 删除lcavol, AIC= 189.772714例:前列腺癌后向逐步回归(续)n :模型与训练集的拟合程度n 模型越复杂,与训练数据拟合得越好,但可能过拟合n AIC:测试误差的估计,与训练集的拟合程度和模型复杂度都有关15例:前列腺癌前向逐步回归n不用任何变量:k = 0n n n n增加一个变量, k = 1,增加变量后的AIC分别为n增加最小AIC对应的特征,即lcavollcavollweightagelbphlbphsvisvilcplcpgleasongleasonpgg45p

9、gg4589.766789.7667147.0938147.0938181.9385181.9385132.9199132.9199178.6525178.6525146.3563146.3563169.5205169.5205153.6764153.676416例:前列腺癌前向逐步回归(续)n最小AIC为89.2667,再继续增加一个变量:k =2n增加最小AIC对应的特征,即lweightn再继续增加一个变量:k =3n增加最小AIC对应的特征,即svilweightagelbphlbphsvisvilcplcpgleasongleasonpgg45pgg4577.108877.10889

10、1.701891.701882.825682.825687.399087.399091.646591.646591.560891.560889.587889.5878agelbphlbphsvisvilcplcpgleasongleasonpgg45pgg4578.567578.567576.986676.986674.803974.803979.104779.104778.254678.254675.841275.841217例:前列腺癌前向逐步回归(续)n最小AIC为74.8039,再继续增加一个变量:k =4n增加最小AIC对应的特征,即lbphn再继续增加一个变量:k =5n此时AIC

11、不再变小,最终选择的模型为k=4agelbphlbphlcplcpgleasongleasonpgg45pgg4576.4183 76.4183 72.679072.679075.554175.554176.210576.210575.160875.1608agelcplcpgleasongleasonpgg45pgg4573.633373.6333 73.709073.709074.327974.327973.209573.209518测试误差的模拟计算n模型评估与选择:n1、选择模型调整参数的值n2、估计给定模型的预测性能n 最好有一个独立的测试集n对1,校验集n对2,测试集n但通常没有足

12、够多的数据来构造校验集/测试集,在这种情况下,我们通过重采样技术来模拟校验集。n交叉验证和bootstrap是重采样技术的两个代表19K-折交叉验证n用于估计模型的调整参数 (如子集的容量k)n思想与jackknife类似n将数据分成容量大致相等的K份(通常K=5/10)20K-折交叉验证n对每个 ,取调整参数为 ,每次留出第k份数据,其余K-1份数据用于训练,得到参数的估计 ,并计算第k份数据的预测误差:n交叉验证的误差为n 对多个不同的 ,计算其对应的误差 ,最佳模型为 最小的模型。21K-折交叉验证n在子集选择的例子中, 为子集的容量n 为子集容量为 的最佳子集的系数(训练数据为除了第k

13、份数据的其他K-1份数据)n 为该最佳子集的测试误差的一个估计nK-折交叉验证的测试误差的估计为22例:前列腺癌交叉验证n10折交叉验证,K=10n训练集:67个数据点n校验集:每次从67个训练数据中留出7个数据点(10-折)n最佳模型:测试误差在最小测试 误差的一倍以内的最简单模型最小测试误差最佳模型最佳测试误差+1倍方差23回顾:线性回归模型n预测结果:n点估计:n偏差:n方差:n在所有的无偏估计中,最小二乘估计的方差最小n但可能存在有偏估计,其MSE比最小二乘估计的MSE小24岭回归(Ridge Regression)n现在考虑我们要最小化一个修正的函数:n由原来RSS加上一项惩罚权向量

14、大小的项, 是一个复杂度参数,控制收缩量/正则量n等价于:n其中s取代了 的功能n解为:n仍然是y的线性组合n如果输入时正交的:25岭回归:为什么?n当矩阵 奇异时,最小二乘的结果变得很坏n当自变量系统中存在多重相关性时,它们的系数确定性变差,这种不确定性增加了方差(如一个大的权重可以被一个相关的特征上的负权重平衡)n当矩阵A奇异时,一些特征值 ,从而使得 很大,表示 与之间的偏差很大。同时 也很大,表示结果不稳定n岭回归在矩阵 求逆之前,将一个正的常数加到A的对角线上,使得问题非奇异,其中 为矩阵 的特征值26岭回归:为什么?n从贝叶斯的观点:正则项可视为参数的先验n如果假设 ,并且每个 都

15、符合先验分布 ,岭回归也可以被看作是从后验分布得到的。那么 的负log后验密度就是 ,其中27奇异值分解 (SVD)n n n U的列生成X的列空间,V的列生成X的行空间n用SVD的形式分解:y 相对 U 基的坐标y 相对 U 基的收缩坐标 越小的基,收缩得越多越小的基,收缩得越多模型的复杂度参数(有效自由度):28与主成分的关系n用SVD的形式:n特征向量 为 X 的主成分方向特征值分解主成分X 列向量的线性组合归一化的主成分 较小的 值对应有较小方差的X的列空间方向,收缩最多岭回归假设在高方差的输入方向上,响应会变化大,因此避免小方差的X上的Y的大的变化29与主成分的关系n n X的SVD

16、分解:n所以nX进行SVD分解后,对所有的都可利用 30例:前列腺癌岭回归31例:前列腺癌岭回归最佳测试误差最佳模型最佳测试误差+1倍方差32Lasson类似岭回归,最小化n等价于n将岭回归中的惩罚项 用 代替n使得解为y的非线性组合,计算时用二次规划算法n如果t选择为足够小,会使得一些系数等于0。选择最小期望测试误差的t33例:前列腺癌Lasso最佳测试误差最佳模型最佳测试误差+1倍方差34例:前列腺癌LassoLasso会使某些系数=0而岭回归不会35例:前列腺癌不同正则化方法36收缩估计族n考虑标准n不同q对应的 的轮廓线为n在贝叶斯框架下, 可视为 的负的log先验37收缩估计族n在贝

17、叶斯框架下,Lasso、岭回归和最佳子集选择表现为选择的先验分布不同n估计的结果都为贝叶斯估计:众数(最大后验)n岭回归同时也是后验均值(高斯分布的众数也是均值)38下节课内容n概率密度估计nWasserman Chp1939Regularizationn nRegularization: add model complexity penalty to Regularization: add model complexity penalty to training error.training error.n nfor some constant Cfor some constant Cn n

18、Now Now n nRegularization forces weights to be small, but does it Regularization forces weights to be small, but does it force weights to be exactly force weights to be exactly zerozero? ? n n is equivalent to removing feature f from the model is equivalent to removing feature f from the model40L1 v

19、s L2 regularization41L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms42L1 vs L2 regularizationn nTo minimize ,

20、 we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms43L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient

21、descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms44L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug

22、-of-war between the two termsMinimization is a tug-of-war between the two termsn nw is forced into the cornersmany components 0w is forced into the cornersmany components 0n nSolution is Solution is sparsesparse45L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by (e.g

23、.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms46L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimizat

24、ion is a tug-of-war between the two termsMinimization is a tug-of-war between the two termsn nL L2 2 regularization does not promote regularization does not promote sparsitysparsityn nEven without Even without sparsitysparsity, regularization promotes , regularization promotes generalizationlimits e

25、xpressiveness of modelgeneralizationlimits expressiveness of model47Lasso Regression Tibshirani 94n nSimply linear regression with an L1 penalty for sparsity.n nTwo big questions:n n1. How do we perform this minimization? 1. How do we perform this minimization? n nWith LWith L2 2 penalty its easysaw

26、 this in a previous lecture penalty its easysaw this in a previous lecturen nWith LWith L1 1 its not a least-squares problem any more its not a least-squares problem any moren n2. How do we choose C?2. How do we choose C?48Least-Angle Regressionn nUp until a few years ago Up until a few years ago th

27、is was not trivialthis was not trivialn nFitting model: optimization Fitting model: optimization problem, harder than least-problem, harder than least-squaressquaresn nCross validation to choose C: Cross validation to choose C: must fit model for every must fit model for every candidate C valuecandi

28、date C valuen nNot with LARS! (Least Not with LARS! (Least Angle Regression, Hastie et Angle Regression, Hastie et al, 2004)al, 2004)n nFind trajectory of w for all Find trajectory of w for all possible C values possible C values simultaneously, as efficiently simultaneously, as efficiently as least-squaresas least-squaresn nCan choose exactly how Can choose exactly how many features are wantedmany features are wantedFigure taken from Hastie et al (2004)49

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号