《线回归中的模型选择》由会员分享,可在线阅读,更多相关《线回归中的模型选择(49页珍藏版)》请在金锄头文库上搜索。
1、线性回归中的模型选择n n多元回归分析中,输入特征可能有许多,这些特多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的?征对模型都是必须的?n n否否n n因为:因为:n n预测准确性:预测准确性:当回归模型中变量增多时,预测的偏差当回归模型中变量增多时,预测的偏差的低但方差高(过拟合)的低但方差高(过拟合)n n可解释性可解释性:当回归模型中的预测子数目很多时,模型:当回归模型中的预测子数目很多时,模型很难解释很难解释n n希望找到效果更明显的少数预测子希望找到效果更明显的少数预测子1模型选择n n模型选择模型选择n n模型评估:用一些指标来衡量每个模型模型评估:用一些指标来衡量每
2、个模型n n解析计算:解析计算:AIC/BIC/MDLAIC/BIC/MDLn n模拟计算:交叉验证模拟计算:交叉验证/bootstap/bootstapn n模型搜索:在模型空间中搜索,找到在某个衡量指标下模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型最优的模型n n模型空间不大:穷举搜索模型空间不大:穷举搜索n n否则:贪心搜索否则:贪心搜索n n前向前向/ /后向后向/ /双向逐步双向逐步n n上述模型选择是离散的,亦称子集选择。另一类方法为上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法连续的收缩方法n n岭回归岭回归n nLassoLasso2回顾:线性回归
3、模型n n假定假定 不依赖于不依赖于x x: :n n其中其中 n n模型类型:参数模型模型类型:参数模型n n损失:平方误差损失损失:平方误差损失n n参数选择:训练数据上的最小平方误差(最小二乘,在高参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,斯噪声假设下,= = 极大似然极大似然 )n n计算:矩阵求逆计算:矩阵求逆/QR/QR分解分解n n模型选择:模型选择:AIC/BICAIC/BIC3回顾:线性回归模型n n最小二乘参数估计的结果:最小二乘参数估计的结果:n n点估计:点估计:n n偏差:偏差:n n方差:方差:n n 的无偏估计为:的无偏估计为:4回顾:线性回
4、归模型n n预测结果:预测结果:n n点估计:点估计:n n偏差:偏差:n n方差方差n n 其中其中 是固有的,与参数的估计是固有的,与参数的估计 无关。对不同无关。对不同的估计的估计 ,得到的预测的方差不同(,得到的预测的方差不同( 不同)不同)5子集选择n n只保留变量的一个子集,将其余变量从模型中删除只保留变量的一个子集,将其余变量从模型中删除(将其系数置为(将其系数置为0 0)n n当当p p较小时,可穷尽搜索最佳子集较小时,可穷尽搜索最佳子集n n对每个对每个 ,其中,其中p p为变量的总数目,找出容为变量的总数目,找出容量为量为k k的子集,计算每个模型的得分(的子集,计算每个模
5、型的得分(AIC/BICAIC/BIC)n n具体算法参考具体算法参考 Furnival&Wilson 1974Furnival&Wilson 1974n n容量较大的最佳子集不必包含容量较小的最佳子集容量较大的最佳子集不必包含容量较小的最佳子集6AIC:Akaike Information Criterionn nAICAIC为模型为模型MM测试误差的一个估计:测试误差的一个估计:n n其中其中 为在模型为在模型MM对应的训练集数据的对数似然函数,对应的训练集数据的对数似然函数,p p为模型为模型MM中特征的数目中特征的数目n n我们选择测试误差我们选择测试误差 最小的模型,等价于选择下述表
6、最小的模型,等价于选择下述表达式最大的模型达式最大的模型Akaike, Hirotugu (December 1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control 19 (6): 训练集上的拟合度模型复杂度7AIC:Akaike Information Criterionn n当假设高斯噪声时,当假设高斯噪声时,n n这样导出这样导出AICAIC另一种表示:另一种表示:n n其中 为从一个低偏差估计的MSE估计n n低偏差估计:复杂模型,即包括所有特征的
7、模型低偏差估计:复杂模型,即包括所有特征的模型8BIC :Bayesian Information Criterionn n类似类似AICAIC,可用于极大对数似然实现的拟合中,可用于极大对数似然实现的拟合中n n所以所以 n n最小化最小化BICBIC,等价于最大化,等价于最大化 n n最小描述长度(最小描述长度(MDLMDL)的结论同)的结论同BIC BIC Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.9前向逐步回归n n从截距开始,每次增加一个特征从截距开始
8、,每次增加一个特征n n计算增加特征后每个模型的计算增加特征后每个模型的AICAIC,假设当前模型,假设当前模型有有k k个输入特征,则其个输入特征,则其AICAIC为:为:n n选择选择AICAIC最小的模型最小的模型n n直到直到AICAIC不再变小不再变小10后向逐步回归n n从包含所有特征的模型开始,每次去掉一个特征从包含所有特征的模型开始,每次去掉一个特征n n计算去掉特征后每个模型的计算去掉特征后每个模型的AICAICn n选择选择AICAIC最小的模型最小的模型n n直到直到AICAIC不再变小不再变小11例:前列腺癌后向逐步回归n n所有变量都用:所有变量都用:k k = 8
9、= 8n n n n n n n n去掉一个变量,去掉一个变量, k k = 7 = 7,去掉变量后的,去掉变量后的AICAIC分别为分别为n n去掉最小去掉最小AICAIC对应的特征,即去掉对应的特征,即去掉gleasongleasonlcavollcavollweightlweightageagelbphlbphsvisvilcplcpgleasongleasonpgg45pgg45100.7971100.797179.566879.566873.948673.948676.226576.226578.097278.097275.485475.485472.021572.021575.02
10、0175.020112例:前列腺癌后向逐步回归(续)n n最小最小AICAIC为,再继续去掉一个变量:为,再继续去掉一个变量:k k = 6 = 6n n此时最小的此时最小的AICAIC( )也比大,)也比大,n n不过也没比大多少不过也没比大多少n n所以根据所以根据AICAIC准则,用后向逐步回归最后选择的模型为准则,用后向逐步回归最后选择的模型为k k=7=7lcavollcavollweightlweightageagelbphlbphsvisvilcplcppgg45pgg4599.364899.364877.915077.915072.194572.194574.230574.23
11、0576.262776.262773.487173.487174.703774.703713例:前列腺癌后向逐步回归(续)n n如果不停止,而是继续后向逐步回归,直到删除所有特征,如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的则接下来删除的特征及其对应的AICAIC分别为分别为n nk k=7, =7, 删除删除gleasongleasonn nk k=6, =6, 删除删除 n nk k=5, =5, 删除删除lcplcp n nk k=4, =4, 删除删除 n nk k=3, =3, 删除删除lbphlbph n nk k=2, =2, 删除删除svis
12、vi n nk k=1, =1, 删除删除lweightlweight n nk k=0, =0, 删除删除lcavollcavol14例:前列腺癌后向逐步回归(续)n n :模型与训练集的拟合程度:模型与训练集的拟合程度n n 模型越复杂,与训练数据拟合得越好,但可能过拟合模型越复杂,与训练数据拟合得越好,但可能过拟合n n AIC AIC:测试误差的估计,与训练集的拟合程度和模型复杂:测试误差的估计,与训练集的拟合程度和模型复杂度都有关度都有关15例:前列腺癌前向逐步回归n n不用任何变量:不用任何变量:k k = 0 = 0n n n n n n n n增加一个变量,增加一个变量, k
13、k = 1 = 1,增加变量后的,增加变量后的AICAIC分别为分别为n n增加最小增加最小AICAIC对应的特征,即对应的特征,即lcavollcavollcavollcavollweightlweightageagelbphlbphsvisvilcplcpgleasongleasonpgg45pgg4589.766789.7667147.0938147.0938181.9385181.9385132.9199132.9199178.6525178.6525146.3563146.3563169.5205169.5205153.6764153.676416例:前列腺癌前向逐步回归(续)n n
14、最小最小AICAIC为,再继续增加一个变量:为,再继续增加一个变量:k k =2 =2n n增加最小增加最小AICAIC对应的特征,即对应的特征,即lweightlweightn n再继续增加一个变量:再继续增加一个变量:k k =3 =3n n增加最小增加最小AICAIC对应的特征,即对应的特征,即svisvilweightlweightageagelbphlbphsvisvilcplcpgleasongleasonpgg45pgg4577.108877.108891.701891.701882.825682.825687.399087.399091.646591.646591.560891
15、.560889.587889.5878ageagelbphlbphsvisvilcplcpgleasongleasonpgg45pgg4578.567578.567576.986676.986674.803974.803979.104779.104778.254678.254675.841275.841217例:前列腺癌前向逐步回归(续)n n最小最小AICAIC为,再继续增加一个变量:为,再继续增加一个变量:k k =4 =4n n增加最小增加最小AICAIC对应的特征,即对应的特征,即lbphlbphn n再继续增加一个变量:再继续增加一个变量:k k =5 =5n n此时此时AICAIC
16、不再变小,最终选择的模型为不再变小,最终选择的模型为k k=4=4ageagelbphlbphlcplcpgleasongleasonpgg45pgg4576.4183 76.4183 72.679072.679075.554175.554176.210576.210575.160875.1608ageagelcplcpgleasongleasonpgg45pgg4573.633373.6333 73.709073.709074.327974.327973.209573.209518测试误差的模拟计算n n模型评估与选择:模型评估与选择:n n1 1、选择模型调整参数的值、选择模型调整参数的值
17、n n2 2、估计给定模型的预测性能、估计给定模型的预测性能n n 最好有一个独立的测试集最好有一个独立的测试集n n对对1 1,校验集校验集n n对对2 2,测试集测试集n n但通常没有足够多的数据来构造校验集但通常没有足够多的数据来构造校验集/ /测试集,在测试集,在这种情况下,我们通过这种情况下,我们通过重采样技术重采样技术来模拟校验集。来模拟校验集。n n交叉验证交叉验证和和bootstrapbootstrap是重采样技术的两个代表是重采样技术的两个代表19K-折交叉验证n n用于估计模型的调整参数用于估计模型的调整参数 (如子集的容量(如子集的容量k k)n n思想与思想与jackk
18、nifejackknife类似类似n n将数据分成容量大致相等的将数据分成容量大致相等的K K份(通常份(通常K K=5/10=5/10)20K-折交叉验证n n对每个对每个 ,取调整参数为,取调整参数为 ,每次留出,每次留出第第k k份数据,其余份数据,其余K K-1-1份数据用于训练,得到参数份数据用于训练,得到参数的估计的估计 ,并计算第,并计算第k k份数据的预测误差:份数据的预测误差:n n交叉验证的误差为交叉验证的误差为n n 对多个不同的对多个不同的 ,计算其对应的误差,计算其对应的误差 ,最佳,最佳模型为模型为 最小的模型。最小的模型。21K-折交叉验证n n在子集选择的例子中
19、,在子集选择的例子中, 为子集的容量为子集的容量n n 为子集容量为为子集容量为 的最佳子集的系数(训的最佳子集的系数(训练数据为除了第练数据为除了第k k份数据的其他份数据的其他K K-1-1份数据)份数据)n n 为该最佳子集的测试误差的一个估计为该最佳子集的测试误差的一个估计n nK K- -折交叉验证的测试误差的估计为折交叉验证的测试误差的估计为22例:前列腺癌交叉验证n n1010折交叉验证,折交叉验证,K K=10=10n n训练集:训练集:6767个数据点个数据点n n校验集:每次从校验集:每次从6767个训练数据中留出个训练数据中留出7 7个数据点(个数据点(10-10-折)折
20、)n n最佳模型:测试误差在最小测试最佳模型:测试误差在最小测试 误差的一倍以内的最简单误差的一倍以内的最简单模型模型最小测试误差最佳模型最佳测试误差+1倍方差23回顾:线性回归模型n n预测结果:预测结果:n n点估计:点估计:n n偏差:偏差:n n方差:方差:n n在所有的无偏估计中,最小二乘估计的方差最小在所有的无偏估计中,最小二乘估计的方差最小n n但可能存在有偏估计,其但可能存在有偏估计,其MSEMSE比最小二乘估计的比最小二乘估计的MSEMSE小小24岭回归(Ridge Regression)n n现在考虑我们要最小化一个修正的函数:现在考虑我们要最小化一个修正的函数:n n由原
21、来由原来RSSRSS加上一项惩罚权向量大小的项,加上一项惩罚权向量大小的项, 是一个复杂度参数,是一个复杂度参数,控制收缩量控制收缩量/ /正则量正则量n n等价于:等价于:n n其中其中s s取代了取代了 的功能的功能n n解为:解为:n n仍然是仍然是y y的线性组合的线性组合n n如果输入时正交的如果输入时正交的: :25岭回归:为什么?n n当矩阵当矩阵 奇异时,最小二乘的结果变得很坏奇异时,最小二乘的结果变得很坏n n当自变量系统中存在多重相关性时,它们的系数确定性变差,这种当自变量系统中存在多重相关性时,它们的系数确定性变差,这种不确定性增加了方差(如一个大的权重可以被一个相关的特
22、征上的不确定性增加了方差(如一个大的权重可以被一个相关的特征上的负权重平衡)负权重平衡)n n当矩阵当矩阵A A奇异时,一些特征值奇异时,一些特征值 ,从而使得,从而使得 很大,很大,表示表示 与与之间的偏差很大之间的偏差很大。同时。同时 也很大,表示结果不也很大,表示结果不稳定稳定n n岭回归在矩阵岭回归在矩阵 求逆之前,将一个正的常数加到求逆之前,将一个正的常数加到A A的的对角线上,使得问题非奇异对角线上,使得问题非奇异,其中 为矩阵 的特征值26岭回归:为什么?n n从贝叶斯的观点:正则项可视为参数的先验从贝叶斯的观点:正则项可视为参数的先验n n如果假设如果假设 ,并且每个,并且每个
23、 都符都符合先验分布合先验分布 ,岭回归也可以被看作,岭回归也可以被看作是从后验分布得到的。那么是从后验分布得到的。那么 的负的负loglog后验后验密度就是密度就是 ,其中,其中27奇异值分解 (SVD)n n n n n n U U的列生成的列生成X X的列空间,的列空间,V V的列生成的列生成X X的行空间的行空间n n用用SVDSVD的形式分解:的形式分解:y 相对 U 基的坐标y 相对 U 基的收缩坐标 越小的基,收缩得越多越小的基,收缩得越多模型的复杂度参数(有效自由度):28与主成分的关系n n用用SVDSVD的形式:的形式:n n特征向量特征向量 为为 X X 的主成分方向的主
24、成分方向特征值分解主成分X 列向量的线性组合归一化的主成分 较小的 值对应有较小方差的X的列空间方向,收缩最多岭回归假设在高方差的输入方向上,响应会变化大,因此避免小方差的X上的Y的大的变化29与主成分的关系n n n n X X的的SVDSVD分解:分解:n n所以所以n nX X进行进行SVDSVD分解后,对所有的分解后,对所有的都可利用都可利用 30例:前列腺癌岭回归31例:前列腺癌岭回归最佳测试误差最佳模型最佳测试误差+1倍方差32Lasson n类似岭回归,最小化类似岭回归,最小化n n等价于等价于n n将岭回归中的惩罚项将岭回归中的惩罚项 用用 代替代替n n使得解为使得解为y y
25、的非线性组合,计算时用二次规划算法的非线性组合,计算时用二次规划算法n n如果如果t t选择为足够小,会使得一些系数等于选择为足够小,会使得一些系数等于0 0。选择最小期望测试误差的t33例:前列腺癌Lasso最佳测试误差最佳模型最佳测试误差+1倍方差34例:前列腺癌LassoLasso会使某些系数=0而岭回归不会35例:前列腺癌不同正则化方法36收缩估计族n n考虑标准考虑标准n n不同不同q q对应的对应的 的轮廓线为的轮廓线为n n在贝叶斯框架下,在贝叶斯框架下, 可视为可视为 的负的的负的loglog先验先验37收缩估计族n n在贝叶斯框架下,在贝叶斯框架下,LassoLasso、岭回
26、归和最佳子集选、岭回归和最佳子集选择表现为选择的先验分布不同择表现为选择的先验分布不同n n估计的结果都为贝叶斯估计:众数(最大后验)估计的结果都为贝叶斯估计:众数(最大后验)n n岭回归同时也是后验均值(高斯分布的众数也是均值)岭回归同时也是后验均值(高斯分布的众数也是均值)38下节课内容n n概率密度估计n nWasserman Chp19Wasserman Chp1939Regularizationn nRegularization: add model complexity penalty to Regularization: add model complexity penalty
27、to training error.training error.n nfor some constant Cfor some constant Cn nNow Now n nRegularization forces weights to be small, but does it Regularization forces weights to be small, but does it force weights to be exactly force weights to be exactly zerozero? ? n n is equivalent to removing feat
28、ure f from the model is equivalent to removing feature f from the model40L1 vs L2 regularization41L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization i
29、s a tug-of-war between the two terms42L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms43L1 vs L2 regularizatio
30、nn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms44L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we can solve by
31、 (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two termsn nw is forced into the cornersmany components 0w is forced into the cornersmany components 0n nSolution is Solution is sparsesparse45L1 vs L2 r
32、egularizationn nTo minimize , we can solve To minimize , we can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two terms46L1 vs L2 regularizationn nTo minimize , we can solve To minimize , we
33、can solve by (e.g.) gradient descent. by (e.g.) gradient descent.n nMinimization is a tug-of-war between the two termsMinimization is a tug-of-war between the two termsn nL L2 2 regularization does not promote sparsity regularization does not promote sparsityn nEven without sparsityEven without spar
34、sity, regularization promotes , regularization promotes generalizationlimits expressiveness of modelgeneralizationlimits expressiveness of model47Lasso Regression Tibshirani 94n nSimply linear regression with an L1 penalty for sparsity.n nTwo big questions:n n1. How do we perform this minimization?
35、1. How do we perform this minimization? n nWith LWith L2 2 penalty its easysaw this in a previous lecture penalty its easysaw this in a previous lecturen nWith LWith L1 1 its not a least-squares problem any more its not a least-squares problem any moren n2. How do we choose C?2. How do we choose C?4
36、8Least-Angle Regressionn nUp until a few years ago Up until a few years ago this was not trivialthis was not trivialn nFitting model: optimization Fitting model: optimization problem, harder than least-problem, harder than least-squaressquaresn nCross validation to choose C: Cross validation to choo
37、se C: must fit model for every must fit model for every candidate C valuecandidate C valuen nNot with LARS! (Least Not with LARS! (Least Angle Regression, Hastie et Angle Regression, Hastie et al, 2004)al, 2004)n nFind trajectory of w for all Find trajectory of w for all possible C values possible C values simultaneously, as efficiently simultaneously, as efficiently as least-squaresas least-squaresn nCan choose exactly how Can choose exactly how many features are wantedmany features are wantedFigure taken from Hastie et al (2004)49