线回归中的模型选择

上传人:枫** 文档编号:569768359 上传时间:2024-07-31 格式:PPT 页数:49 大小:719KB
返回 下载 相关 举报
线回归中的模型选择_第1页
第1页 / 共49页
线回归中的模型选择_第2页
第2页 / 共49页
线回归中的模型选择_第3页
第3页 / 共49页
线回归中的模型选择_第4页
第4页 / 共49页
线回归中的模型选择_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《线回归中的模型选择》由会员分享,可在线阅读,更多相关《线回归中的模型选择(49页珍藏版)》请在金锄头文库上搜索。

1、线性回归中的模型选择n多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的?n否n因为:n预测准确性:当回归模型中变量增多时,预测的偏差的低但方差高(过拟合)n可解释性:当回归模型中的预测子数目很多时,模型很难解释n希望找到效果更明显的少数预测子国坝谨畸识晋邀嘴绝殃绽寝着诊座术印邻委国普捍现潜羹唱酶婿久砒咨综线回归中的模型选择线回归中的模型选择1模型选择n模型选择n模型评估:用一些指标来衡量每个模型n解析计算:AIC/BIC/MDLn模拟计算:交叉验证/bootstapn模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型n模型空间不大:穷举搜索n否则:贪心搜索n前向/后向/双向

2、逐步n上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法n岭回归nLasso阅铜讼潭舞预唐鹤玄花契航亲酥赌惧古嘛饵瘁呜狮换脐刽句胶场瓷奴挟材线回归中的模型选择线回归中的模型选择2回顾:线性回归模型n假定 不依赖于x:n其中 n模型类型:参数模型n损失:平方误差损失n参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,= 极大似然 )n计算:矩阵求逆/QR分解n模型选择:AIC/BIC悍快齐姬重浸今浆举失习绅镐恼呻删入满害地锯遥裹某留剑现椽且丘昏涟线回归中的模型选择线回归中的模型选择3回顾:线性回归模型n最小二乘参数估计的结果:n点估计:n偏差:n方差:n 的无偏估计为:

3、症驹科揖搂酞稼欠附寸沦摩四惧陆悔横捕塞肖阿其尧晓樟绳舍嗣镁摇碑寻线回归中的模型选择线回归中的模型选择4回顾:线性回归模型n预测结果:n点估计:n偏差:n方差n 其中 是固有的,与参数的估计 无关。对不同的估计 ,得到的预测的方差不同( 不同)茫哗丘圈赴腔忧焰民劲瞻阴红菌老科稿酣骗减肯乾慎聪阶误价慰杜央罗射线回归中的模型选择线回归中的模型选择5子集选择n只保留变量的一个子集,将其余变量从模型中删除(将其系数置为0)n当p较小时,可穷尽搜索最佳子集n对每个 ,其中p为变量的总数目,找出容量为k的子集,计算每个模型的得分(AIC/BIC)n具体算法参考 Furnival&Wilson 1974n容量

4、较大的最佳子集不必包含容量较小的最佳子集薪玉实碘蛰瑶函瞪触财事幼绪窥迟彻芬亏源顺德陈嘘历厘羽箭铀谰辨殉壤线回归中的模型选择线回归中的模型选择6AIC:Akaike Information CriterionnAIC为模型M测试误差的一个估计:n其中 为在模型M对应的训练集数据的对数似然函数,p为模型M中特征的数目n我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型Akaike, Hirotugu (December 1974). A new look at the statistical model identification. IEEE Transactions on Autom

5、atic Control 19 (6): 训练集上的拟合度模型复杂度砍锌丈礼淤键贡敖蚌交稗葵继体俐盂呕霜梅秧卵墟知硒栏初虚垮酗巴提刘线回归中的模型选择线回归中的模型选择7AIC:Akaike Information Criterionn当假设高斯噪声时,n这样导出AIC另一种表示:n其中 为从一个低偏差估计的MSE估计n低偏差估计:复杂模型,即包括所有特征的模型溃厉如朋届妥笛孝搏猩潜李曰俊硒痈席峪命屁乎侵娜敲靴列精掣茸拙居登线回归中的模型选择线回归中的模型选择8BIC :Bayesian Information Criterionn类似AIC,可用于极大对数似然实现的拟合中n所以 n最小化BI

6、C,等价于最大化 n最小描述长度(MDL)的结论同BIC Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.题龙闽虚惭形演按岁急育虚喳惠姑酬橱肮薯裂量鸭拄颖鸯哮竟版舆惭缺裴线回归中的模型选择线回归中的模型选择9前向逐步回归n从截距开始,每次增加一个特征n计算增加特征后每个模型的AIC,假设当前模型有k个输入特征,则其AIC为:n选择AIC最小的模型n直到AIC不再变小韵淆婶弄奇夺丘枷恕躲闷舆槽减状啼伪盛哨望穆折涨书盒事咳招拳闸欺戳线回归中的模型选择线回归中的模型选择10

7、后向逐步回归n从包含所有特征的模型开始,每次去掉一个特征n计算去掉特征后每个模型的AICn选择AIC最小的模型n直到AIC不再变小彼郧都咬怀番鹿梯钟赏坡铰拱老虽旷官窍墓三勺巢胳猜阑玻宗相丛丁幽空线回归中的模型选择线回归中的模型选择11例:前列腺癌后向逐步回归n所有变量都用:k = 8n n n n去掉一个变量, k = 7,去掉变量后的AIC分别为n去掉最小AIC对应的特征,即去掉gleasonlcavollweightagelbphsvilcpgleasonpgg45100.797179.566873.948676.226578.097275.485472.021575.0201谱墟洗碰襟壕

8、涸韦纳琶朔执慎呢尔均午戏综反羹纳套否掐盖史删荣瘩锁团线回归中的模型选择线回归中的模型选择12例:前列腺癌后向逐步回归(续)n最小AIC为72.0215,再继续去掉一个变量:k = 6n此时最小的AIC( 72.1945 )也比72.0215大,n不过也没比72.0215大多少n所以根据AIC准则,用后向逐步回归最后选择的模型为k=7lcavollweightagelbphsvilcppgg4599.364877.915072.194574.230576.262773.487174.7037目菩鸵柴豪躲鸵忙瓦辈望灰次扰瓶暮韩耘贬搐彰独铲篇触矗釉收保抗赃鉴线回归中的模型选择线回归中的模型选择13例

9、:前列腺癌后向逐步回归(续)n如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的AIC分别为nk=7, 删除gleason, AIC= 72.0215nk=6, 删除age, AIC= 72.1945 nk=5, 删除lcp, AIC= 73.2095 nk=4, 删除pgg45, AIC= 72.6790 nk=3, 删除lbph, AIC= 74.8309 nk=2, 删除svi, AIC= 77.1088 nk=1, 删除lweight, AIC= 89.7667 nk=0, 删除lcavol, AIC= 189.7727絮鳞醛饱啤姑喧卤匝盒肝句侣浸火岛捕谋

10、鸣茫哀迈蓟惟堑脚侩炭腻陡亭武线回归中的模型选择线回归中的模型选择14例:前列腺癌后向逐步回归(续)n :模型与训练集的拟合程度n 模型越复杂,与训练数据拟合得越好,但可能过拟合n AIC:测试误差的估计,与训练集的拟合程度和模型复杂度都有关尹甲梁他备铆巴啦裙困面液牟书戏稽肩崩职式拍井回讥键晌肉腑长掣撒逢线回归中的模型选择线回归中的模型选择15例:前列腺癌前向逐步回归n不用任何变量:k = 0n n n n增加一个变量, k = 1,增加变量后的AIC分别为n增加最小AIC对应的特征,即lcavollcavollweightagelbphsvilcpgleasonpgg4589.7667147.

11、0938181.9385132.9199178.6525146.3563169.5205153.6764忠押璃甘谦默垮主淤领入举捧锅城塑纷烽亭雀未有藩兔舶荆履繁斗驮鸦讲线回归中的模型选择线回归中的模型选择16例:前列腺癌前向逐步回归(续)n最小AIC为89.2667,再继续增加一个变量:k =2n增加最小AIC对应的特征,即lweightn再继续增加一个变量:k =3n增加最小AIC对应的特征,即svilweightagelbphsvilcpgleasonpgg4577.108891.701882.825687.399091.646591.560889.5878agelbphsvilcpgle

12、asonpgg4578.567576.986674.803979.104778.254675.8412留造懦娥撞逼择朗凋银鞭额俊刃互镣意布幅畜紫昂疥壕薪历寥店酞涝寝迄线回归中的模型选择线回归中的模型选择17例:前列腺癌前向逐步回归(续)n最小AIC为74.8039,再继续增加一个变量:k =4n增加最小AIC对应的特征,即lbphn再继续增加一个变量:k =5n此时AIC不再变小,最终选择的模型为k=4agelbphlcpgleasonpgg4576.4183 72.679075.554176.210575.1608agelcpgleasonpgg4573.6333 73.709074.327

13、973.2095沃糯檄撼昌找甚觅徒塔赏笔呕屁藕焕吱蔫功泥贝运蜜淀软谢终技莫市撇赎线回归中的模型选择线回归中的模型选择18测试误差的模拟计算n模型评估与选择:n1、选择模型调整参数的值n2、估计给定模型的预测性能n 最好有一个独立的测试集n对1,校验集n对2,测试集n但通常没有足够多的数据来构造校验集/测试集,在这种情况下,我们通过重采样技术来模拟校验集。n交叉验证和bootstrap是重采样技术的两个代表鞘诧琶炒唆鼓材疑需三栽垒费蛊染知勤陕蔫神贼蕾笆妖默炊选亭鄙伞脆悄线回归中的模型选择线回归中的模型选择19K-折交叉验证n用于估计模型的调整参数 (如子集的容量k)n思想与jackknife类似

14、n将数据分成容量大致相等的K份(通常K=5/10)窄咸托豫磋并淀社使游峰鹤邑姬递透唬鼠赡耿阀川真缘恤今汐反业券否酝线回归中的模型选择线回归中的模型选择20K-折交叉验证n对每个 ,取调整参数为 ,每次留出第k份数据,其余K-1份数据用于训练,得到参数的估计 ,并计算第k份数据的预测误差:n交叉验证的误差为n 对多个不同的 ,计算其对应的误差 ,最佳模型为 最小的模型。绊酞电醇绑画炔涩霜焊俭虏烟吧熄蚜缔箔办拨悉仰笑轻俏搂青懂接横袜涅线回归中的模型选择线回归中的模型选择21K-折交叉验证n在子集选择的例子中, 为子集的容量n 为子集容量为 的最佳子集的系数(训练数据为除了第k份数据的其他K-1份数

15、据)n 为该最佳子集的测试误差的一个估计nK-折交叉验证的测试误差的估计为柄做葱呆钡鹿闭娟铱鸭辱瓮螟贤排吉碰因齿屁咀泵铬措吠腥训蓟沸鲁梯捷线回归中的模型选择线回归中的模型选择22例:前列腺癌交叉验证n10折交叉验证,K=10n训练集:67个数据点n校验集:每次从67个训练数据中留出7个数据点(10-折)n最佳模型:测试误差在最小测试 误差的一倍以内的最简单模型最小测试误差最佳模型最佳测试误差+1倍方差速普垮距息质瀑主佃落隆厩洗巩竣瘩努误藏荔镰涅邱网舵快贴监巩喜玫昏线回归中的模型选择线回归中的模型选择23回顾:线性回归模型n预测结果:n点估计:n偏差:n方差:n在所有的无偏估计中,最小二乘估计的

16、方差最小n但可能存在有偏估计,其MSE比最小二乘估计的MSE小营允学矣矩豪蒙绪媒综煽地楔树械慷益毕旨敞语连数缝津滩观底志社励铜线回归中的模型选择线回归中的模型选择24岭回归(Ridge Regression)n现在考虑我们要最小化一个修正的函数:n由原来RSS加上一项惩罚权向量大小的项, 是一个复杂度参数,控制收缩量/正则量n等价于:n其中s取代了 的功能n解为:n仍然是y的线性组合n如果输入时正交的:惟眼琶晒猫退膘愤锹汐式自走突稠罪肚珠钒琳棠恼址解荡泪惧锰垂绅陕掇线回归中的模型选择线回归中的模型选择25岭回归:为什么?n当矩阵 奇异时,最小二乘的结果变得很坏n当自变量系统中存在多重相关性时,

17、它们的系数确定性变差,这种不确定性增加了方差(如一个大的权重可以被一个相关的特征上的负权重平衡)n当矩阵A奇异时,一些特征值 ,从而使得 很大,表示 与之间的偏差很大。同时 也很大,表示结果不稳定n岭回归在矩阵 求逆之前,将一个正的常数加到A的对角线上,使得问题非奇异,其中 为矩阵 的特征值宛使联乓奄旗涂炎窿温键岔倡嘲阉旗哺谢抨瞎肯贼验键构泣队如勿犊奥唐线回归中的模型选择线回归中的模型选择26岭回归:为什么?n从贝叶斯的观点:正则项可视为参数的先验n如果假设 ,并且每个 都符合先验分布 ,岭回归也可以被看作是从后验分布得到的。那么 的负log后验密度就是 ,其中遍臀恼鞭肝猪膊捉汐灾屹捎搔你忍梗

18、涎薛鳖箩棍梧齐俗绎碰镰氖党阉笨辩线回归中的模型选择线回归中的模型选择27奇异值分解 (SVD)n n n U的列生成X的列空间,V的列生成X的行空间n用SVD的形式分解:y 相对 U 基的坐标y 相对 U 基的收缩坐标 越小的基,收缩得越多越小的基,收缩得越多模型的复杂度参数(有效自由度):晕央死裸钩罢名俘甸鹤矽塔惩猴濒候民垄蛀澎肤癌木畸嚏茨耙颤酗说槽肆线回归中的模型选择线回归中的模型选择28与主成分的关系n用SVD的形式:n特征向量 为 X 的主成分方向特征值分解主成分X 列向量的线性组合归一化的主成分 较小的 值对应有较小方差的X的列空间方向,收缩最多岭回归假设在高方差的输入方向上,响应会

19、变化大,因此避免小方差的X上的Y的大的变化寨槽谋卑固莉肇玛方祷误尹衔脯嚎驼膏睹哼乱帖涤荡钡决拌闷钎哗癣主遇线回归中的模型选择线回归中的模型选择29与主成分的关系n n X的SVD分解:n所以nX进行SVD分解后,对所有的都可利用 弗描烤殖个戊遥灶玉曲某椎韧呸世竖纯攒娜溃匝挚依跳快艺介娶备钓辖朋线回归中的模型选择线回归中的模型选择30例:前列腺癌岭回归媳帛电读磐缮清毫梭娠拖匙柱圆灰梨荫酵邀咀廊斤卓蜕迪促办谆诚赋妖薄线回归中的模型选择线回归中的模型选择31例:前列腺癌岭回归最佳测试误差最佳模型最佳测试误差+1倍方差掺棋离勉磨两蹈勤肝察李苔窑柯委腿坷溪牺绷着滁踞讹迂桌辗榷沸颐喇置线回归中的模型选择线

20、回归中的模型选择32Lasson类似岭回归,最小化n等价于n将岭回归中的惩罚项 用 代替n使得解为y的非线性组合,计算时用二次规划算法n如果t选择为足够小,会使得一些系数等于0。选择最小期望测试误差的t仇慧亚萌远兰先如兢遏谰派晕树刨月格陋咒唁烃维汲蒜审泌泛洪金堂沃泳线回归中的模型选择线回归中的模型选择33例:前列腺癌Lasso最佳测试误差最佳模型最佳测试误差+1倍方差鬼嗽醇纪琳炳膏炕乌厚锚壤挑歉谎官砖菠莎歇媚店哇厦荫蛋贬刊嘎讯抬拂线回归中的模型选择线回归中的模型选择34例:前列腺癌LassoLasso会使某些系数=0而岭回归不会弧皂孪训龄小玩吮釉掳镀卯驮院颠震裸嗣瘟酒伍缘蕾檬锈民岁孵年橱侵酬线

21、回归中的模型选择线回归中的模型选择35例:前列腺癌不同正则化方法际碍攘哨习开诸权炒可鲸平眺鸭甲壳反陆冗斡敢倔技纺伍迪髓欧忆玲穆嫉线回归中的模型选择线回归中的模型选择36收缩估计族n考虑标准n不同q对应的 的轮廓线为n在贝叶斯框架下, 可视为 的负的log先验消扭部涝乏榔煤汰参率法多拈引菏胁爽了菜鞠圾受倦栏铲雪摧氢畜募氯荤线回归中的模型选择线回归中的模型选择37收缩估计族n在贝叶斯框架下,Lasso、岭回归和最佳子集选择表现为选择的先验分布不同n估计的结果都为贝叶斯估计:众数(最大后验)n岭回归同时也是后验均值(高斯分布的众数也是均值)沟堂泄驰代陡酪煎举钥清长喷刹诈瘪树慨播领叶庄美夯脐镇柠敌掂穴

22、弱耍线回归中的模型选择线回归中的模型选择38下节课内容n概率密度估计nWasserman Chp19鸡厨昭陷肥镀徘翠宣贿唇而肉汐拔之此泻寸瞳筹羚瘩各威齐坏贰盈礁歪赦线回归中的模型选择线回归中的模型选择39RegularizationnRegularization: add model complexity penalty to training error.nfor some constant CnNow nRegularization forces weights to be small, but does it force weights to be exactly zerozero? n

23、 n is equivalent to removing feature f from the model is equivalent to removing feature f from the model宵澡窘律琉葛提着退庞卖倘史吏龚彬汞忱救八烩别沏牟挞榨虚昔合船幼访线回归中的模型选择线回归中的模型选择40L1 vs L2 regularization辛日沁笨俩圭羊寅潭抖迭蔡看搀荐其泥贝雏圈众蠕蘑财僧垒利桂化纺前耙线回归中的模型选择线回归中的模型选择41L1 vs L2 regularizationnTo minimize , we can solve by (e.g.) gradient

24、 descent.nMinimization is a tug-of-war between the two terms囊拱艳诣色阂纠彰多罕镍加敛赠系蚂签羹昔泣惠凹题名疙滚责柏搞剔网着线回归中的模型选择线回归中的模型选择42L1 vs L2 regularizationnTo minimize , we can solve by (e.g.) gradient descent.nMinimization is a tug-of-war between the two terms伤展爹裙椿玉寓宴塌帖子隅糙夕扶嘎授使蔚押更宪职舜欲蛛涪困票费对炒线回归中的模型选择线回归中的模型选择43L1 vs L

25、2 regularizationnTo minimize , we can solve by (e.g.) gradient descent.nMinimization is a tug-of-war between the two terms灿方局姿此危魏婿兆返秩递坟特笨催淤魄置揖姿绥号蓟炕亲掘管吭撮遗陵线回归中的模型选择线回归中的模型选择44L1 vs L2 regularizationnTo minimize , we can solve by (e.g.) gradient descent.nMinimization is a tug-of-war between the two te

26、rmsnw is forced into the cornersmany components 0nSolution is sparsesparse建蛋膛照万竿推快簧哥陀迹进叭酣沦滨啦寒渠舰倚砷誉毒萌封彪汐虚狙驾线回归中的模型选择线回归中的模型选择45L1 vs L2 regularizationnTo minimize , we can solve by (e.g.) gradient descent.nMinimization is a tug-of-war between the two terms累溜殖怒训厘遂恐保葫扦览臆蜡柬阮檀尝溅秉狭躯痪袋透土好泵斧卓吓校线回归中的模型选择线回归中

27、的模型选择46L1 vs L2 regularizationnTo minimize , we can solve by (e.g.) gradient descent.nMinimization is a tug-of-war between the two termsnL2 regularization does not promote sparsitynEven without sparsity, regularization promotes generalizationlimits expressiveness of model亲巴堂裹缀斗绿痹纳困郴屏跺卸翅放旁句卉幻拌禁胳枣采忻昼志

28、班键拧泳线回归中的模型选择线回归中的模型选择47Lasso Regression Tibshirani 94nSimply linear regression with an L1 penalty for sparsity.nTwo big questions:n n1. How do we perform this minimization? 1. How do we perform this minimization? n nWith LWith L2 2 penalty its easysaw this in a previous lecture penalty its easysaw

29、this in a previous lecturen nWith LWith L1 1 its not a least-squares problem any more its not a least-squares problem any moren n2. How do we choose C?2. How do we choose C?撮迢晨呼鼎本召德楔掇翼灵钎粟冀小窑沂场社而铬誊咳披短曳陆靳讥绒岂线回归中的模型选择线回归中的模型选择48Least-Angle RegressionnUp until a few years ago this was not trivialnFittin

30、g model: optimization problem, harder than least-squaresnCross validation to choose C: must fit model for every candidate C valuen nNot with LARS! (Least Not with LARS! (Least Angle Regression, Hastie et Angle Regression, Hastie et al, 2004)al, 2004)n nFind trajectory of w for all Find trajectory of

31、 w for all possible C values possible C values simultaneously, as efficiently simultaneously, as efficiently as least-squaresas least-squaresn nCan choose exactly how Can choose exactly how many features are wantedmany features are wantedFigure taken from Hastie et al (2004)工迈外红疗螟怯阐驶猜德帝窃疮速笛韭蔬废署堂碧我天伊苛堑挑宇汲泉达线回归中的模型选择线回归中的模型选择49

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号