统计学习精要.－金锄头文库

资源描述

《统计学习精要.》由会员分享，可在线阅读，更多相关《统计学习精要.（16页珍藏版）》请在金锄头文库上搜索。

1、统计学习精要仃he Elements of StatisticalLearning)课堂笔记系列课程教材：The Eleme nts of StatisticalLear ning htt授课人：复旦大学计算机学院吴立德教授?统计学习精要仃he Elements of StatisticalLearning) ?课堂笔记(一)前两天微博上转出来的，复旦计算机学院的吴立德吴老师在开？统计学习精要(TheElements of Statistical Learning)?这门课，还在张江大牛的课怎能错过，果断请假去蹭课为了减轻心理压力，还拉了一帮同事一起去听，eBay浩浩荡荡的十几人杀过去好

2、不壮观！总感觉我们的人有超过复旦本身学生的阵势，五六十人的教室坐的满满当当，壮观啊。这本书正好前阵子一直在看，所以才会屁颠屁颠的跑过去听。确实是一本深入浅出讲datami ning models的好书。作者网站上提供免费的电子版下载，爽！从这周开始，如无意外我会每周更新课堂笔记。另一方面，也会加上自己的一些理解和实际工作中的感悟。此外，对于data mining感兴趣的，也可以去 coursera 听课貌似这学期开的machine learning评价不错。我只在 coursera 上从众选了一门 ModelThinking，相对来说比较简单，但是相当的优雅！若有时间会再写写这门课的上课感受。

3、笔记我会尽量用全部中文，但只是尽量课堂笔记开始第一次上课，主要是导论，介绍这个领域的关注兴趣以及后续课程安排。对应本书的第一章。1. 统计学习是？从数据中学习知识。简单地说，我们有一个想预测的结果(outcome)，记为Y,可能是离散的也可能是连续的。同时，还有一些观察到的特征(feature)，记为X，X既可能是一维的也可能是多维的。对于每一个观测个体，我们都会得到一个行向量(X1,.,Xp)，对应它的p个特征的观测值，以及一个观测到的结果值y。如果总共有N个个体，那么我们对于每个个体都会得到这些值，则有(y1,.,yn)T为观测结果的列向量以及X (n*p)矩阵。这样的数据称之为训练数据

4、集(training set )。这里更多是约定一些no tati on 。2. 统计学习分类？一般说来，我们有个观测到的结果Y,然后找到一个适合的模型根据 X预测Y，这样的称之为有监督的学习( supervised learning)。而有些时候， Y是无法观测到的，那么只是通过X来学习，称之为无监督的学习(unsupervised learning)。这本书主要侧重有监督的学习。3. 回归和分类器。这个主要和Y有关。如果Y为离散，比如红黄蓝不同颜色，则称之为分类器(学习模型)；反之，若Y为连续，比如身高，则称之为回归(学习模型)。这里更多只是称谓上的区别。4. 统计学习的任务？预测。通过

5、什么来预测？学习模型(learning models )。按照什么来学习？需要一定的准则，比如最小均方误差MSE，适用于分类器的 0-1准则等。基于这些准则、优化过的实现方法称之为算法。5. 统计学习举例？分类器：依据邮件发信人、内容、标题等判断是否为垃圾邮件；回归：前列腺特异抗原(PSA)水平与癌症等因素的关系；图形识别：手写字母的识别；聚类：根据DNA序列判断样本的相似性，如亲子鉴定。6. 课程安排顺序？第二章，是对于有监督的学习模型的概览。第三章和第四章将讨论线性回归模型和线性分类器。第五章将讨论广义线性模型(GLM )。第六章涉及kernel方法和局部回归。第七章是模型评价与选择。第八

6、章是测侧重算法，比如最大似然估计，bootstrap 等。本学期预计讲到这里。所以后面的我就暂时不列出了。目测第二节开始将变得越来越难，前阵子自学第二章痛苦不已啊一个LASSO就折磨了我好久。当时的读书笔记见：降维模型若干感悟10.15 补充上周写的时候只是凭着记忆，笔记没在身边。今天重新翻了翻当时记下的课堂笔记，再补充一些吧。第九章是可加模型，即f(X1 ,.,xp)= f(X1)+.+f(Xp)第十章是boosting 模型第一章讨论神经网络第十三章设计原型方法（Prototype）第十四章从有监督的学习转到无监督的学习（即有X有Y-有X无Y）第十五章讨论随机森林模型（Ra ndom F

7、orest）第十六章是集群学习第十七章结构图模型第十八章高维问题（我最近一直念叨的 curse of dime nsio nality.今年搞笑诺贝尔奖也多少与此有关，见 /，还有一篇相关的 paper ）ps.吴老师对于随机森林等等模型的评论也挺有意思的，大致是，大家都没搞清随机森林为什么效果这么好而且这一类模型都是 computatoinal intensive的，即有一个非常简单的idea然后借助大量的计算来实现。此外，这类方法更多有猜”的感觉，无法知道来龙去脉，在现实中显得不那么 intuitive.（不像econometrics 那般致力于causality 呢）。?统计学习精要

8、仃he Elements of StatisticalLearning） ?课堂笔记（二）继续一周一次的课堂笔记 :D昨天去晚了站着听讲，感觉好好啊，注意各种集中。想想整个教室里面就是我和老师是站着的，自豪感油然而生。第二次课讲的东西依旧比较简单，是这本书第二章的前半部分。作为一个好久之前已经预习过的孩子，我表示万分的得意（最小二乘法难道不是三四年前就学过的？话说以后我再面人的时候，就让他推导最小二乘估计量，嘻嘻考验一下基本功）。原谅我的废话，笔记开始简单预测方法：最小二乘法（以下沿用计量经济学的习惯，简称OLS）OLS实在是太普遍了，我就不赘述细节了。OLS的思想就是，基于已有的样本信

9、息，找出一条直线，让预测值与真实值之间的残差平方和最小，即Bi（y-yA）2 最小。其中，y为真实的样本观测值（已有样本），而丫八是ols的预测值。用图来讲的话， X为一维向量的时候，就是用一条直线来最好的拟合各个样本点。这里就很明显了，首先 ols假设是一条直线。那么就是一个参数模型，即我们需要假设一个未知的参数 B，构成一个线性方程 y二Bx,然后再去估计 B的值。然后呢，直线会有很多条，所以我们要找到一个目标一一比如这里，就是最小化残差平方和RSS。换言之，我们寻找的就是最优的向量价使得RSS最小。解这个最优化问题很简单，我就不重复了。最后解得的最优估计量为：价=(XX)-iXY这

10、里写成矩阵形式，比较简单。X为一维向量的时候，可以改写成刀形式，我个人不大喜欢，就不展开了。简单预测方法：K近邻(k nearest neighbor)K近邻的思想就更简单了。不就是想预测某个点 x对应的y么？那么就把它的邻居都找来，平均一下好了。不是有句话叫做什么一个人的收入就大概是他的圈子收入的平均值么？”所以丫八二mean(yi|xi Nk(x),这里Nk(x)表示点x的k近邻。至于这个近邻怎么定义嘛，嘻嘻，很简单啊，欧几里德距离就可以嘛评语：吴老师对于这两个算法的直观评价是，OLS呢就是勤奋的学生，预测前先做足功课，预测的时候只要知道 X，噼里啪啦一下子y就估计出来了。然而 kn

11、n则是一个临时抱佛脚的学生，预测的时候开始找自己的 k近邻，然后把它们平均一下就好了。哈哈，大意如此，大家可以体会一下这种精神。我个人感觉呢，OLS属于以不变应万变的，而knn则是见机行事的。统计决策理论(Statistical Decision Theory)说了这么多，这个模型好不好到底怎么判读呢？凡事总得有个标准呢。这一系列的标准或者说准则，就是统计决策理论了。首先呢，大致我们需要对x,y有个分布上的描述：用P(X,Y)记作向量(X,Y)的联合分布，然后p(X,Y)为其对应的密度函数。之后为了估计丫，我们会有很多很多模型，即各种f(X),而这些f(X)组成的函数空间记为 F。然后我们

12、定义一个损失函数，比如在均方误差意义下，L(Y,f(X)=(Y-f(X)2 ，这样就有了一个选择的标准一一使得损失函数的期望最小：EPE(f)二E(Y-f(X)2= 0-f(x)2P(dx,dy)。接下来就是，到底在 F空间里面，哪一个f最符合这个标准呢？首先自然是把联合分布变为条件分布。这个 idea显而易见一一我们总是知道X的(原谅我吧，全中文确实比较难写，偶尔穿插英文一下A_A )。所以conditional on X ，我们就有了EPE二 - f(x)2P(dx,dy)二以 jy- f(x)bp(y|x)dy p(x)dx去解最小化问题，最终我们得到的就是在每个点X上， f(X)=E

13、(y|X=x) 。通俗的讲就是，对于每个点预测，把和它 X向量取值一样的样本点都找出来，然后取他们的平均值就可以了。很直观的不是么？这里也有点最大似然的想法呢一一比如预测一个男孩的身高，最保险的就是把和它同龄的其他男孩的身高平均一下，不是么？但是说来简单啊，很多时候P(X,Y)都是未知的，根本无法计算嘛。所以只能近似：? 回忆一下knn，就是放松了两点：1) xk取的是x的近邻，而不一定是 x; 2)用样本平均数代替了期望?而OLS呢，也是最后在E( 9=E(XX)-1XY这里，用样本平均代替了期望。近似嘛，自然有好的近似和不好的近似。很显然的，当样本比较大、尤其是比较密集的时候，x的邻居应

14、该都离x很近，所以这个误差可以减小；此外，当样本很大的时候，根据大数定律，平均数收敛于期望。所以，这两种算法应该说，都在大样本下会有更好的效果。模型选择、训练误差与测试误差、过拟合这里讲的比较简单。模型选择就是F的选择，即选择哪一类函数空间F，然后再其中找/估计最优的f(X)。很显然，如果只有若干个有限的样本，我们总能把各个样本用直线或者曲线依次连起来，这样的话就有无数个 f可以作为此问题的解。显然这不是我们想要的一一这样的称为不设定问题”，即可能无解、可能多个解、还可能因为一点点X的变化导致整个解的解答变化。因此我们需要先设定一个解的类别。训练误差：预测模型估计值与训练数据集之间的误差

15、。RSS就是一个典型的训练误差组成的残差平方和。测试误差：用训练集以外的测试数据集带来的误差，显然我们更关心的是测试误差一一训练总能训练的很好，让损失函数期望最小，然而测试集则不一定这样。一般说来，测试误差训练误差。过拟合：选择一个很复杂的 f,使得训练误差很小，而实际的测试误差不一定小。最极端的就是刚才说的，把训练集的点一个个依次连起来训练误差肯定是0是不是？我们关心的自然是怎么降低测试误差。显然这东西会跟训练误差有关，但是它还跟f的复杂度有关。最最棘手的就是，f的复杂度是一个难以衡量的问题。早期的研究有用自由度来衡量这个复杂度的，但是也不是那么的靠谱后面的有人鼓捣出来 PAC(使得近似正确的概率最大一一吴老师原话），还有一个VC来衡量复杂度一一但几乎实践中无法计算，没几个计算出来的。嗯，水很深哇。?统计学习精要仃he Elements of StatisticalLearning） ?课堂笔记

展开阅读全文