统计学习精要

上传人:鲁** 文档编号:504362835 上传时间:2022-10-08 格式:DOCX 页数:14 大小:46.04KB
返回 下载 相关 举报
统计学习精要_第1页
第1页 / 共14页
统计学习精要_第2页
第2页 / 共14页
统计学习精要_第3页
第3页 / 共14页
统计学习精要_第4页
第4页 / 共14页
统计学习精要_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《统计学习精要》由会员分享,可在线阅读,更多相关《统计学习精要(14页珍藏版)》请在金锄头文库上搜索。

1、统计学习 精要(The Elements of Statistical Learning)课堂笔记系列课程教材:The Elements of StatisticalLea rning http:/www-stat.sta nfor d.edu/tibs/ElemStatLea rn/授课人:复旦大学计算机学院吴立德教授统计学习精要(The Elements of Statistical Learning)课堂笔记(一)前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(TheEleme nts of Statistical Lea rnin g)这门课,还在张江.大牛的课怎

2、能错过,果断请假去 蹭课.为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不 壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊。这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听。确实是一本深入浅出讲data mining models的好书。作者网站上提供免费的电子版下载,爽! http:/www-stat.sta nfor d.edu/tibs/ElemStatLea rn/从这周开始,如无意外我会每周更新课堂笔记。另一方面,也会加上自己的一些理解和实际 工作中的感悟。此外,对于data mining感兴趣的,也可以去course

3、ra听课貌似这学 期开的machine learning评价不错。我只在coursera上从众选了一门Model Thinking,相对来说比较简单,但是相当的优雅!若有时间会再写写这门课的上课感受。 笔记我会尽量用全部中文,但只是尽量课堂笔记开始第一次上课,主要是导论,介绍这个领域的关注兴趣以及后续课程安排。对应本书的第一章。1. 统计学习是?从数据中学习知识。简单地说,我们有一个想预测的结果outcome),记 为Y,可能是离散的也可能是连续的。同时,还有一些观察到的特征(feature),记为X,X 既可能是一维的也可能是多维的。对于每一个观测个体,我们都会得到一个行向量91,.,巾),

4、对应它的p个特征的观测值,以及一个观测到的结果值y。如果总共有N 个个体,那么我们对于每个个体都会得到这些值,则有(yi,,yT为观测结果的列向量以 及X (n*p)矩阵。这样的数据称之为训练数据集(training set)。这里更多是约定一些 no tati on。2. 统计学习分类? 一般说来,我们有个观测到的结果Y,然后找到一个适合的模型根据X 预测Y,这样的称之为有监督的学习(supe rvised lea rning)。而有些时候,Y是无法观 测到的,那么只是通过X来学习,称之为无监督的学习(unsupervised learning)。这 本书主要侧重有监督的学习。3. 回归和分

5、类器。这个主要和Y有关。如果Y为离散,比如红黄蓝不同颜色,则称之为分 类器(学习模型);反之,若Y为连续,比如身高,则称之为回归(学习模型)。这里更 多只是称谓上的区别。4. 统计学习的任务?预测。通过什么来预测?学习模型(learning models)。按照什么 来学习?需要一定的准则,比如最小均方误差MSE,适用于分类器的0-1准则等。基于这 些准则、优化过的实现方法称之为算法。5. 统计学习举例?分类器:依据邮件发信人、内容、标题等判断是否为垃圾邮件;回归:前列腺特异抗原(PSA)水平与癌症等因素的关系;图形识别:手写字母的识别;聚类:根据DNA序列判断样本的相似性,如亲子鉴定。6.

6、课程安排顺序?第二章,是对于有监督的学习模型的概览。第三章和第四章将讨论线性回归模型和线性分类器。第五章将讨论广义线性模型(GLM)。第六章涉及kernel方法和局部回归。第七章是模型评价与选择。第八章是测侧重算法,比如最大似然估计,bootstrap等。本学期预计讲到这里。所以后面 的我就暂时不列出了。目测第二节开始将变得越来越难,前阵子自学第二章痛苦不已啊.一个LASSO就折磨了我 好久。当时的读书笔记见:降维模型若干感悟10.15 补充上周写的时候只是凭着记忆,笔记没在身边。今天重新翻了翻当时记下的课堂笔记,再补充 一些吧。第九章是可加模型,即fxi,,xp)=Axi)+fxp)第十章是

7、boosting模型 第十一章讨论神经网络第十二章讨论支持向量机(Support Vector Machine)第十三章设计原型方法(Pr ototype)第十四章从有监督的学习转到无监督的学习(即有X有Y-有X无Y)第十五章讨论随机森林模型(Ran dom Fo rest)第十六章是集群学习第十七章结构图模型第十八章高维问题(我最近一直念叨的curse of dimensionality.今年搞笑诺贝尔奖也多 少与此有关,见 http:/ 还有一篇相关的 paper) ps.吴老师对于随机森林等等模型的评论也挺有意思的,大致是,大家都没搞清随机森林为 什么效果这么好.而且这一类模型都是com

8、putatoi nal in te nsive的,即有一个非常简单 的idea然后借助大量的计算来实现。此外,这类方法更多有猜的感觉,无法知道来龙去 脉,在现实中显得不那么intuitive.(不像econometrics那般致力于causality呢)。统计学习精要(The Elements of Statistical Learning)课堂笔记(二)继续一周一次的课堂笔记:D昨天去晚了站着听讲,感觉好好啊,注意各种集中。想想整个 教室里面就是我和老师是站着的,自豪感油然而生。第二次课讲的东西依旧比较简单,是这本书第二章的前半部分。作为一个好久之前已经预习 过的孩子,我表示万分的得意(最小

9、二乘法难道不是三四年前就学过的?话说以后我再面人 的时候,就让他推导最小二乘估计量,嘻嘻.考验一下基本功)。原谅我的废话,笔记开始简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS)OLS实在是太普遍了,我就不赘述细节了。OLS的思想就是,基于已有的样本信息,找出 一条直线,让预测值与真实值之间的残差平方和最小,即Zn(y-yA)2最小。其中,y为 真实的样本观测值(已有样本),而yA是ols的预测值。用图来讲的话,x为一维向量 的时候,就是用一条直线来最好的拟合各个样本点。这里就很明显了,首先ols假设是一条直线。那么就是一个参数模型,即我们需要假设一 个未知的参数卩,构成一个线

10、性方程y=0x,然后再去估计卩的值。然后呢,直线会有很 多条,所以我们要找到一个目标一一比如这里,就是最小化残差平方和RSS。换言之,我 们寻找的就是最优的向量旷使得RSS最小。解这个最优化问题很简单,我就不重复了。最后解得的最优估计量为:0 八=(XX)tXY这里写成矩阵形式,比较简单。x为一维向量的时候,可以改写成Z形式,我个人不大喜欢,就不展开了。简单预测方法:K近邻(k nearest neighbor)k近邻的思想就更简单了。不就是想预测某个点x对应的y么?那么就把它的邻居都找来, 平均一下好了。不是有句话叫做什么一个人的收入就大概是他的圈子收入的平均值么? ”所以yA=mean(y

11、/|xiNk(x),这里Nk(x)表示点x的k近邻。至于这个近邻怎么定义嘛,嘻嘻,很简单啊,欧几里德距离就可以嘛评语:吴老师对于这两个算法的直观评价是,OLS呢就是勤奋的学生,预测前先做足功课, 预测的时候只要知道X,噼里啪啦一下子y就估计出来了。然而knn则是一个临时抱佛脚 的学生,预测的时候开始找自己的k近邻,然后把它们平均一下就好了。哈哈,大意如此, 大家可以体会一下这种精神。我个人感觉呢,OLS属于以不变应万变的,而knn则是见机 行事的。统计决策理论(Statistical Decision Theory)说了这么多,这个模型好不好到底怎么判读呢?凡事总得有个标准呢。这一系列的标准或

12、者 说准则,就是统计决策理论了。首先呢,大致我们需要对X,Y有个分布上的描述:用P(X,Y)记作向量(X,Y)的联合分布,然后p(x,Y)为其对应的密度函数。之后为了估计Y,我们会有很多很多模型,即各种fX),而这些f(x)组成的函数空间记为F。然后我们定义一个损失函数,比如在均方误差意义下,L(Y,Ax)=(Y-f(x)2, 这样就有 了一个选择的标准一一使得损失函数的期望最小:EpEf)=E(Y(x)2三fly-(x)2p(dx,dy)。接下来就是,到底在f空间里面,哪一个/最符合这个标准呢? 首先自然是把联合分布变为条件分布。这个idea显而易见一一我们总是知道X的(原谅我 吧,全中文确

13、实比较难写,偶尔穿插英文一下人_人)。所以conditional on X,我们就 有了EPEf)=y-f(x)2P(Dx,dy)=xyy-f(x)2P(yx)dyp(x)dx去解最小化问题,最终我们得到的就是在每个点X 上, f(X)=E(yX=x)。通俗的讲就是,对于每个点预测,把和它X向量取值一样的样本点都找出来,然后取他们的平均值就可以 了。很直观的不是么?这里也有点最大似然的想法呢一一比如预测一个男孩的身高,最保险 的就是把和它同龄的其他男孩的身高平均一下,不是么?但是说来简单啊,很多时候P(X,Y)都是未知的,根本无法计算嘛。所以只能近似:回忆一下knn,就是放松了两点:1) xk

14、取的是x的近邻,而不一定是x;2)用样本平均数代替了期望而OLS呢,也是最后在E( l=E(XlX)-iXlY这里,用样本平均代替了期望。近似嘛,自然有好的近似和不好的近似。很显然的,当样本比较大、尤其是比较密集的时候, x的邻居应该都离x很近,所以这个误差可以减小;此外,当样本很大的时候,根据大数定 律,平均数收敛于期望。所以,这两种算法应该说,都在大样本下会有更好的效果。模型选择、训练误差与测试误差、过拟合这里讲的比较简单。模型选择就是F的选择,即选择哪一类函数空间F,然后再其中找/ 估计最优的f(X)。很显然,如果只有若干个有限的样本,我们总能把各个样本用直线或者 曲线依次连起来,这样的

15、话就有无数个f可以作为此问题的解。显然这不是我们想要的一一 这样的称为不设定问题,即可能无解、可能多个解、还可能因为一点点X的变化导致整 个解的解答变化。因此我们需要先设定一个解的类别。训练误差:预测模型估计值与训练数据集之间的误差。RSS就是一个典型的训练误差组成 的残差平方和。测试误差:用训练集以外的测试数据集带来的误差,显然我们更关心的是测试误差一一训练 总能训练的很好,让损失函数期望最小,然而测试集则不一定这样。一般说来,测试误差 训练误差。过拟合:选择一个很复杂的f,使得训练误差很小,而实际的测试误差不一定小。最极端的 就是刚才说的,把训练集的点一个个依次连起来.训练误差肯定是0是不是?我们关心的自然是怎么降低测试误差。显然这东西会跟训练误差有关,但是它还跟f的复杂 度有关。最最棘手的就是,f的复杂度是一个难以衡量的问题。早期的研究有用自由度来衡 量这个复杂度的,但是也不是那么的靠谱.后面的有人鼓捣出来PAC(使得近似正确的概率 最大一一吴老师原话),还有一个VC来衡量复杂度一一但几乎实践中无法计算,没几个计 算出来的。嗯,水很深哇。统计学习精要(The Elements of StatisticalLearning)课堂笔记(三)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 机械/制造/汽车 > 电气技术

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号