统计学习理论和SVMppt课件

上传人:我*** 文档编号:151446232 上传时间:2020-11-14 格式:PPT 页数:55 大小:795KB
返回 下载 相关 举报
统计学习理论和SVMppt课件_第1页
第1页 / 共55页
统计学习理论和SVMppt课件_第2页
第2页 / 共55页
统计学习理论和SVMppt课件_第3页
第3页 / 共55页
统计学习理论和SVMppt课件_第4页
第4页 / 共55页
统计学习理论和SVMppt课件_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《统计学习理论和SVMppt课件》由会员分享,可在线阅读,更多相关《统计学习理论和SVMppt课件(55页珍藏版)》请在金锄头文库上搜索。

1、专题二支持向量机,主要内容,一、统计学习理论的核心内容 二、支持向量机 SVM简介 线性判别函数和判别面 最优分类面 支持向量机 SVM的研究与应用 常用工具 分类实例,一、统计学习理论的核心内容,统计学习理论是小样本统计估计和预测学习的最佳理论。 假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布P(X,Y),P(X,Y)反映了某种知识。学习问题可以概括为:根据l个独立同分布(independent and identically distributed ) 的观测样本(训练集),,学习到一个假设H=f(x, w) 作为预测函数,其中w是广义参数.它对P(X,Y)的期望风

2、险R(w)是(即统计学习的实际风险):,而对训练集上产生的风险Remp(w)被称为经验风险(学习的训练误差):,首先Remp(w)和R(w)都是w的函数,传统概率论中的定理只说明了(在一定条件下)当样本趋于无穷多时Remp(w)将在概率意义上趋近于R(w),却没有保证使Remp(w)最小的点也能够使R(w)最小(同步最小)。,根据统计学习理论中关于函数集的推广性的界的结论,对于两类分类问题中的指示函数集f(x, w)的所有函数(当然也包括使经验风险小的函数),经验风险Remp(w)和实际风险R(w)之间至少以不下于1-(01)的概率存在这样的关系:,h是函数H=f(x, w)的VC维,h越大学

3、习机越复杂; l是样本数; 称为VC置信度,结构风险最小化,VC维是统计学习理论的一个核心概念,它反映了函数集的学习能力 设有一个样本数为m的样本集,它最多有2m种可能的方法分为两类,如果某个函数集的函数能够实现这种划分,则称该函数集能够能够把样本数为m的样本集打散。函数集的VC维就是这个函数集的函数所能打散的最大样本数 利用VC维的概念,可得到一个重要结论:经验风险最小化学习过程一致的充要条件是函数集的VC维有限,这时收敛速度是快的,一般的学习方法(如神经网络)是基于 Remp(w) 最小,满足对已有训练数据的最佳拟和,在理论上可以通过增加算法(如神经网络)的规模使得Remp(w) 不断降低

4、以至为0。 但是,这样使得算法(神经网络)的复杂度增加, VC维h增加,从而(h/l)增大,导致实际风险R(w)增加,这就是学习算法的过度拟和(Overfitting).,根据“结构风险最小化”原则,尤其是训练样本数量不足(小样本量)的情况下,决定一个学习机泛化能力的重要因素,是刻画备选函数集整体性质的VC维,而不是样本数据的好坏,不是备选函数集性质如何,甚至也与学习方法没有直接关系。 在训练学习过程中不断检查学习和泛化能力,不单纯追求经验风险最小化,VC维和训练集规模平衡;VC维和拓扑结构有必然联系,二、支持向量机 Support Vector Machines,Outline,1、SVM简

5、介 2、线性判别函数和判别面 3、最优分类面 4、支持向量机 5、SVM的研究与应用 6、常用工具 7、分类实例,1、SVM简介,90年代中期在统计学习理论的基础上发展起来的一种机器学习方法 (Boser,Guyon,Vapnik),适合有限样本(小样本)问题 在很大程度上解决了传统方法(如神经网络)中存在的问题,如过学习、非线性、多维问题、局部极小点问题等 统计学习理论和支持向量机被视为机器学习问题的一个基本框架,传统的方法都可以看作是SVM方法的一种实现 有坚实的理论基础和严格的理论分析,SVM简介,传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)

6、研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论。 传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广能力较差。 推广能力是指: 将学习机器(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。,过学习问题,“过学习问题”:某些情况下,当训练误差过小反而会导致推广能力的下降。 例如:对一组训练样本(x,y),x分布在实数范围内,y取值在0,1之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0.,SVM,根据统计学习理论,学习机器的实际风险由经验风险值和置信范围

7、值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。 Vapnik 提出的支持向量机(Support Vector Machine, SVM)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。 形成时期在19921995年。,SVM,由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解 SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习

8、问题中 Joachims 最近采用SVM在Reuters-21578来进行文本分类,并声称它比当前发表的其他方法都好,Outline,1、SVM简介 2、线性判别函数和判别面 3、最优分类面 4、支持向量机 5、SVM的研究与应用 6、常用工具 7、分类实例,2、线性判别函数和判别面,一个线性判别函数(discriminant function)是指由x的各个分量的线性组合而成的函数 两类情况:对于两类问题的决策规则为 如果g(x)0,则判定x属于C1, 如果g(x)0,则判定x属于C2, 如果g(x)=0,则可以将x任意 分到某一类或者拒绝判定。,最优分类平面,Margin =,H1平面:,

9、H2平面:,.(2),.(1),求解最优超平面就相当于,在(2)的约束条件下,求(1)的最大值,Minimum:,Subject to:,线性判别函数,下图表示一个简单的线性分类器,具有d个输入的单元,每个对应一个输入向量在各维上的分量值。该图类似于一个神经元。,超平面,方程g(x)=0定义了一个判定面,它把归类于C1的点与归类于C2的点分开来。 当g(x)是线性函数时,这个平面被称为“超平面”(hyperplane)。 当x1和x2都在判定面上时, 这表明w和超平面上任意向量正交, 并称w为超平面的法向量。 注意到:x1-x2表示超平面上的一个向量,支持向量机比较好地实现了有序风险最小化思想

10、(SRM),判别函数g(x)是特征空间中某点x到超平面的距离的一种代数度量,从下图容易看出,上式也可以表示为: r= g(x)/|w|。当x=0时,表示原点到超平面的距离,r0= g(0)/|w|=w0/|w|,标示在上图中。,总之: 线性判别函数利用一个超平面把特征空间分隔成两个区域。 超平面的方向由法向量w确定,它的位置由阈值w0确定。 判别函数g(x)正比于x点到超平面的代数距离(带正负号)。当x点在超平面的正侧时,g(x)0;当x点在超平面的负侧时,g(x)0,多类的情况,利用线性判别函数设计多类分类器有多种方法。例如 可以把k类问题转化为k个两类问题,其中第i 个问题是用线性判别函数

11、把属于Ci类与不属于Ci类的点分开。 更复杂一点的方法是用k(k-1)/2个线性判别函数,把样本分为k个类别,每个线性判别函数只对其中的两个类别分类。,广义线性判别函数,在一维空间中,没有任何一个线性函数能解决下述划分问题(黑红各代表一类数据),可见线性判别函数有一定的局限性。,广义线性判别函数,如果建立一个二次判别函数g(x)=(x-a)(x-b),则可以很好的解决上述分类问题。 决策规则仍是:如果g(x)0,则判定x属于C1,如果g(x)0,则判定x属于C2,如果g(x)=0,则可以将x任意分到某一类或者拒绝判定。,设计线性分类器,Fisher线性判别方法,如:Fisher线性判别方法,主

12、要解决把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。 然而在d维空间分得很好的样本投影到一维空间后,可能混到一起而无法分割。 但一般情况下总可以找到某个方向,使得在该方向的直线上,样本的投影能分开的最好。 目的是降维,在低维空间中分割,Outline,1、SVM简介 2、线性判别函数和判别面 3、最优分类面 4、支持向量机 5、SVM的研究与应用 6、常用工具 7、分类实例,3、最优分类面,SVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用图2的两维情况说明.,图中, 方形点和圆形点代表两类样本, H 为分类线,H1, H2分别为过各类中离分类线最近的样本且

13、平行于分类线的直线, 它们之间的距离叫做分类间隔(margin)。 所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大. 推广到高维空间,最优分类线就变为最优分类面。,最优分类面,如何求最优分类面,最优分类面,此时的目标函数是求下式的最小值:,这个二次优化,同样可以应用Lagrange方法求解,Outline,1、SVM简介 2、线性判别函数和判别面 3、最优分类面 4、支持向量机 5、SVM的研究与应用 6、常用工具 7、分类实例,4、支持向量机,上节所得到的最优分类函数为: 该式只包含待分类样本与训练样本中的支持向量的内积运算,可见,要解决一个特征空间中

14、的最优线性分类问题,我们只需要知道这个空间中的内积运算即可。 对非线性问题, 可以通过非线性变换转化为某个高维空间中的线性问题, 在变换空间求最优分类面. 这种变换可能比较复杂, 因此这种思路在一般情况下不易实现.,支持向量机,核函数的选择,多项式内核,SVM方法的特点,非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心; 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。 SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,

15、因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”(transductive inference) ,大大简化了通常的分类和回归等问题。,SVM方法的特点,SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。 少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在: 增、删非支持向量样本对模型没有影响; 支持向量样本集具有一定的鲁棒性;

16、有些成功的应用中,SVM 方法对核的选取不敏感。,Outline,1、SVM简介 2、线性判别函数和判别面 3、最优分类面 4、支持向量机 5、SVM的研究与应用 6、常用工具 7、分类实例,5、SVM的研究与应用,近年来SVM 方法已经在图像识别、信号处理和基因图谱识别等方面得到了成功的应用,显示了它的优势。 SVM 通过核函数实现到高维空间的非线性映射,所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。 支持向量方法也为样本分析、因子筛选、信息压缩、知识挖掘和数据修复等提供了新工具。,支持向量机的研究,对支持向量机的研究主要集中在对SVM本身性质的研究以及加大支持向量机应用研究的深度和广度两方面。 SVM训练算法 传统的利用标准二次型优化技术解决对偶问题的方法,是SVM训练算法慢及受到训练样本集规模制约的主要原因。 目前已提出了许多解决方法和改进算法,主要是从如何处理大规模样本集的训练问题、提高训练算法收敛速度等方面改进。 主要有:分解方法、修改优化问题法、增量学习法、几何方法

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号