《支持向量机(SVM)原理及应用概述分析》

资源描述

《《支持向量机(SVM)原理及应用概述分析》》由会员分享，可在线阅读，更多相关《《支持向量机(SVM)原理及应用概述分析》（11页珍藏版）》请在金锄头文库上搜索。

1、支持向量机(SVM)原理及应用、SVM的产生与发展自199弭Vapnik(瓦普尼克)在统计学习理论的基础上提出SVM为模式识别的新方法之后，SV直倍受关注。同年，Vapnik和Cortes提出软间隔(softmargin)SVM,通过引进松弛变量与度量数据Xi的误分类(分类出现错误时乌大丁0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数)，SVM勺寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程；1996年，Vapnik等人乂提出支持向量回归(SupportVectorRegression,SVR*勺方法用丁解决拟合问题。SVRSV啪出发点都是寻找最优超平面(注：一维空间

2、为点；二维空间为线；三维空间为面；高维空间为超平面。)，但SVR勺目的不是找到两种数据的分割平面，而是找到能准确预测数据分布的平W,两者最终都转换为最优化问题的求解；1998,Weston等人根据SVM(理提出了用丁解决多类分类的SV昉法(Multi-ClassSupportVectorMachines,Multi-SVM)，通过将多类分类转化成二类分类，将SVM用丁多分类问题的判断：此外，在svMJ法的基本框架下，研究者针对不同的方面提出了很多相关的改进算法。例如，Suykens提出的最小二乘支持向量机(LeastSquareSupportVectorMachine,LSSVM舞法，Joac

3、hims等人提出的SVM-1ight，张学工提出的中心支持向量机(CentralSupportVectorMachine,CSVM)Scholkoph和Smola#丁二次规划提出的v-SV峪。此后，台湾大学林智仁(LinChih-Jen)教授等对SVM勺典型应用进行总结，并设计开发出较为完善的SVME：具包，也就是LIBSVM(ALibraryforSupportVectorMachines)。LIBSVhM一个通用的SV懒件包，可以解决分类、回归以及分布估计等问题。二、支持向量机原理SV防法是20世纪90年代初Vapnik等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则

4、为理论基础，通过适当地选择函数子集及该子集中的判别函数，使学习机器的实际风险达到最小，保证了通过有限训练样本得到的小误差分类器，对独立测试集的测试误差仍然较小。支持向量机的基本思想：首先，在线性可分情况下，在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下，加入了松弛变量进行分析，通过使用非线性映射将低维输入空间的样本映射到高维届性空间使其变为线性情况，从而使得在高维届性空间采用线性算法对样本的非线性进行分析成为可能，并在该特征空间中寻找最优分类超平面。其次，它通过使用结构风险最小化原理在届性空间构建最优分类超平面，使得分类器得到全局最优，并在整个样本空间的期望风险以某个概率满足一定上

5、界。其突出的优点表现在：（1）基丁统计学习理论中结构风险最小化原则（注：所谓的结构风险最小化就是在保证分类精度（经验风险）的同时，降低学习机器的VC维，可以使学习机器在整个样本集上的期望风险得到控制。）和VCffi理论（注：VC维（Vapnik-ChervonenkisDimension）的概念是为了研究学习过程一致收敛的速度和推广性，由统计学理论定义的有关函数集学习性能的一个重要指标。）,具有良好的泛化能力，即由有限的训练样本得到的小的误差能够保证使独立的测试集仍保持小的误差。（2）支持向量机的求解问题对应的是一个凸优化问题，因此局部最优解一定是全局最优解。核函数的成功应用，将非线性问题转化

6、为线性问题求解。（4）分类间隔的最大化，使得支持向量机算法具有较好的鲁棒性。由丁SV的身的突出优势，因此被越来越多的研究人员作为强有力的学习工具，以解决模式识别、回归估计等领域的难题。1.最优分类面和广义最优分类面SV罹从线性可分情况下的最优分类面发展而来的，基本思想可用图1来说明。对丁一维空间中的点，二维空间中的直线，三维空间中的平面，以及高维空间中的超平面，图中实心点和空心点代表两类样本，H%它们之间的分类超平面，Hl,H2分别为过各类中离分类面最近的样本且平行丁分类面的超平面，它们之间的距离叫做分类间隔（margin）。图1最优分类面示意图所谓最优分类面要求分类面不但能将两类正确分开，而

7、且使分类间隔最大。将两类正确分开是为了保证训练错误率为0,也就是经验风险最小（为O）。使分类空隙最大实际上就是使推广性的界中的置信范围最小？，从而使真实风险最小。推广到高维空间，最优分类线就成为最优分类面。设线性可分样本集为（x“yi_）,i=1,.,n,xwRd,y在+1,_1是类别符号。d维空间中线性判别函数的一般形式为是类别符号。d维空间中线性判别函数的一般形式为g（x）=w，x+b（主:W弋表Hilbert空间中权向量；b代表阈值。），分类线方程为w，x+b=0?。将判别函数进行归一化，使两类所有样本都满足|g（x）|=1,也就是使离分类面最近的样本的|g（x）|=1,此时分类间隔等丁

8、2/|w|?,因此使间隔最大等价丁使|w|（或|w|2）最小。要求分类线对所有样本正确分类，就是要求它满足yi（wx）+b1芝0,i=1,2,.,n（1-1）Note:(w*)+b=+1(wJ+1=SS-x2)=2w2=(画(心)=荷满足上述条件（1-1），并且使|w|2最小的分类面就叫做最优分类面，过两类样本中离分类面最近的点且平行丁最优分类面的超平面Hi,4上的训练样本点就称作支持向量（supportvector),因为它们“支持”了最优分类面。利用Lagrange(拉格朗日)优化方法可以把上述最优分类面问题转化为如下这种较简单的对偶问题，即：在约束条件，nZyOi=0(1-2a)i4：.

9、_0,i=1,2,.,n(1-2b)卜面对oti(主：对偶变量即拉格朗日乘子)求解下列函数的最大值：n1nQ(a)=%-一%二jyiyj(XiXj)?(1-3)J2i,j4n若a为最优解，则w=ay%(1-4)i4即最优分类面的权系数向量是训练样本向量的线性组合。注释(1-3)式由来：利用Lagrange函数计算如下，2lL(w,b,a)=!|w|(*，(Xiw)+b)1)i1ccL(w,b,：)=0L(w,b,：)=0.b:wl、aiyi=0i日lW(：)=:ii4lw=：iyiXi4lc(iC(jyiyj(xXj)i,j1l：i-0,i=1,.,l,and：y=0iAlf(x)=sgnCy

10、%(xXi)+b)i=1实例计算：图略，可参见PPTx1=(0,0),y1=+1x2=(1,0),y2=+1x3=(2,0),y3=-1x4=(0,2),y4=-11/2,.2.2.Q（：）=（：1，：.2，：3，：4）一五（：2-4：2：34：34：4）可调用Matlab中的二次规划程序，求得口1,a2,3,o(4的值，进而求得切日b的值%=0=匕3=3/4ct4=1/42|12捉-坦卜：g（x）=3-2x-2x2=0这是一个不等式约束下的二次函数极值问题，存在唯一解。根据kihn-Tucker条件，解中将只有一部分(通常是很少一部分)砰不为零，这些不为0W所对应的样本就是支持向量。求解上述

11、问题后得到的最优分类函数是：nf(x)=sgn(wx)b=sgn；：yi(xix)b(1-5)iA根据前面的分析，非支持向量对应的均为0,因此上式中的求和实际上只对支持向量进行。b是分类阈值，可以由任意一个支持向量通过式(1-1)求得(只有支持向量才满足其中的等号条件)，或通过两类中任意一对支持向量取中值求得。从前面的分析可以看出，最优分类面是在线性可分的前提下讨论的，在线性不可分的情况下，就是某些训练样本不能满足式(1-1)的条件，因此可以在条件中增加一个松弛项参数&i芝0,变成：yi(w若)b-1j-0,i=1,2,.,n(1-6)对丁足够小的s0,只要使nF)=*(1-7)izd最小就可

12、以使错分样本数最小。对应线性可分情况下的使分类间隔最大，在线性不可分情况下可引入约束:(1-8)2IIw|Ck在约束条件(1-6)籍1(1-8)下对式(1-7)求极小，就得到了线性不可分情况下的最优分类面，称作广义最优分类面。为方便计算，取s=1。为使计算进一步简化，广义最优分类面问题可以迸一步演化成在条件(1-6)的约束条件下求下列函数的极小值：(1-9)令(w,&)=l(w,w)+C(鬲)2i4其中为某个指定的常数，它实际上起控制对链分样本惩罚的程度的作用，实现在错分样本的比例与算法复杂度之间的折衷。求解这一优化问题的方法与求解最优分类面时的方法相同，都是转化为一个二次函数极值问题，其结果

13、与可分情况下得到的(1-2)到(1-5)几乎完全相同，但是条件(1-2b)变为：(1-10)2.SVM的非线性映射对丁非线性问题，可以通过非线性交换转化为某个高维空间中的线性问题，在变换空间求最优分类超平面。这种变换可能比较复杂，因此这种思路在一般情况下不易实现。但是我们可以看到，在上面对偶问题中，不论是寻优目标函数(1-3)还是分类函数(1-5)都只涉及训练样本之间的内积运算(xg)。设有非线性映射中：RdtH将输入空间的样本映射到高维(可能是无穷维)的特征空间H中，当在特征空间Ffr构造最优超平面时，训练算法仅使用空间中的点积，即6(Xi)4(Xj)，而没有单独的Xi)出现。因此，如果能够

14、找到一个函数K得K(XiXj)=h(Xi)(Xj)(1-11)这样在高维空间实际上只需进行内积运算，而这种内积运算是可以用原空间中的函数实现的，我们甚至没有必要知道变换中的形式。根据泛函的有关理论，只要一种核函数K(XiXj)满足Mercer条件，它就对应某一变换空间中的内积。因此，在最优超平面中采用适当的内积函数K(XiXj)就可以实现某一非线性变换后的线性分类，而计算复杂度却没有增加。此时目标函数(1-3)变为：n1Q(：)-：i：i：jyiyjK(XiXj)(1-12)i-12i,j-41而相应的分类函数也变为nf(x)=sgn：3iK(XiXj)b*(1-13)i日算法的其他条件不变，

15、这就是SVM概括地说SVMK是通过某种事先选择的非线性映射将输入向量映射到一个高维特征空问，在这个特征空间中构造最优分类超平面。在形式上SVIfr类函数类似丁一个神经网络,输出是中间节点的线性组合，每个中间节点对应丁一个支持向量，如图2所示图2SVMB意图n其中，输出(决策规则):y=sgnZiyiK(xxi)+b，权值Wi=%yi,K(xXi)为基丁si4个支持向量X1,X2,.,Xs的非线性变换(内积)，X=(x1,x2,.,xd)为输入向量。3.核函数选择满足Mercer条件的不同内积核丞数，就构造了不同的SVM这样也就形成了不同的算法。目前研究最多的核函数主要有三类：多顼式核函数K(x,xi)=(xxi)+1q(1-14)其中q是多项式的阶次，所得到的是q阶多项式分类器。径向基函数(RBF)|x-Xi|K(x,Xi)=exp-)(1-15)a所得的SV罹一种径向基分类器，它与传统径向基函数方法的基本区别是，这里每一个基函数的中心对应丁一个支持向量，它们以及输出权值都是由算法自动确定的。径向基形式的内积函数类似人的视觉特性，在实际应用中经常用到，但是需要注意的是，选择不同的S参数值，相应的分类面会有很大差别。(3)S形核函数K(x,Xi)=tanhv(xXi

展开阅读全文

《支持向量机(SVM)原理及应用概述分析》

最新文档