管理信息化人工智能大作业

资源描述

《管理信息化人工智能大作业》由会员分享，可在线阅读，更多相关《管理信息化人工智能大作业（21页珍藏版）》请在金锄头文库上搜索。

1、研究报告题目支持向量机学习报告学号学生支持向量机学习报告支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力。支持向量机SVM(Support Vector Machine)是AT&TBell实验室的VVapnik提出的针对分类和回归问题的统计学习理论。由于SVM方法具有许多优点和有前途的实验性能，该技术已成为机器学习研究领域中的热点，并取得很理想的效果，如人脸识别、手写体数字识别和网页分类等。1原理及方法SVM根

2、据问题的复杂性可以分为线性可分SVM和非线性可分SVM，其基本原理如下：在进行文本分类的时候，每一个样本由一个向量（就是那些文本特征所组成的向量）和一个标记（标示出这个样本属于哪个类别）组成。如下： Di=(xi,yi) xi就是文本向量（维数很高），yi就是分类标记。在二元的线性分类中，这个表示分类的标记只有两个值，1和-1（用来表示属于还是不属于这个类）。有了这种表示法，可以定义一个样本点到某个超平面的间隔： yi(wxi+b)如果某个样本属于该类别的话，那么wxi+b0（因为我们所选的g(x)=wx+b就通过大于0还是小于0来判断分类），而yi也大于0；若不属于该类别的话，那么wxi+

3、b 核函数矩阵K是对称半正定的。这个条件也是充分的，由Mercer定理来表达。Mercer定理：如果函数K是上的映射（也就是从两个n维向量映射到实数域）。那么如果K是一个有效核函数（也称为Mercer核函数），那么当且仅当对于训练样例，其相应的核函数矩阵是对称半正定的。Mercer定理表明为了证明K是有效的核函数，那么不用去寻找，而只需要在训练集上求出各个，然后判断矩阵K是否是半正定（使用左上角主子式大于等于零等方法）即可。把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形和方形的点各有成千上万个。现在想象我们有另一个训练集，只比原先这个训练集多了一

4、篇文章，映射到高维空间以后（当然，也使用了相同的核函数），也就多了一个样本点，但是这个样本的位置是这样的：就是图中黄色那个点，它是方形的，因而它是负类的一个样本，这单独的一个样本，使得原本线性可分的问题变成了线性不可分的。这样类似的问题（仅有少数点线性不可分）叫做“近似线性可分”的问题。但这种对噪声的容错性是人的思维带来的。由于原本的优化问题的表达式中，确实要考虑所有的样本点，在此基础上寻找正负类之间的最大几何间隔，而几何间隔本身代表的是距离，是非负的，像上面这种有噪声的情况会使得整个问题无解。这种解法其实也叫做“硬间隔”分类法，因为他硬性的要求所有样本点都满足和分类平面间的距离必须大于某个

5、值。仿照人的思路，允许一些点到分类平面的距离不满足原先的要求。由于不同的训练集各点的间距尺度不太一样，因此用间隔（而不是几何间隔）来衡量有利于我们表达形式的简洁。我们原先对样本点的要求是：意思是说离分类面最近的样本点函数间隔也要比1大。如果要引入容错性，就给1这个硬性的阈值加一个松弛变量，即允许因为松弛变量是非负的，因此最终的结果是要求间隔可以比1小。但是当某些点出现这种间隔比1小的情况时（这些点也叫离群点），意味着我们放弃了对这些点的精确分类，而这对我们的分类器来说是种损失。但是放弃这些点也带来了好处，那就是使分类面不必向这些点的方向移动，因而可以得到更大的几何间隔（在低维空间看来，分类

6、边界也更平滑）。显然我们必须权衡这种损失和好处。好处很明显，我们得到的分类间隔越大，好处就越多。回顾我们原始的硬间隔分类对应的优化问题：|w|2就是目标函数（当然系数可有可无），希望它越小越好，因而损失就必然是一个能使之变大的量（能使它变小就不叫损失了，我们本来就希望目标函数值越小越好）。那如何来衡量损失，其中l都是样本的数目。把损失加入到目标函数里的时候，就需要一个惩罚因子（cost，也就是libSVM的诸多参数中的C），原来的优化问题就变成了下面这样：一是并非所有的样本点都有一个松弛变量与其对应。实际上只有“离群点”才有，所有没离群的点松弛变量都等于0（对负类来说，离群点就是在前面图中，

7、跑到H2右侧的那些负样本点，对正类来说，就是跑到H1左侧的那些正样本点）。二是松弛变量的值实际上标示出了对应的点到底离群有多远，值越大，点就越远。三是惩罚因子C决定了重视离群点带来的损失的程度，显然当所有离群点的松弛变量的和一定时，定的C越大，对目标函数的损失也越大，此时就暗示着不愿意放弃这些离群点，最极端的情况是把C定为无限大，这样只要稍有一个点离群，目标函数的值马上变成无限大，问题变成无解，这就退化成了硬间隔问题。四是惩罚因子C不是一个变量，整个优化问题在解的时候，C是一个必须事先指定的值，指定这个值以后，解一下，得到一个分类器，然后用测试数据看看结果怎么样，如果不够好，换一个C的值，再解一次优化问题，得到另一个分类器，再看看效果，如此就是一个参数寻优的过程，但这和优化问题本身决不是一回事，优化问题在解的过程中，C一直是定值。从大的方面说优化问题解的过程，就是先试着确定一下w，也就是确定了前面图中的三条直线，这时看看间隔有多大，

展开阅读全文