SVM支持向量机算法的详细推导(详细到每个步骤,值得推荐).pdf

资源描述

《SVM支持向量机算法的详细推导(详细到每个步骤,值得推荐).pdf》由会员分享，可在线阅读，更多相关《SVM支持向量机算法的详细推导(详细到每个步骤,值得推荐).pdf（44页珍藏版）》请在金锄头文库上搜索。

1、人工神经网络及应用人工神经网络及应用主讲何东健第八章第八章支持向量机支持向量机 BP网络及RBF网络解决了模式分类与非线性映射问题 Vapnik提出的支持向世机 Support Vector Machine SVM 同样可以解决模式分类与非线性映射问题从线性可分模式分类角度看 SVM的主要思想是建立建立一个最优决策超平面一个最优决策超平面使得该平面两侧距平面最近的两类使得该平面两侧距平面最近的两类样本之间的距离最大化样本之间的距离最大化从而对分类问题提供良好的泛化从而对分类问题提供良好的泛化能力能力根据cover定理将复杂的模式分类问题非线性地投射到高维特征空间

2、可能是线性可分的因此只要特征空间的维数足够高则原始模式空间能变换为一个新的高维特征空间使得在特征空间中模式以较高的概率为线性可分的此时应用支持向量机算法在特征空间建立分类超平面即可解决非线性可分的模式识别问题支持向量机基于统计学习理论的原理性方法因此需要较深的数学基础下面的阐述避免过多抽象的数学概念推导过程尽量详细 8 1 支持向量机的基本思想线性可分数据的二值分类机理系统随机产生一个超平面并移动它直到训练集中属于不同类别的样本点正好位于该超平面的两侧显然这种机理能够解决线性分类问题但不能够保证产生的超平面是最优超平面是最优的的支持向量机建立

3、的分类超平面能够在保证分类精在保证分类精度的同时使超平面两侧的空白区域最大化从而实度的同时使超平面两侧的空白区域最大化从而实现对线性可分问题的最优分类现对线性可分问题的最优分类什么叫线性可分线性可分就是可以用一条或几条直线把属于不同类别的样本点分开实际上求解分类问题实际上求解分类问题就是要求出这条或这几条直线就是要求出这条或这几条直线问题是怎么求进一步理解支持向量机进一步理解支持向量机支持向量机 Support Vector Machine SVM 中的机机 machine 机器机器实际上是一个算法在机器学习领域常把一些实际上是一个算法在机

4、器学习领域常把一些算法算法看作是一个机器又叫看作是一个机器又叫学习机学习机器或器或预测函数预测函数或或学习函数学习函数支持向量支持向量则是指训练集中的某些训练点则是指训练集中的某些训练点这些点这些点最靠近分类决策面是最难分类的数据点最靠近分类决策面是最难分类的数据点 SVM 它是一种有监督有导师学习方法即它是一种有监督有导师学习方法即已知已知训练点的类别训练点的类别求训练点和类别之间的对应关系求训练点和类别之间的对应关系以以便将训练集按照类别分开或者是预测新的训练点所便将训练集按照类别分开或者是预测新的训练点所对应的类别对应的类别 SV

5、M主要针对主要针对小样本数据进行学习分类和预测小样本数据进行学习分类和预测有时也叫回归的一种方法能解决神经网络不能有时也叫回归的一种方法能解决神经网络不能解决的解决的过学习问题过学习问题类似的根据样本进行学习的方法类似的根据样本进行学习的方法还有基于案例的推理还有基于案例的推理 Case Based Reasoning 决策树归纳算法等决策树归纳算法等过学习问题过学习问题训练误差过小导致推广能力下降即真实风险的增加推广能力推广能力 generalization ability 也可以说是泛化能泛化能力力就是对未知样本进行预测时的精确度下面讨论线性

6、可分情况下支持向量机的分类原理 8 1 1 最优超平面的概念最优超平面的概念考虑P个线性可分样本 X1 d1 X2 d2 Xp dp XP dP 对于任一输入样本Xp 期望输出为dp 1 代表两类类别标识用于分类的超平面方程为 WT X b 0 8 1 式中 X为输入向量 W为权值向量 b为偏置偏置相当于前述负阈值负阈值则有 WT XP b 0 dp 1 WT XP b0 以上为不等式约束的二次函数极值问题不等式约束的二次函数极值问题 Quadratic Programming QP 由Kuhn Tucker定理知式 8 14 的最优解必须满足以下最优化条件 KKT条件 8 1

7、4 上式等号成立的两种情况一是 p为零另一种是 WT XP b dp 1 第二种情况仅对应于样本为支持向量对应于样本为支持向量设Q 的最优解为 01 02 0p 可通过式 8 12 计算最优权值向量其中多数样本的Lagrange系数为零因此即最优超平面的最优超平面的权向量权向量是是训练样本向量的线性组合训练样本向量的线性组合且且只有支持向量影响最终的划分结果只有支持向量影响最终的划分结果如果去掉其他训练如果去掉其他训练样本重新训练得到分类超平面相同样本重新训练得到分类超平面相同但如果一个支持向量未能包含在训练集内时最优超平面会被改变 8 16 利用计算出的最优

8、权值向量和一个正的支持向量可通过式 8 5 进一步计算出最优偏置计算出最优偏置 b0 1 W0T Xs 8 17 求解线性可分问题得到的最优分类判别函数最优分类判别函数为在上式中的P个输入向量中只有若干个支持向量的 Lagrange系数不为零因此计算复杂度取决于支持向量的个数对于线性可分数据该判别函数对训练样本的分类误差为零而对非训练样本具有最佳泛化性能 8 18 8 1 3 非线性可分数据最优超平面的构建若将上述思想用于非线性可分模式的分类时会有一些样本不能满足dp WT XP b 1的约束而出现分类误差因此需要适当放宽该式的约束将其变为式中引入了松弛变量

9、松弛变量 p 0 用于度量一个数据点对线度量一个数据点对线性可分理想条件的偏离程度性可分理想条件的偏离程度当0 p 1时数据点数据点落入分离区域的内部落入分离区域的内部且在分类超平面的正确一侧且在分类超平面的正确一侧当 p 1时数据点进入分类超平面的错误一侧时数据点进入分类超平面的错误一侧当 p 0时相应的数据点即为精确满足式 8 6 的支持向量 Xs 8 19 dp WT XP b 1 建立非线性可分数据的最优超平面非线性可分数据的最优超平面可以采用与线性可分情况类似的方法即对于给定的训练样本 X1 d1 X2 d2 Xp dp XP dP 寻找权值W和阈值B的最优

10、值使其在式 8 19 的约束下最小化关于权值W和松弛变量 p 的代价函数 C是选定的正参数与前述方法相似采用Laglange系数方法解决约束最优问题需要注意的是在引入Lagrange函数时使式 8 10 中的1被1 p代替从而使Lagrange函数变为对式 8 21 采用与前类似推导得到非线性可分数据非线性可分数据的对偶问题的对偶问题的表示为给定训练样本求解使以下目标函数为最大值的Lagrange系数 1 2 p 并满足以下约束条件 8 21 可以看出在上述目标函数中松弛变量 p和它们的 Lagrange系数都未出现因此线性可分的目标函数线性可分的目标

11、函数与非线性可分非线性可分的目标函数表达式完全相同目标函数表达式完全相同不同的只是线性可分情况下的约束条件 p 0 在非线性可分情况下被替换为约束更强的 0 p C 因此线性可分情况下的约束条件 p 0可以看作非线性可分情况下的一种特例此外 W和b的最优解必须满足的Kuhn Tucker最优化条件改变为最终推导得到的W和b的最优解计算式以及最优分类判别函数与式 8 16 8 17 和 8 18 完全相同 8 2 非线性支持向量机对非线性可分模式分类 SVM的方法是将输入向量将输入向量映射到一个高维特征向量空间映射到一个高维特征向量空间如果选用的映射函数映射函数适当

12、适当且特征空间的维数足够高特征空间的维数足够高则大多数非线性可分非线性可分模式在特征空间中在特征空间中可以转化为线性可分线性可分模式因此可以在该特征空间构造最优超平面构造最优超平面进行模式分类这个构造与内积核内积核相关 8 2 1 基于内积核的最优超平面设X为N维输入空间的向量令 X 1 X 2 X M X T表示从输入空间到M维特征空间的非线性变换称为输入向量输入向量X在特征空间诱导出的在特征空间诱导出的像像照前思路可在该特征空间构建一个分类超平面式中的wj为将特征空间连接到输出空间的权值 b为偏置或负阈值令 0 x 1 w0 b 上式可简化为或将适合

13、线性可分模式输入空间的式 8 12 用于特征空间中线性可分的像像只需用 X 替换X 得到 8 26 将上式代入式 8 26 可得特征空间的分类超平面为式中 T XP X 表示第p个输入模式XP在特征空间的像 XP 与输入向量X在特征空间的像 X 的内积内积因此在特征空间构造最优超平面时在特征空间构造最优超平面时仅使用特征空间仅使用特征空间中的内积中的内积若能找到一个函数K 使得则在特征空间建立超平面时在特征空间建立超平面时无需考虑变换无需考虑变换的形式的形式 K X XP 称为内积核函数内积核函数 8 28 p 8 29 泛函分析中的Mercer定理给出作为核函数的条件

14、 K X X 表示一个连续的对称核其中X定义在闭区间 a X b X 类似核函数K X X 可以展开为级数式中所有 i 0 保证式 8 30 一致收敛的充要条件充要条件是对于所有满足可以看出式 8 29 对于内积核函数K X XP 的展开是 Mercer定理的一种特殊情况 Mercer定理指出如何确定一个候选核是不是某个空间的内积核但没有指出如何构造函数 i X 8 30 对核函数K X XP 的要求是满足Mercer定理因此其选择有一定的自由度下面给出4种常用的核函数 1 线性核函数 K X Xp X Xp 2 多项式核函数采用该函数的支持向量机是一个q阶多项式分类器

15、其中q为由用户决定的参数 3 Gauss核函数采用该函数的支持向量机是一种径向积函数分类器径向积函数分类器 4 Sigmoid核函数 K X XP tanh k X XP c tanh x ex e x ex e x 双曲正切函数采用该函数的支持向量机实现的是一个单隐层感知器神经单隐层感知器神经网络网络使用内积核在特征空间建立的最优超平面定义为 8 2 2 8 2 2 非线性支持向量机神经网络非线性支持向量机神经网络支持向量机的思想是对于非线性可分数据在进行非线性变换后的高维特征空间实现线性分类此时最优分类判别函数为令支持向量的数量为Ns 去除系数为零的项上式可改写

16、为从支持向量机分类判别函数的形式上看它类似于一个类似于一个3 层前馈神经网络层前馈神经网络其中隐层节点对应于输入样本与一个支隐层节点对应于输入样本与一个支持向量的内积核函数持向量的内积核函数而输出节点输出节点对应于隐层输出的线性组合图8 2给出支持向量机神经网络的示意图设计一个支持向量机时只需选择满足Mercer条件的核函数而不必了解将输入样本变换到高维特征空间的的形式但下面给出的简单的核函数实际上能够构建非线性映射支持向量机神经网络设输入数据为二维平面的向量X x1 x2 T 共有3 个支持向量因此应将二维输入向量非线性映射为三维空间的向量 x 1 x 2 x 3 x T 选择K Xi Xj xi T Xj 使映射从R2 R3满足对于给定的核函数映射和特征空间的维数都不是唯一的例如对于本例的情况可选 X x12 2 x 3 x T 或 X 1 x 2 x 3 x T 8 3 支持向量机的学习算法在能够选择变换选择变换取决于设计者在这方面的知识的情况下用支持向量机进行求解的学习算法如下 1 通过非线性变换将输入向量映射到高维特

展开阅读全文