《支持向量机及应用简介》由会员分享,可在线阅读,更多相关《支持向量机及应用简介(39页珍藏版)》请在金锄头文库上搜索。
1、支持向量机及应用简介 李承军水电仿真中心07.4.23机器学习的基本问题和方法从给定的函数集中选择出能够最好地逼近系统响应的函数系统(S)学习机器(LM)输入x输出y有指导机器学习的目的是根据给定的训练样本,求出对某系统输入输出之间依赖关系的估计,使它能够对未知输入作出尽可能准确的预测。可以一般地表示为:变量y与x存在一定的未知依赖关系,即遵循某一未知的联合概率F(x,y)(x 和y 之间的确定性关系可以看作是其特例),有指导机器学习问题就是根据N个独立同分布观测样本在一组函数f (x,w)中求一个最优的函数 f (x,w0)对依赖关系进行估计,使期望风险最小支持向量机(SVM)支持向量机(S
2、urpport Vector Machines)简称SVM,是统计学习理论中最年轻的内容,也是最实用的部分。其核心内容是在1995 年左右,由Vapnik和Chervonenkis提出的,目前仍处在不断发展阶段。支持向量分类(Classification)线性分类器分类面点点x x0到平面到平面+b=0+b=0的距离为的距离为最优分类面最大间隔(margin)分类面方程为分类面方程为支撑面之间的支撑面之间的距离叫做分类距离叫做分类间隔间隔线性可分的最优分类模型作广义Lagrange乘子函数由KKT条件,有非支持向量的系数为0 b*也由支持向量求得,事实上将 代入目标函数,由对偶理论知,系数可由
3、如下二次规划问题解得给定x的分类结果特点:稳定性、鲁棒性、稀疏性等最大间距:由于对则线性不可分(软间隔)线性不可分的情况引入松弛变量不可分的解方程subject to作Lagrange函数最优性条件由由KKTKKT条件条件若若max系数的解方程C不同带来的影响支持向量回归(Regression)回归问题线性回归:给定训练集(xi,yi),找个线性函数f(x)=wTx+b,来拟合数据最小二乘法(Least Square)其中 为回归误差.记 ,则目标函数可写为解为最小二乘解的不足:数值稳定性问题,增加新数据对解都有影响,为使模型尽量简单需进行假设检验.脊回归(Ridge Regression)数
4、值稳定性较好.还可写为敏感损失回归 敏感敏感损损失函数失函数( ( -Insensitive Loss)-Insensitive Loss)损失函数比较模型(线性损失)作Lagrange乘子函数KKT条件代入模型得系数满足的二次规划变量代换:回归方程:用二次损失函数时,模型为KKT条件n n代入模型得系数满足的二次规划n n变量代换:n n回归方程:非线性SVM与核(Kernel)函数非线性变换n n基本思想:n n 选择非线性映射(X)将x映射到高维特征空间Z,在Z中构造最优超平面对分类问题系数可由二次规划对回归问题求系数:回归方程:这种变换可能比较复杂,因此这种思路在一般情况下不易实现。但
5、是注意到,在上面的对偶问题中,不论是寻优函数还是分类函数都只涉及训练样本之间的内积运算。这样,在高维空间实际上只需进行内积运算,而这种内积运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换的形式。我们看到,通过把原问题转化为对偶问题,计算的复杂度不再取决于空间维数,而是取决于样本数,尤其是样本中的支持向量数。这些特征使有效地对付高维问题成为可能。定义核函数:定义核函数:对分类问题系数可由二次规划对回归问题求系数:回归方程:核函数矩阵KK K( (x x1 1, ,x x1 1) )K K( (x x1 1, ,x x2 2) )K K( (x x1 1, ,x x3 3) ) K K(
6、 (x x1 1, ,x xN N) )K K( (x x2 2, ,x x1 1) )K K( (x x2 2, ,x x2 2) )K K( (x x2 2, ,x x3 3) )K K( (x x2 2, ,x xN N) ) K K( (x xN N, ,x x1 1) )K K( (x xN N, ,x x2 2) )K K( (x xN N, ,x x3 3) ) K K( (x xN N, ,x xN N) )核的要求Mercers theorem: 任何半正定的对称函数都可以作为一个任何半正定的对称函数都可以作为一个核,即对任意的核,即对任意的常用的核函数:对任意满足 的g(x)有应用设想已经取得了广泛的应用支持向量机水库调度函数:入库径流预报负荷预报、电价预测等常规调度图保证出力区降低出力区防洪区zt加大出力区预想出力区基本调度线