支持向量机在文本分类中的应用的概述

资源描述

《支持向量机在文本分类中的应用的概述》由会员分享，可在线阅读，更多相关《支持向量机在文本分类中的应用的概述（10页珍藏版）》请在金锄头文库上搜索。

1、支持向量机方法是建立在统计学习理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力(Generalizatin Abjlity)。支持向量机的方法主要有以下几个优点。(1)它是专门针对有限样本情况的，其目标是得到现有信息下的最优解而不仅仅是样本数趋干无穷大时的最优值。(2)算法最终将转化成为一个二次犁寻优|l口】题，从理论上说。得到的将是全局最优点，解决了在神经网络方法中无法避免的局部极值问题。(3)算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space)，在高维窄间中构造线性判别函数来实现原空间中的非线性判别

2、函数，特殊性质能保证机器有较好的推广能力，同时它巧妙地解决了维数问题，其算法复杂度与样本维数无关。在支持向量机方法中，只要定义不同的内积函数，就可以实现多项式逼近、贝叶斯分类器、径向基函数方法、多层感知器网络等许多现自学爿算法。1 SVM的训练算法传统的利用标准二次型优化技术解决对偶问题的方法。是sVM训练算法慢及受到训练样本集规模制约的丰要原因。目前已提出了许多解决方法和改进算法，主要是从如何处理大规模样本集的训练问题、提高训练算法收敛速度等方面改进。以F分为分解方法、修改优化问题法、增量学习法、几何方法等分别讨论。11分解方法分解方法是SVM训练一般采用的途径。块算法固定工作变量及方法、顺

3、序最小。固定T作变量集方法思想是在迭代过程中。当前求解子问题的优化变量数目不变，即参与训练的样本集规模固定。工作样本集大小固定在算法速度可以容忍的限度内，迭代过程选择一种适合的换入换出策略，将剩余样本中的一部分与工作样本集中的样本进行等最交换。0Suna针对SVM训练速度慢及时间空间复杂度大的f日J题，早就提出了该分解算法，并用于人脸检测。文献可中将训练样本分为T作样本集和非工作样本集，工作样本集中的样本个数为q个，q远小于训练样本总数。顺序最小优化方法sM0(sequentialMsnimal Optinlization)可以说是Osuna分解算法的极端特例，其工作样本集中只有两个样本。它把

4、二次型寻优算法简化为线性寻优问题。SMO特别合适稀疏样本。其工作集的选择采用启发式，而不足传统的最陡下降法。算法丰要耗时是在最优条件的划断上。文献对sAO进行了改进，在迭代过程中的削优条件和循环策略上作了一定的修改，加快了算法的速度。Osuna通过试验分析提出了一种简单的丁作集选择方法，对复杂情形，采用该方法的SVM能较快地收敛。工作样本集大小的确定、如何确定工作样本集、如何确定合适的迭代策略是固。定工作样本集方法的主要问题。SVMI。ight中做了以F改进工作：在工作样本集的选择漆。多个sVMLigh中是沿着最速F降可行方向d，有非零元素对应的q个优化变鼍构成E作样本集。己经证明了只要最速下

5、降可行方向d存在，则用相应子集构成的子问题可以进一步优化，而子问题的可行解也是原问题的可行解。这就解决了工作样本集fi能包括所有支持向量的|u】题。在实现细节上，文献中提出了连续收缩策略来缩小优化问题的规模，从而使算法能较好地处理大规模的训练集问题。此外，该方法对常用的参数进行缓存，以提高训练速度。SVMLight常被用作各种算法比较的标准。12增量学习方法上述方法均假设训练集大小固定，但现实|口J题中这一要求在多数情况下是不能满足的。因此，希望学习机的学习精度应随应用过程中样本集的积累而逐步提高，即学习机应具有增鼍(Incremental Learning)学习能力。经典sVM学习算法并不直

6、接支持增毓学习。为解决加入新样本后的SVM训练问题，文献中用统计力学J：的Adatron方法训练sVM巾的系数，它将系数的求解看成系统由小稳定态剑稳定态的变化过程。IlI Adatron算法改进得出的KemdAdatron算法通过2 1 8 科技资讯scIENcETcHNOLOGY INFORMArION在线学习构建了大边际超平面，该算法实现简单，但只对于可分数据集有效。13几何学习算法该类方法利用了训练集中的几何信息，从sVM的几何意义出发求解问题。文献中利用r训练向量的结构信息，提出厂用几何方法提取卫支持向母集，并使用卫支持向母集构建优化决策【li的方法。文献阵把SV原理建立在距离牢闻上，

7、设计出基于领域原理的计算海量数据支持向鼍的算法，并进行了实验分析。研究表明，往人规模样本情况F，用领域原理方法求解支持向量速度极快，同时对计算机资源要求很低。领域原理求支持向最的过程本质上式简化SVM中二次规划目标函数的Hessian矩阵的过程。该方法不但几何意义明确，而且计算速度快，每次可以消掉内积矩阵的多行多列，所需内存开销很小。2 SVM方法在文本分类中的应用目前，越柬越多的人开始研究SVM在文本分类中的应用，并提出了很多的改进方法。都云琪等采用线性支持向量机(LSVM)实现了一个中文文本分类系统，并针对系统准确率较高、召回率较低的问题提出一种采用训练集中拒识样本信息对分类器输出进行改进

8、的方法，通过给最优分类面加入一个松弛项，松弛项的值通过统计拒识样本与分类面距离的期望平均来得到，从而可以使分类器识别j更多的样本，提高系统的召回率。李晓黎等针对SVM在处理大规模的网页数据时训练时间太长的问题，提出r一种将SVM与无监督聚类(UC)相结合的方法，该方法首先利用UC分别对训练集中的止例和反例聚类，然后仅挑选全部正例和与币例中心接近的部分反例参与训练并获得SVM分类器。仟何网页可以通过比较其与聚类中心的距离来决定采用UC或sVM进行分类，从而充分利用rSVM准确率高和UC聚类速度快的优点。李蓉等提出一种将sVM与最近邻分类相结合的分类器(SVMKNN)，该方法通过对SVM分类时出错

9、样本点分布的研究，指出在分类阶段可以先计算待识别样本和最优分类超平面的距离，如果距离差大于给定的阐值则直接用 SVM 分类否则代入每类的所_有支持向量为代表点的k近邻分类。用于网页分类的实验结果表明，该方法比单独使用SVM进行分类具有更高的准确率，同时可以较好地解决sVM分类时核参数的选择问题。萧嵘等将SVM与增量学习方法结合起来，提出了一种基丁遗忘因子a的SVM增量学爿方法(aIsVM)，该方法通过住增量学习中逐步积累样本的审问分布知识，使得对样本进行有选择地遗忘成为可能。在文本分类中的实验表明，该方法能在保证分类精度的同时，有效地提高训练速度并降低存储审问的占用。卢增祥等将SVM与主动学习

10、方法结合起来提出一种交互式支持向量机，用来解决文本分类和过滤问题中训练样本较少的问题。另外，GeorgesSiola等提出r一个基于语义核的SVM文本分类器，它利用词与词之间的语义关系构造了一个新的矩阵，并把这个矩阵加入SVM径向基核函数的定义中，取得r更好的分类效果。Joachims得出的结论是，把一些具有相同性能的基于核的分类器组合在一起，往往可以得到一个性能更强的分类器。以上的学习方式均属于归纳式学习(【nductive Inference)即希望没计的分类器能够对未来所有可能样本的预期性能最优。而在很多实际问题中，没有可能也没有必要用这样一个分类器对所有可能的样本进行识别，于是可以考虑

11、设计种更为经济的分类器，用它来建屯一种直接从己知样本出发对特定的未知样本进行识别和分类的方法，这种方法叫做直推式学习(Tran sd uctiveInferenee)。较之传统的归纳式学习方法而言，直推式学习往往更具有酱遍性和实际意义。基于sVVI的直推式学习是一个较新的研究领域，Joachims等对此进行了研究，提出了一种训练直推式支持向量机(TsVM)的有效方法成功地把无标签样本中隐含的分布信息引入了sVM的学爿过程中。在Reuters，WebK Bohsumed三个语料库上的实验结果表明，TSVM比单纯使用有标签样本训练得到的分类器在性能卜有了显著提高，并且可以大大减少对有标签样本的需求

12、，这对于大规模的文本分类问题来说无疑具有很重要的实际意义。3结语sVM方法是建屯在统计学习理论的VC维理论和结构风险最小化原理基础上的一种通用学习方法，根据有限的样本信息在模型的复杂度和学)J能力之间寻求最佳折衷，以期获得最好的推J“能力。SVM方法的有以下几个优点。(1)它是专门针对有限样本情况的，其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优解。(2)算法最终将转化成为在线性条件限制下的二次优化|口J题，从理论上说。得到的是全局最优点，解决了在神经网络方法中无法避免的局部极值IU题。(3)算法将实际问题通过非线性变换转换到高维的特征卒间，在特征审问中构造线性判别函数来实现原空间中的非线性判别函数，巧妙地避免了“维数灾难”问题其算法复杂度与特征空间的维数无关。参考文献11】徐爱华面向文本分类中文文本挖掘技术研究及实现【D】武汉理工大学硕士学位论文，2004，5【2l都厶琪，等基于支持向量机的中文文本自动分类研究【J1计算机工程，2002，28(11)：137139【3】萧嵘基于支持向量机的模式识别技术中若干日J题的研究【D】学位论文，南京大学，2002【4】代六玲一种文本分类的在线SVM学习算法【J】中文信息学报，2005，5【5】庞剑锋，h东波等基于向鼍空|日|模型的文本自动分类系统的研究与实现【J】计算机应用研究，200l，15(9)

展开阅读全文

支持向量机在文本分类中的应用的概述

最新文档