若干改进的支持向量分类机

资源描述

《若干改进的支持向量分类机》由会员分享，可在线阅读，更多相关《若干改进的支持向量分类机（53页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文若干改进的支持向量分类机姓名：刘振丙申请学位级别：硕士专业：概率论与数理统计指导教师：刘小茂 20060418 I 摘要支持向量机（SVM）是九十年代中期发展起来的新的机器学习技术，与传统的神经网络（NN）技术不同，NN 是以传统统计学习理论为基础，SVM 是以现代统计学习理论（SLT）为基础。传统统计学的前提是要有足够多的样本，它为机器学习问题建立了一个很好的理论框架；现代统计学习理论是一种小样本理论，具有更强的实用性。实践表明，建立在 SLT 之上的支持向量机不仅结构简单，而且技术性能尤其是推广能力明显提高，能够很好地解决现实中大量的小样本

2、学习问题，而利用核函数又能将线性方法推广至对非线性情形。目前，SVM 已成为国际上机器学习领域新的研究热点。本文提出了若干算法对支持向量机（SVM）加以改进。主要工作包括以下四个方面：一是对支持向量机理论基础? ? 学习问题进行了简介，尤其是对 Vapnik 等人的统计学习理论（SLT）结合分类学习问题作了比较系统的阐述；二是对模式分类中的近似线性可分问题提出了一种新的近似线性支持向量机（SVM），并从理论和实证分析两个方面将该方法与线性可分 SVM 及已有的近似线性可分 SVM 进行了对比分析，说明了该方法的优越性与合理性；三是对非均衡数目样本，通过增大或压缩两类点所在的

3、凸壳，使两个凸壳刚好相切，把与变化后的两个凸壳都相切的公切平面取为训练集的分划超平面；四是对一种非向量核? ? 基于分布族的Bhattacharyya核函数，用贝叶斯方法对其中的参数重新进行了估计，并与原有的估计进行了比较。关键词：模式分类；分划超平面；分划超曲面；凸壳；支持向量机；核函数；相似压缩；相似放大 II Abstract Support Vector Machine or SVM is a new machine learning technique developed from the middle of 1990s. Being different from tradi

4、tional Neural Network or NN, NN is based on mordern statistics theory, which provides conclusion only for the situation where sample size is tending to infinity, while SVM is based on mordern Statistical Learning Theory or SLT, which is a small- sample statistics and concerns mainly the statistics p

5、rinciples when sample are limited, especially the properties of learning procedure. SLT provides us a new framework for the general learning problem. A large number of experiments have shown that SVM has not only simple structure, but also better performances, especially better generalization abilit

6、y. SVM can also solve small- sample learning problem better, and through kernel function we can transfer a nonlinear problem to a linear problem. Currently, SVM is becoming a new hot area in the field of machine learning in the world. In this dissertation, we have induced severel developed SVM algor

7、ithms. The mian work are as follows: first, we have systematically discussed machine learning problem, which is the basic of SVM, with Statistical Learning Theory or SLT, especially the Vapnik s theory; second, two new SVMs are presented to solve the approximately linear separable problem of pattern

8、 recognition, and we compare the new SVMs to the known SVMs through theoretical and practical analysis, and show the advantages and rationality of the new SVMs; third, to the convex hulls having nonequilibrium trainingsets, through compressing or enlarging the two convex hulls, we can get the tangen

9、t of them, which seems to be a better separating hyperplane. Finally, we introduce the Bhattacharyya kernel function based on distribution, estimate the parameters of kernel by Bayesian method, and compare the new SVM based on the kernel with the old one. Key words: pattern classification, separatin

10、g hyperplane, separating hypercurve, convex hull, Support Vector Machine (SVM), kernel function, similitude compressing, similitude enlarging 独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到，本声明的法律结果由本人承担。学位论文作者签名：

11、日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密，在_年解密后适用本授权书。不保密。（请在以上方框内打“” ）学位论文作者签名：指导教师签名：日期：年月日日期：年月日本论文属于 1 1 绪论 1.1 课题研究背景数据挖掘源于数据库技术引发的海量数据和人们利用这些数据的愿望。用数据管理

12、系统储存数据，用机器学习的方法分析数据、挖掘海量数据背后的知识，便促成了数据挖掘（data mining）的产生 1 。概括地讲，数据挖掘的任务是从大型数据库或数据仓库中提取人们感兴趣的、事先未知的、有用的或潜在有用的信息。支持向量机（support vector machine,SVM）是数据挖掘中的一项新技术，是借助于最优化方法解决机器学习问题的新工具。它最初于 20 世纪 90 年代由 Vapnik 提出 26，近年来在其理论研究和算法实现方面都取得了突破性进展，开始成为克服“ 维数灾难” 和“ 过学习” 等传统困难的有力手段。虽然它还处于飞速发展的阶段，但是它的理论基础和实

13、现途径的基本框架已经形成。基于数据的机器学习是现代智能技术中十分重要的一个方面。机器学习的目的是根据给定的训练样本求对某系统输人输出之间依赖关系的估计，使它能够对未知输出做出尽可能准确的预测,机器学习一般地可以表示为：变量 y 和 x 存在一定的未知依赖关系即服从某一未知的联合概率( , )F x y,（x和y之间的确定性关系可以看作是其特例），机器学习问题就是根据l个独立同分布观测样本： 11 (,),(,) ll x yx y （1.1）在一组函数( , )f x w中，求一个最优函数( ,)f x w，用x和y之间的依赖关系进行估计，使期望风险最小，即： min( )(

14、, ( , )( , )R xL y f x w dF x y= （1.2）其中,预测函数集 ( , )f x w 可以表示任何函数集合，w为函数的广义参数， 2 ( , ( , )L y f x w为用( ,)f x w对y进行预测而造成的损失，不同类型的学习问题有不同形式的损失函数。统计模式识别的传统方法都是在样本数目足够多的前提下进行研究的，所提出的各种方法只有在样本数趋于无穷大时其性能才有理论上的保证。而在实际的应用中，样本数目通常是有限的，于是，人们采用了所谓的经验风险最小化 (Empirical Risk Minimization，ERM)准则,即用样本定义经验风险 1

15、1 ( )(,(,) l empii i RwL y f x w l = = （1.3）机器学习就是要设计学习算法, 使( ) emp Rw最小化，作为对式(1.2)的估计。多年来，人们将大部分注意力集中到如何更好地最小化经验风险上，但是，从期望风险最小化到经验风险最小化并没有可靠的理论依据。首先( ) emp Rw和( )R w都是w的函数，概率论中的大数定理只说明了在一定条件下，当样本数趋于无穷大时，( ) emp Rw将在概率意义上趋近于( )R w，并没有保证使( ) emp Rw最小的w与使( )R w最小的点w是同一个点，更不能保证() emp Rw趋近与()R w；

16、其次，即使有办法使这些条件本数无穷大时得到保证，也无法认定在这些前提下得到的经验风险最小化方法在样本数有限时仍能得到好的结果。Vapnik 等人早在 20 世纪 60 年代就开始研究有限样本情况下的机器学习问题但直到 90 年代以前，也没有提出能够将其理论付诸实现的较好办法，直到 90 年代中，有限样本情况下的机器学习理论研究才逐渐成熟起来，形成了一个较完善的理论体系? ? 统计学习理论（Statistical learning theory，简称 SLT）原来难以解决的问题，如学习能力和推广能力的统一。1992 年1995 年，Vapnik 等人又在统计学习理论的基础上，发展出了一种新的通用的学习方法? ? 支持向量机（Support vector machine，简称 SVM），其在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并且能够推广到函数逼近和概

展开阅读全文