关于统计学理论与支持向量机

上传人:f****u 文档编号:111422409 上传时间:2019-11-02 格式:PDF 页数:11 大小:230.41KB
返回 下载 相关 举报
关于统计学理论与支持向量机_第1页
第1页 / 共11页
关于统计学理论与支持向量机_第2页
第2页 / 共11页
关于统计学理论与支持向量机_第3页
第3页 / 共11页
关于统计学理论与支持向量机_第4页
第4页 / 共11页
关于统计学理论与支持向量机_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《关于统计学理论与支持向量机》由会员分享,可在线阅读,更多相关《关于统计学理论与支持向量机(11页珍藏版)》请在金锄头文库上搜索。

1、第26卷 第1期 2000年1月 自 动 化 学 报 ACTA AU TOMA T ICA SI N ICA Vol126,No11 Jan. , 2000 综述与评论 1) 本文受到国家自然科学基金赞助,项目编号为69885004. 收稿日期 1998208224 收修改稿日期 1999204227 关于统计学习理论与支持向量机 1) 张学工 (清华大学自动化系,智能技术与系统国家重点实验室 北京 100084) 摘 要 模式识别、 函数拟合及概率密度估计等都属于基于数据学习的问题,现有方法的重 要基础是传统的统计学,前提是有足够多样本,当样本数目有限时难以取得理想的效果.统计 学习理论(S

2、L T)是由V apnik等人提出的一种小样本统计理论,着重研究在小样本情况下的 统计规律及学习方法性质. SL T为机器学习问题建立了一个较好的理论框架,也发展了一种 新的通用学习算法支持向量机(SVM ), 能够较好的解决小样本学习问题.目前, SL T和 SVM已成为国际上机器学习领域新的研究热点.本文是一篇综述,旨在介绍SL T和SVM的 基本思想、 特点和研究发展现状,以引起国内学者的进一步关注. 关键词 统计学习理论,支持向量机,机器学习,模式识别. INTRODUCTI ON TO STATISTICAL LEARNING THEORY AND SUPPORT VECTORMAC

3、HINES ZHAN G Xuegong (D ep t.of A utom ation,T singhua U niversity,B eijing 100084) (S tate K ey L aboratory of Intelligent T echnology and System s of China) Abstract Data2basedmachine learning covers aw ide range of topics from pattern recognition to function regression and density estimation.Most

4、 of the existing methods are based on traditional statistics, which provides conclusion only for the situation where sample size is tending to infinity. So they may not work in practical cases of lim ited samples.Statistical Learning Theory or SLT is a small2sample statistics byV apniket al. , which

5、 concernsmainly the statistic principleswhen sam2 ples are lim ited, especially the properties of learning procedure in such cases. SLT provides us a new framework for the general learning problem, and a novelpowerful learning method called Support V ector M achine or SVM , which can solve small2 sa

6、mple learning problem s better.It is believed that the study of SLT and SVM is becom ing a new hot area in the field ofmachine learning. This review introduces the basic ideas of SLT and SVM , their major characteristics and some current research 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. Al

7、l rights reserved. trends. Key words Statistical learning theory, support vector machine, machine learning, pattern recognition. 1 引言 基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)出发寻 找规律,利用这些规律对未来数据或无法观测的数据进行预测.包括模式识别、 神经网络 等在内,现有机器学习方法共同的重要理论基础之一是统计学.传统统计学研究的是样本 数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设.但在实际问题中,样本 数往往是有限的

8、,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意. 与传统统计学相比,统计学习理论(StatisticalL earning Theory或SL T)是一种专门 研究小样本情况下机器学习规律的理论. V. V apnik等人从六、 七十年代开始致力于此方 面研究1,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法 在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视2, 3. 统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提 供了一个统一的框架.它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的 问题(比如神经网络结构选择问题

9、、 局部极小点问题等 ); 同时,在这一理论基础上发展了 一种新的通用学习方法支持向量机(Support V ectorM achine或SVM ), 它已初步表 现出很多优于已有方法的性能.一些学者认为, SL T和SVM正在成为继神经网络研究之 后新的研究热点,并将有力地推动机器学习理论和技术的发展3. 我国早在八十年代末就有学者注意到统计学习理论的基础成果4,但之后较少研究, 目前只有少部分学者认识到这个重要的研究方向.本文旨在向国内介绍统计学习理论和 支持向量机方法的基本思想和特点,以使更多的学者能够看到它们的优势从而积极进行 研究.文章第二节给出机器学习问题的一般表示,并简要讨论现有

10、方法的一些问题;第三 节介绍SL T的基本思想和最有影响的结论;第四节介绍SVM方法的原理、 应用及由此 发展出的其它方法;第五节是讨论. 2 机器学习的基本问题 2. 1 问题的表示 机器学习的目的是根据给定的训练样本求对某系统输入输出之间依赖关系的估计, 使它能够对未知输出作出尽可能准确的预测.可以一般地表示为:变量y与x存在一定 的未知依赖关系,即遵循某一未知的联合概率F(x,y), (x和y之间的确定性关系可以看 作是其特例 ), 机器学习问题就是根据n个独立同分布观测样本 (x1,y1), (x2,y2 ), , ( xn,yn ), (1) 在一组函数f(x,w ) 中求一个最优的

11、函数f(x,w0)对依赖关系进行估计,使期望风险 R(w ) = L(y,f(x,w )d F(x,y)(2) 33 1期张学工:关于统计学习理论与支持向量机 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 最小.其中, f(x,w ) 称作预测函数集,w为函数的广义参数, f(x,w ) 可以表示任何函 数集;L(y,f(x,w)为由于用f(x,w)对y进行预测而造成的损失,不同类型的学习问题 有不同形式的损失函数.预测函数也称作学习函数、 学习模型或学习机器. 1) 这里暂时没有讨论非监督模式识

12、别问题.实际上,如何在非监督模式识别问题中应用统计学习理论正是当前值 得研究的课题之一. 有三类基本的机器学习问题,即模式识别、 函数逼近和概率密度估计.对模式识别问 题,输出y是类别标号 1) ,两类情况下y= 0, 1或1, - 1,预测函数称作指示函数,损失 函数可以定义为 L(y,f(x,w ) = 0, ify=f(x,w ), 1, ifyf(x,w ), (3) 使风险最小就是Bayes决策中使错误率最小.在函数逼近问题中,y是连续变量(这里假 设为单值函数 ), 损失函数可定义为 L(y,f(x,w ) = (y-f(x,w) 2, (4) 即采用最小平方误差准则.而对概率密度

13、估计问题,学习的目的是根据训练样本确定x 的概率密度.记估计的密度函数为p(x,w ), 则损失函数可以定义为 L(p(x,w) = -logp(x,w ). (5) 2. 2 经验风险最小化 在上面的问题表述中,学习的目标在于使期望风险最小化,但是,由于我们可以利用 的信息只有样本(1), (2)式的期望风险并无法计算,因此传统的学习方法中采用了所谓经 验风险最小化(ERM)准则,即用样本定义经验风险 Remp(w ) = 1 n6 n i= 1 L(yi,f(xi,w ), (6) 作为对(2)式的估计,设计学习算法使它最小化.对损失函数 (3), 经验风险就是训练样本 错误率;对(4)式

14、的损失函数,经验风险就是平方训练误差;而采用(5)式损失函数的ERM 准则就等价于最大似然方法. 事实上,用ERM准则代替期望风险最小化并没有经过充分的理论论证,只是直观上 合理的想当然做法,但这种思想却在多年的机器学习方法研究中占据了主要地位.人们多 年来将大部分注意力集中到如何更好地最小化经验风险上,而实际上,即使可以假定当n 趋向于无穷大时(6)式趋近于(2)式,在很多问题中的样本数目也离无穷大相去甚远.那么 在有限样本下ERM准则得到的结果能使真实风险也较小吗? 2. 3 复杂性与推广能力 ERM准则不成功的一个例子是神经网络的过学习问题.开始,很多注意力都集中在 如何使Remp(w)

15、更小,但很快就发现,训练误差小并不总能导致好的预测效果.某些情况 下,训练误差过小反而会导致推广能力的下降,即真实风险的增加,这就是过学习问题. 之所以出现过学习现象,一是因为样本不充分,二是学习机器设计不合理,这两个问 题是互相关联的.设想一个简单的例子,假设有一组实数样本x,y,y取值在0, 1之间, 那么不论样本是依据什么模型产生的,只要用函数f(x, ) = sin (x)去拟合它们(是待 定参数 ), 总能够找到一个 使训练误差为零,但显然得到的 “最优” 函数并不能正确代表 43自 动 化 学 报26卷 1995-2005 Tsinghua Tongfang Optical Dis

16、c Co., Ltd. All rights reserved. 真实的函数模型.究其原因,是试图用一个十分复杂的模型去拟合有限的样本,导致丧失 了推广能力.在神经网络中,若对有限的样本来说网络学习能力过强,足以记住每个样本, 此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好 的预测.学习机器的复杂性与推广性之间的这种矛盾同样可以在其它学习方法中看到. 文献3给出了一个实验例子,在有噪声条件下用模型y=x 2产生10个样本, 分别用 一个一次函数和一个二次函数根据ERM原则去拟合,结果显示,虽然真实模型是二次, 但由于样本数有限且受噪声的影响,用一次函数预测的结果更好.同样的实验进行了100 次, 71%的结果是一次拟合好于二次拟合. 由此可看出,有限样本情况下 , 1) 经验风险最小并不一定意味着期望风险最小 ; 2) 学 习机器的复杂性不但应与所研究的系统有关,而且要和有限数目的样本相适应.我们需要 一种能够指导我们在小样本情况下建立有效的学习和推广

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号