《支持向量机及其在软测量中的应用》由会员分享,可在线阅读,更多相关《支持向量机及其在软测量中的应用(75页珍藏版)》请在金锄头文库上搜索。
1、华东 理工大学硕 士 学 位 论 文第I 页支持向量机及其在软测量中的应用摘 要统计学习理论是当前机器学习领域一个研究热点,它为有限样本学习问题提供了一 个统一的框架。建立在该理论基础上的支持向量机,以其优异的小样本学习能力、较强 的抗干扰能力和较好的模型推广能力引起了 工程技术界的关注,在最近几年得到了 不断的发展和应用。本文讨论了统计学习理论和结构风险最小化的基本概念,结合数据分类问题具体阐 述了 支持向量机的基本理论。同时研究了支持向量机用于数据回归的具体方法,并且应 用该方法进行函数逼近和函数估计仿真研究, 仿真结果表明该方法训练所需样本少, 所 建模型结构简单以 及对噪声有较好的滤波
2、能力.本文基于支持向量机回归方法的优点,提出了一种新的软测量建模方法基于支 持向量机的软测量方法,并应用该方法建立了加氢裂化装置航煤千点的软测量模型,与 基于 R B F网络的建模方法相比,该方法模型误差控制较好,能在较少的训练样本下获得 性能比 较好的 模型,同时该方法建立的 模型结构简单具有很好的推广能力。 关 键词: 支持向 量 机 统 计学习 理 论 回 归 估 计 软 测复、 J /份/ /、 /第 1 1 页华东 理工大学硕 士 学 位 论 文S u p p o r t V e c t o r Ma c h i n e s a n d I t s A p p l i c a t i
3、 o n t o S o f t - s e n s i n g Mo d e l l i n gABS TRACTS t a t i s t i c a l l e a r n i n g t h e o ry ( S L T ) i s c u r r e n t ly a h o t s p o t in m a c h i n e l e a r n i n g r e s e a r c h f i e l d , a n d i t a ff o r d s a g e n e r a l fr a m e w o r k f o r l e a r n in g w i t h
4、l i m i t e d s a m p l e s . S u p p o r t v e c t o r m a c h i n e s ( S V M) a l g o r i th m , b a s e d o n S L T , i s a tt e n d e d i n e n g i n e e r i n g fi e l d s w i t h i t s e x c e l l e n t l e a rn in g c a p a b i l i t y u s i n g s m a l l s a m p l e s , t h e s t r o n g a
5、b i l i t y o f a n t i - n o i s e a n d g o o d g e n e r a l i z a t i o n p e r f o r m a n c e , a n d it i s d e v e l o p e d r a p i d l y a n d h a s b e e n a p p l i e d s u c c e s s f u l l y i n m a n y f i e l d s i n p a s ty e a r s .I n t h e p a p e r , b a s i s c o n c e p t o f
6、 S L T a n d s t r u c t u r a l r i s k m i n i m i z a t i o n in d u c t i o n p r i n c i p l e i s p r e s e n t e d , a n d e s s e n t i a l t h e o ry o f S V M i s e x p a t i a t e d b y s o l v i n g t h e c l a s s i fi e r q u e s t i o n . R e g r e s s i o n e s t i m a t i o n a p p
7、r o a c h b a s e d o n S V M i s a ls o d i s c u s s e d , a n d t h e r e s u l t s o f s i m u l a t i o n o n f u n c t i o n a p p ro x im a t i o n a n d e s t im a t i o n i n d ic a t e t h e m e r i t s o f t h i s l e a r n i n g a l g o r it h m : le a rn i n g u s i n g s m a l l s a m
8、p l e s , s i m p l e m o d e l s t r u c t u r e a n d g o o d fi l t e r i n g a b i l i t y .D u e t o t h e m e r i t s o f S V M r e g r e s s i o n a p p r o a c h , a n e w s o ft - s e n s i n g m o d e l i n g a l g o r it h m - - s o ft - s e n s i n g m o d e li n g b a s e d o n s u p p
9、o rt v e c to r m a c h i n e s , i s p r o p o s e d , a n d t h e m o d e l o f j e t - f u e l e n d p o in t i n h y d r o c r a c k in g fr a c t i o n a t o r s i s e s t a b li s h e d . C o m p a r i n g t h e m o d e l li n g a p p r o a c h w i t h R B F n e u r a l n e t w o r k s , t h i
10、 s a p p r o a c h i s a d a p t e d t o m o d e l li n g w i t h f e w e r s a m p l e s , a n d a c h ie v e s g o o d p e r f o r m a n c e s . K e y Wo r d s : S u p p o rt v e c t o r m a c h in e s S ta t i s ti c a l l e a rn i n g t h e o ry R e g r e s s i o n e s t i m a t i o n S o ft -s
11、e n s ing作者声明我郑重声明:本人悟守学术道德,崇尚严谨学风。所呈交的学位论文, 是本人在导师的指导下, 独立进行研究工作所取得的结果。 除文中明确注明和引用的内 容外, 本论文不包含任何他人已经发表或撰写过的内 容。论文为本人亲自 撰写,并对所写内容负责。论 文 作 者 签 名 : 策 ,刻 : 虽又11 19 a 年/ a 月a 夕日华东 理工大学硕 士 学 位 论 文第1 页第 1 章 绪论1 . 1机器学习和统计学习理论1 . 1 . 1机器学习基于数据的机器学习是现代智能技术中的一个重要领域,它根据采样得到的样本数据 研究系统输入、输出各变量之间的关系 ( 相关关系或函数关系
12、),建立系统的学习模型, 同时进一步利用得到的学习模型对未知输出值进行估计预测,它是一个从未知到知的过程。我 们用 数学 符 号 来 表示 上面的 机 器 学习 问 题。 设x 和Y 分别 是 某一 系统的 输入 和 输出 变 量, x e X, Y G Y , , 它 们 之 间 存 在 某 一 未 知 的 关 系, 即 服 从 某一 未 知的 联 合 概 率P ( x , Y ) 对该系统的输入输出进行多次测量,得到样本集D:D 摊x Y , )卜 , E x , Y ; 。 Y , i = 1,2 ,., n 卜( 1 ) 我们近似地认为这n 组测量值是独立同分布的。所 谓 机 器 学
13、习 也 就 是 根 据 上 面 的 样 本 集 在 某 个 可 取函 数 集H = 甘 ( x ) 中 , 求出 一 个 最 优的 函 数A ( x ) 作 为系统 输入输出 关 系的 预 测 模型 ( 也叫学习 模 型或学习 机 器) , 使 得 该预测模型的真实风险: R (f ) = J L (Y , f ( x )d p ( x , Y )1 一 ( 2 )最小。其中可取函数集H称为预测函数集,它事先设定了学习模型的选取范围。函数 L ( Y , f ( x ) ) 称为 损 失 函 数 ( L o s s F u n c t io n ) 2 , 它 是 学 习 模 型 在学 习 过
14、 程中 对误 差的 一 种 度 量,一般在模型学习前己经选定,不同的学习问题对应的损失函数一般也不同,同一学习 问 题 选 取 不同 的 损失函 数 得到的 模型 也 不 一 样。 0 1基本的机器学习问题主要有: 模式识别、回归 估计和概率密度估计等。对 于 模 式 识 别 问 题, 系 统 的 输 出 Y 一 般 为 类 别 标 号 , 即 Y = 卜 1 ,1 , 损 失 函 数 一 般 定 义为 :(少 ,厂 ( )一 0 , 若Y = f ( x ) 1 , 若Y m f ( x )1 一 ( 3 )也就是B a y e s 决 策中 的错误率。 回归估计问 题中系统的输出夕 是一个
15、实数, 可用的惩罚函数 ( 损失函数) 很多,最常见的是二次惩罚:L ( Y , f ( x ) ) = ( Y 一 f ( x ) ) 21 一 ( 4 )本 文 仅 考 虑 多 输 入 单 输出 系 统, 因 而Y cR, XcR d , d 为 系 统 输 入 变 量 个 数 即 输 入向 量 的 分 量 个 数。 2 损 失 函 数 在 回 归 估 计 中 也 称 为 惩 罚 函 数( P e n a lt y F u n c t i o n ) 。第2 页华东 理工大学硕 士 学 位 论 文在支持向 量机回归中, 经常采用的惩罚函数是 一 不灵敏区函数(2 l了!干、-L ( Y ,
16、 f ( x ) )0 l f ( x ) 一 Y 一 :If ( x ) 一 v 1 _ 0 : I f ( x ) 一 , : 1 一 ( s )1 . 1 . 2经验风险最小化由上一小节的分析可以看出机器学习的目 标在于使模型的真实风险1 - ( 2 )最小化, 但是由 于我 们所能利用的信息只有样本集 1 - ( 1 ) ,而不知道联合概率P ( X , Y ) ,因 而无法直接计算模型的真实风险。常用的机器学习方法,如统计分析、神经网络以及模糊逻辑等,都以统计学作为理论 依据。传统统计学是一门基于样本数趋于无穷大假设的渐近理论,它主要研究当样本数足 够多时各变量之间的关系。这些方法在学习时都采用经验风险最小化 ( E m p i ri c a l R i s k Mi n i m i z a t i o n , E R M)准则,其核心思想是以学习 机器的经验风险 R eap (f ) = n 客 L (Y , f (X , )1 一 ( 6 )来近似真实风险 1 一 ( 2 ),并据此设计学习算法求得学习机器。 这种学使得