支持向量及核方法的研究与应用

上传人:li45****605 文档编号:42552945 上传时间:2018-06-02 格式:PDF 页数:66 大小:2.59MB
返回 下载 相关 举报
支持向量及核方法的研究与应用_第1页
第1页 / 共66页
支持向量及核方法的研究与应用_第2页
第2页 / 共66页
支持向量及核方法的研究与应用_第3页
第3页 / 共66页
支持向量及核方法的研究与应用_第4页
第4页 / 共66页
支持向量及核方法的研究与应用_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《支持向量及核方法的研究与应用》由会员分享,可在线阅读,更多相关《支持向量及核方法的研究与应用(66页珍藏版)》请在金锄头文库上搜索。

1、中山大学硕士学位论文支持向量及核方法的研究与应用姓名:彭瑞华申请学位级别:硕士专业:计算机软件与理论指导教师:李磊2003.5.20论文题目:支持向量及核方法的研究与应用专业:计算机软件与理论硕士生:彭瑞华指导教师:李磊教授摘要4 随着信息量的膨胀,数据库的规模不断扩大,使得数据挖掘技术日渐成为研究热点。聚类方法,作为一种无监督的学习算法,是数据挖掘研究的一个重要方向。本文提出了利用支持向量及核方法来提高聚类的精度。与传统的聚类方法相比,基于支持向量的聚类方法有其新颖性,涉及到数据分析和机器学习领域中较新较前沿的一些思想和方法,如基于结构风险最小化( S R M ) 归纳原则的支持向量机学习算

2、法、核方法等。本文一方面通过实验初步展示了其基本特性和运用效果,另一方面,也针对其存在的不足作了分析和改进,如理论上的解释、聚类的稳定性等。另一方面,针对聚类中模型选择( 学习机或核中的有关参数) 上的困难提出了在基于核的非线性主成分分析基础上对样本进行降维处理以便可视化聚类的思想,并结合实验研究探讨了通过对核矩阵中特征值的分析来估计样本集合中潜在的聚类数以便指导聚类过程的问题。我们希望通过这样来使得模型选择更为有效。另外,提出了一种基于聚类的用于求解有监督学习问题的框架,即先将样本集按其内在属性聚为若干类,然后在每一类中再分别构造求解,这样当面对新样本时,就可先将其归到某一子类,然后在子类中

3、求解即可。实验数据表明,基于支持向量及核的方法有其独特性,特别在处理非线性问题方面尤其如此。值得注意的是,由于文中包含的相关思想及方法在当前机器学习领域及非线性问题研究方面正越来越受到重视,而相关应用尤其是在无监督学习方面又还不多见,因此不论从理论还是应用的角度,本文的研究实践都具有一定的参考价值。1、关键字残支持向量、聚类分析、主成分分析,j 1T i t l e :M e t h o d sB a s e do nS V sa n dK e r n e l :R e s e a r c ha n dA p p l i c a t i o nM a jo r :C o m p u t e r

4、S o f t w a r ea n dT h e o r yN a m e :R u i h u aP e n gS u p e r v i s o r :P r o f L e iL iA b s t r a c tW i t ht h ei n c r e a s i n go fi n f o r m a t i o n ,s i z eo ft h ed a t a b a s ei se x t e n d i n gc o n s t a n t l y ,a n dD a t a M i n i n gb e c o m e sr e s e a r c hh o t s p

5、o t C l u s t e r i n gm e t h o d ,w h i c hi so n en o n s u p e r v i s o r yl e a r n i n gm e t h o d b e c o m e so n ei m p o r t a n tr e s e a r c hd i r e c t i o no fD a t a M i n i n g T h i sp a p e ri si n t e n d e dt oe n h a n c ep r e c i s i o no fc l u s t e r i n gb yS V Ma n dK

6、 e r n e lm e t h o d s C o m p a r e dt ot r a d i t i o n a lc l u s t e r i n gm e t h o d ,t h eS V b a s e dC l u s t e r i n gh a si t sn o v e l t y , i n v o l v e ds o m en e wa p p r o a c h e si nd a t aa n a l y s i sa n dm a c h i n el e a r n i n g ,s u c ha sS V M si m p l e m e n t i

7、 n gt h eS t m c t u r a lR i s kM i n i m i z a t i o n ( S R M ) P r i n c i p l ea n dK e m e im e t h o d s I nt h ep a p e r 、i t sb a s i cc h a r a c t e r i s t i c sa n du t i l i t i e sa r ep r e s e n t e di ne x p e r i m e n ta n ds o m ea p p l i c a t i o n s ,a tt h es a m et i m ei

8、 t ss o m es h o r t c o m i n g sa r ea l s oa d d r e s s e da n di m p r o v e d ,f o ri n s t a n c e ,e x p l a i n a b i l i t yo nt h e o r ya n ds t a b i l i t yo fc l u s t e r i n g O nt h eo t h e rh a n d ,o n ec o n e e i v et h a tb yu s i n gn o n l i n e a rK e r n e lP r i n c i p

9、a lC o m p o n e n tA n a l y s i st or e d u c ed i m e n s i o n s ,c l u s t e r i n gm o d e lc a nb ec o n s t r u c t e db a s e do nv i s u a l i z a t i o na n dh u m a n - m a c h i n ei n t e r a c t i o n , i sp r o p o s e d S t u d ya n da n a l y s i so nt h ee i g e n v a l u e so fk

10、e r n e lm a t r i xa r ep e r f o r m e di no r d e rt oe s t i m a t et h en u m b e ro fc l u s t e r si r d a e r e n tw i t h i nt h ed a t at og u i d ec o n s e q u e n tc l u s t e r i n g ,a sa v o i d su s i n gc o s t l yc r o s s v a ! 【i d a t i o ni nm o d e ls e l e c t i o n W h a t

11、sm o r e a nh i e r a r c h i c a l 疗a l n eb a s e do nt h ec l u s t e r i n gc o n n o t a t i o ni sp r e s e n t e dt os o l v es u p e r v i s o r yl e a r n i n gp r o b l e m s ,w h i c hf i r s tp a r t i t i o n ss a m p l e ss e ti n t oaf e ws u b s e t sa c c o r d i n gt os o m ei n t

12、e m a la t t r i b u t e sa n dt h e np e r f o r m sa n a l y s i si nt h e s es u b s e t s o n eo fw h i c han e ws a m p l ew i l lb ec l a s s i f i e di n t o a n dt h e ns o l v e dl o c a l l y E x p e r i m e n t a lr e s u l t ss h o wt h a tm e t h o d sb a s e do nS V sa n dk e r n e lp

13、o s s e s ss o m ea d v a n t a g e si nd a t aa n a l y s i sa p p l i c a t i o n s ,e s p e c i a l l yi nd e a l i n gw i t hn o n l i n e a rp r o b l e m s W h a ts h o u l db ec o m p l e m e n t e d s i n c em e t h o d si n v o l v e di nt h ep a p e ra r ei u s tp a i dm o r ea n dm o r ea

14、 t t e n t i o nb yr e s e a r c h e r si nt h ed o m a l no fm a c h i n el e a r n i n ga n dn o n l i n e a rp r o b l e m sr e s e a r c h ,a n dr e l a t e da p p l i c a t i o n s ,e s p e c i a l l yi nu n s u p e r v i s e dm a c h i n e e a r n i n g ,a r en o ts e e no f t e n ,s oe v e nf

15、 r o mt h ep o i n to n l y , t h es t u d yi nt h ep a p e ra l s od e s e r v e sr e f e r e n c e K e yW o r d sK e m e lS VC l u s t e r i n gA n a l y s i sP C AI I1 1 研究背景介绍第1 章引言随着数字时代的来临,信息总量的急剧膨胀,而数据存储的成本又极为低下,使得数据库应用的规模、范围和深度不断扩大,已经从点( 单台机器) 发展到面( 网络) ,甚至到I n t e m e t 全球信息系统,导致无论是商业企业、科研机

16、构或是政府部门,在过去若干年的时间里都积累了海量的、以不同形式存储的数据资料。由于这些资料十分繁杂,仅仅依靠数据库的查询检索机制和传统的统计学方法已经远远不能满足现实需要了;另外,随着数据量及其内在结构复杂性的与日俱增,过去主要依靠手工劳动的数据分析方式也显得越来越不现实,它迫切要求能自动地和智能地将待处理的数据转化为有用的信息和知识【1 1 ,也就是从大量的数据中发掘出有用的规律和知识,找出潜在的模式( 一般的或异常的,描述型的或依赖型的等等) 及企业经营者可能忽视的信息,并以便于理解和观察的形式反映给用户,从而达到为决策服务的目的。数据挖掘正是为迎合这种需要而产生并迅速发展起来的用于开发信息资源的一种新的数据处理技术。目前比较公认的定义是W J F r a w l e y , G P i a t e t s k y - S h a p i r o l 2 1 等人提出的:数据挖掘( D a t aM i n i n g ,D M ) 就是 从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号