基于支持向量机的文本分类系统研究

上传人:E**** 文档编号:118457719 上传时间:2019-12-15 格式:PDF 页数:71 大小:3MB
返回 下载 相关 举报
基于支持向量机的文本分类系统研究_第1页
第1页 / 共71页
基于支持向量机的文本分类系统研究_第2页
第2页 / 共71页
基于支持向量机的文本分类系统研究_第3页
第3页 / 共71页
基于支持向量机的文本分类系统研究_第4页
第4页 / 共71页
基于支持向量机的文本分类系统研究_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《基于支持向量机的文本分类系统研究》由会员分享,可在线阅读,更多相关《基于支持向量机的文本分类系统研究(71页珍藏版)》请在金锄头文库上搜索。

1、同济大学软件学院 硕士学位论文 基于支持向量机的文本分类系统研究 姓名:孙莹 申请学位级别:硕士 专业:软件工程 指导教师:张晨曦;刘依 20090701 摘要 摘要 随着I n t e r n e t 的发展,大量的电子文本信息涌现,如何在这些信息中掌握对 人们有用的信息已成为当前的热点课题。文本自动分类帮助人们解决了这个问 题。自动文本分类是信息处理的主要研究内容,它在文本识别、电子政务、搜 索引擎、信息过滤等领域有着广泛和深入的应用。提高文本分类的准确率对现 实应用具有重要意义。 本文采用支持向量机方法实现文本分类。相比较传统的分类方法,该方法 在求解小样本、非线性、高维空间等问题上表现

2、出了较好的性能。支持向量机 根据结构风险最小化原则,具有全局最优解,根据有限的样本信息在模型的复 杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力并能有效地解决“过 学习”问题。通过研究可知基于支持向量机的分类器具有很好的推广能力和较 好的分类精确性,即使训练样本很少,分类系统也可以达到很高的准确率。 本文介绍了中文文本分类的基本过程和主要技术,如文本的表示及特征提 取等。重点研究支持向量机分类算法及影响其分类效果的因素,通过实验分析 基于不同核函数进行分类的效果,并据此设计了一个多分类支持向量机分类器, 实现了文本分类。文本预处理部分,在特征选择部分结合了文档频率和互信息 算法,有效地去

3、除了它们的缺点。核函数构造的核心是参数的优选,在此采用 了网格搜索法及遗传算法实现核函数参数优选,以期达到最佳分类效果。该系 统的评测结果显示,经过改进的分类系统的分类效果和准确率明显提高。 关键字:文本分类,支持向量机,特征提取,网格搜索,遗传算法 A b s t r a c t A B S T R A C T A g r e a td e a lo fe l e c t r o n i ct e x ti n f o r m a t i o nc o m e sf o r t hw i t ht h ed e v e l o p m e n to f I n t e r a c t H o

4、 wt oo b t a i nu s e f u li n f o r m a t i o nq u i c k l ya n de f f i c i e n t l yb yc o m p u t e rh a s b e c o m eah o t s p o t n es y s t e mo fa u t o m a t i ct e x tc l a s s i f i c a t i o nm a k e si t e a s y A u t o m a t i ct e x tc l a s s i f i c a t i o ni st h ei m p o r t a n

5、 tc o n t e n to fi n f o r m a t i o np r o c e s s i n g ,i ti s u s e di nt h ef i e l do ft e x ti d e n t i f i c a t i o n ,E g o v e m a n c e ,s e a r c he n g i n ea n di n f o r m a t i o n f i l t r a t i o n E l e v a t i n gt h ea c c u r a c yr a t ei sv e r ys i g n i f i c a n tf o r

6、i t sa p p l i c a t i o n s T h i sp a p e rr e a l i z e sas y s t e mo ft e x tc l a s s i f i c a t i o nb a s e do nS u p p o r tV e c t o r M a c h i n e ( S V M ) C o m p a r e dw i t ht r a d i t i o n a lm e t h o do fc l a s s i f i c a t i o n ,S V Ms h o w s m a n ya t t r a c t i v ef e

7、 a t u r e sa n de m p h a t i cp e r f o r m a n c ei nt h ef i e l d so fs m a l ls a m p l e , n o n l i n e a ra n dh i g hd i m e n s i o n a lp a t t e r nr e c o g n i t i o n S V Mi su n d e rt h ep r i n c i p l eo f s t r u c t u r a lr i s km i n i m i z a t i o na n dh a sb e s to v e r

8、a l ls o l v e r B a s e do nt h ei n f o r m a t i o no fs m a l l - s a m p l el e a r n i n g ,S V Ms e a r c h e st h eo p t i m a l s o l u t i o nb e t w e e nt h ec o m p l e x i t ya n dl e a r n i n ga b i l i t yo fm o d e l ,S Oi tC a na c h i e v eb e s t o u t r e a c hc a p a c i t ya

9、n ds o l v et h eo v e r f i t t i n gp r o b l e me f f e c t i v e l y C l a s s i f i e rb a s e do n S V MC a nb ep r o v i d e dw i t hg o o do u t r e a c ha n dh i 曲a c c u r a c yr a t ee v e nw i t hs m a l l s a m p l e T h i sp a p e ri n t r o d u c e st h eb a s i cp r o c e s so fC h i

10、 n e s et e x tc l a s s i f i c a t i o na n d p r i m a r yt e c h n o l o g ys u c ha st e x ti n f o r m a t i o ne x p r e s s i n ga n df e a t u r es e l e c t i o n ,m o s t l y r e f e r st ot h ea l g o r i t h mo fS V M c l a s s i f i e r , a n a l y s e st h ee l e m e n t st h a ti n f

11、 l u e n c er e s u l t a n dc o m p a r e st h ec l a s s i f i c a t i o nr e s u k so fd i f f e r e n tk e r n e lf u n c t i o n s W em a k e sat e x t c a t e g o r i z a t i o ns y s t e mb a s e do nS V Mc o m et r u e ,t h i s c l a s s i f i e rC a l la c h i e v e m u l t i c a t e g o r

12、y c l a s s i f i c a t i o n h 1t h ep a r to ft e x tp r e p r o c e s s i n g w ec o m b i n e D o c u m e n tF r e q u e n c y ( D F ) w i t hI n f o r m a t i o nG a i n ( M I ) t os e l e c tt h ef e a t u r e T h i s m e t h o dC a na v o i dt h ed i s a d v a n t a g e so fD Fa n dM I N o ta

13、 su s u a lm e t h o d ,w eu s e g r i d s e a r c ha n dG A t oo p t i m i z et h ep a r a m e t e r so fk e r n e lf u n c t i o n I nt h ee n dt h e e x p e r i m e n t ss h o wt h a tt h i si m p r o v e ds y s t e mC a na c h i e v et h eb e t t e rr e s u l ta n dh i g h e r a c c u r a c yr a

14、 t e i l A b s t r a c t K e y w o r d s :T e x tC l a s s i f i c a t i o n ;S u p p o r tV e c t o rM a c h i n e ;F e a t u r eS e l e c t i o n ; 酣d s e a r c h ;G A 一1 1 1 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作

15、做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名: 越辱 J 伯月 ,箩 日 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规 定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影 印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目 录检索以及提供本学位论文全文或者部分的阅览服务;学校有权 按有关规定向国家有关部门或者机构送交论文的复印件和电子 版;在不以赢利为目的的前提下,学校可以适当复制论文的部分 或全部内容用于学术活动。 学位论文作者签名

16、:_ 荔 小年,a 月,歹日 j 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名: 学位论文作者签名:强弧, 4 年月曰 叫年心月略日 第1 章绪论 1 1 选题的目的和意义 第1 章绪论 随着计算机技术和通讯技术的飞速发展,特别是I n t e r n e t 的应用和普及,许 多领域都不断产生海量数据,特别是海量的文本数据,如何自动处理大量的数 字化文本成了一项重要的研究课题。传统的信息检索技术和手工进行文本分类 费时、费力。人们开始研究使用计算机对文本进行自动分类。近年来,文本分 类成为信息处理领域的一个很重要的方向。 文本分类不仅方便用户准确定位所需的信息,很大程度上解决了目前网上 信息杂乱问题,而且很好的解决了人工分类周期长、费用高、效率低的缺点, 已成为一项具有较大使用价值的关键技术。目前,文本自动分类已广泛地应用 于电子邮件分类、电子会议、数字图书馆、搜索引擎、信息检索等方面。通过 文本分类技术可以弥补统搜索引擎的不足,过滤用户不需要的文章,并将检索

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号