面向Web文本检索的归一化一分类算法

上传人:豆浆 文档编号:46544542 上传时间:2018-06-27 格式:PDF 页数:82 大小:8.05MB
返回 下载 相关 举报
面向Web文本检索的归一化一分类算法_第1页
第1页 / 共82页
面向Web文本检索的归一化一分类算法_第2页
第2页 / 共82页
面向Web文本检索的归一化一分类算法_第3页
第3页 / 共82页
面向Web文本检索的归一化一分类算法_第4页
第4页 / 共82页
面向Web文本检索的归一化一分类算法_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《面向Web文本检索的归一化一分类算法》由会员分享,可在线阅读,更多相关《面向Web文本检索的归一化一分类算法(82页珍藏版)》请在金锄头文库上搜索。

1、中文摘要摘要信息检索作为互联网应用的重要组成部分,与人们的日常生活密不可分;而作为文本形式的w e b 应用仍然是互联网的主流应用。如何从大量的W e b 文本中更加有效的检索信息,依然是许多科研人员所面临的难题。文本自动分类技术,不仅是自然语言处理领域的一个重要分支,而且是信息检索和数据挖掘的基础和重要组成部分。面对每天数以亿计的互联网W e b 文本页面的更新,针对W e b 信息检索的文本分类技术,不能仅仅考虑分类算法的正确性,还要考虑分类算法的效率。本文从分类的精度和时间性能两方面作为切入点,提出了一种分类精度高,训练和分类时问代价小的归一化向量( N o r m a l i z e

2、dV e c t o r ,简记N L V ) 文本分类算法。本文首先介绍了信息检索和文本分类的背景知识和相关过程,然后对已有的典型特征选择方法和文本分类算法做了较详细描述。通过对已有方法与技术的总结,提出了一种基于矩阵投影( M P ) 运算的特征选择方法和归一化向量( N L V ) 分类算法。M P 方法属于概率模型的特征选择方式,不仅考虑词的文档频率,并且还考虑了词的平均出现频率。对信息增益( I G ) 、卡方校验( C H I ) 、文档频率( D F ) 、互信息( M I )和矩阵投影( M P ) 特征选择做了对比分析;并且采用多种分类算法验证M P 特征选择方式是可行有效的

3、。N L V 分类算法通过压缩运算将高维的单类别向量空间压缩成低维的归一化向量,并通过归一化函数( 方根型或对数型) 对归一化向量的特征权重进行调整,较好地训练出分类模型。本文分别采用三套不同平衡性和语种的较大规模W 曲文本型语料库( 2 0 _ N e w g r o u p s 、T a n C o r p V l 0 、S o g o u C ) ,五种特征选择方法( D F 、C H I 、I G 、M I 、M P ) 和四种分类算法( k N N 、M B N B 、M N N B 、S V M ) 做了大量而全面的对比实验来验证N L V 算法的实用性和高效性。N L V 算法训

4、练和分类速度是五种算法中最快的,分类精度在中文语料库上略低于S V M ,但是速度方面与S V M 相比占有绝对优势;而在2 0语料库上算法能够取得最优的分类精度和时间N e w g r o u p sN L V性能。关键字:信息检索,文本分类,特征选择,矩阵投影,归一化向量A B S T R A C TI n t o r m a t i o nr e t r i e v a l ,a sa ni m p o r t a n tp a r to fI n t e m e ta p p l i c a t i o n s ,e x t r e m e l yh e l p st op e o p

5、 l e Sd a i l yl i v e s ,a n dw e ba p p l i c a t i o n si nf o r mo ft e x td o c u m e n t sr e m a i nt h em a i n s t r e a mo fI n t e m e ta p p l i c a t i o n s S oi ti ss t i l lak e yp r o b l e mf o rr e s e a r c h e r st h a th o wt oo b t a i nu s e f u li n f o r m a t i o nf r o ml

6、 a r g en u m b e ro ft e x t so nw e b T h et e c h n 0 1 0 9 vo fa u t o m a t i ct e x tc l a s s i f i c a t i o ni sn o to n l ya ni m p o r t a n tb r a n c ho fn 棚1l a n g u a g ep r o c e s s m g ,b u ta l s ot h ei m p o r t a n tb a s i so fi n f o r m a t i o nr e t r i e v a la n dd a t

7、am i n i n g E v e r yd a y ,h u n d r e d so fm i l l i o n so ft e x tp a g e so nw e ba r eu p d a t e d ,s o ,t h ea u t o m a t i ct e x tc l a s s i f i c a t i o nt e c h n o l o g yu s e df o rw e bi n f o r m a t i o nr e t r i e v a l ,n o to n l yn e e dc o n s i d e ra c c u r a c yo ft

8、h ec l a s s i f i c a t i o na l g o r i t h m ,b u ta l s oc a r ee f f i c i e n c yi nt i m e F o rt h i s t | L i sp a p e rp r o p o s e san e wc l a s s i f i c a t i o na l g o r i t h mw i t hh i g ha c c u r a c ya n dl o wt i m ec o s t c a l l e dn o r m a l i z e dv e c t o rc l a s s i

9、 f i c a t i o na l g o r i t h m 烈Wf o rs h o r t ) Ih i sp a p e r , f i r s t l y , i n t r o d u c e ss o m eb a c k g r o u n dk n o w l e d g ea b o u ti n f b n n a t i o nr e t r i e v a la n dt e x tc l a s s i f i c a t i o n ,a n dt h ed e t a i lw o r k f l o wo fc l a s s i f i c a t i

10、o np r o c e s s i n g a n dt h e ns e t so u ts e v e r a lt y p i c a lf e a t u r es e l e c t i o nm e t h o d sa n ds e v e r a lc l a s s i ct e x tc l a s s i f i c a t i o nm e t h o d sw i t ht h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s B a s e do ns u m m a 五e so fe x i s t i

11、 n gm e t h o d sa n dt e c h n o l o g i e s ,t h i sp a p e rp r e s e n t san e wf e a t u r es e l e c t i o nm e t h o db a s e do nm a t r i xp r o je c t i o n ( M P , f o rs h o r t ) ,a n dan e wc l a s s i f i c a t i o na l g o r i t h m ( N L V ) I na c t u a l ,M Pf e a t u r es e l e c

12、 t i o nm e t h o d ,w h i c hn o to n l ys t a t i s t i c st h et i m e sat e r ma p p e a r si nh o wm a n yt e x t si na l l ,b u ta l s oc o u n t st h ea v e r a g ef r e q u e n c yo c c u r si na l lt e x t s ,b e l o n g st ot h em e t h o d sb a s e do np r o b a b i l i s t i cm o d e l I

13、 no r d e rt ov e r i f yu t i l i t vo f M Pf e a t u r es e l e c t i o n ,t h i sp a p e rh a sd o n es o m ew e l l d e s i g n e de x p e r i m e n t s w h i c hc o m p a r eM Pt o4c o n q l T l O nu s e df e a t u r es e l e c t i o nm e t h o d sw h i c hi n c l u d e sI GC H I D F a n dM I ,

14、a n da p p l yM Pt os e v e r a lt y p i c a lc l a s s i f i c a t i o na l g o r i t h m s N L Vc l a s s i f i c a t i o na l g o r i t h mi sb a s e do nm a t r i xo p e r a t i o n ,w h i c hp r o j e c t sh i g h e r - d i m e n s i o n a lf e a t u r es p a c eo ft r a i n i n gs a m p l e so

15、 n t ol o w e r d i m e n s i o n a lf e a t u r es p a c ea n do b t a i n san o r m a l i z e df e a t u r ev e c t o rt h r o u g has p e c i f i cn o r m a l i z e df u n c t i o n a c h i e v e st h ea i m so fr e d u c t i o ni nf e a t u r ed i m e n s i o n sa n da c c u r a t ec o m p u t a

16、 t i o no f f e a t u r et e r mw e i g h t s T ov e r i f yu t i l i t yo fN L Vc l a s s i f i c a t i o na l g o r i t h m ,t h i sp a p e rh a sd o n ee n o u g hw e l l - d e s i g n e de x p e r i m e n t s ,w h i c ht a k et h r e ed i f f e r e n tc o r p u s ,t h e va r e2 0 _ N e w g r o u p s ,T a n C o r p V1 0a n dS o g o u C ,a n df i v ef e a t u r es e l e c t i o nm e t h o d s t h e va r eD r , C H I ,I G , M Ia n dM P , a n df o u rc l a s s i f i c a t

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号