基于人工免疫算法的web文本挖掘研究

上传人:E**** 文档编号:118219870 上传时间:2019-12-11 格式:PDF 页数:67 大小:2.17MB
返回 下载 相关 举报
基于人工免疫算法的web文本挖掘研究_第1页
第1页 / 共67页
基于人工免疫算法的web文本挖掘研究_第2页
第2页 / 共67页
基于人工免疫算法的web文本挖掘研究_第3页
第3页 / 共67页
基于人工免疫算法的web文本挖掘研究_第4页
第4页 / 共67页
基于人工免疫算法的web文本挖掘研究_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《基于人工免疫算法的web文本挖掘研究》由会员分享,可在线阅读,更多相关《基于人工免疫算法的web文本挖掘研究(67页珍藏版)》请在金锄头文库上搜索。

1、工学硕士学位论文 密级: 编号: 基于人工免疫算法的W e b 文本挖掘研究 硕士研究生: 指导教师 : 学位级别 : 学科、专业 : 所在单位 : 论文提交日期: 论文答辩日期: 学位授予单位: 尹丽玲 印桂生教授 工学硕士 计算机应用技术 计算机科学与技术学院 2 0l O 年1 月 2 0 10 年3 月 哈尔滨工程大学 - - ,r C l a s s i f i e dI n d e x : U D C : AD i s s e r t a t i o nf o rt h eD e g r e eo f M E n g R e s e a r c ho nW e bT e x tM

2、i n i n g B a s e do nA r t i f i c i a lI m m u n e A l g o r i t h m C a n d i d a t e :Y i nL i l i n g S u p e r v i s o r :P r o f Y i nG u i s h e n g A c a d e m i cD e g r e eA p p l i e df o r :M a s t e ro fE n g i n e e r i n g S p e c i a l i t y :C o m p u t e rA p p l i e dT e c h n o

3、l o g y D a t eo f S u b m i s s i o n - J a n u a r y ,2 0 1 0 D a t eo fO r a lE x a m i n a t i o n :M a r c h ,2 0lO U n i v e r s i t y :H a r b i nE n g i n e e r i n gU n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中己注明引用的内容外, 本论文

4、不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 。 作者( 签字) 尹砌 日期:1 刀ID 年月l3 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合

5、学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。1 涉密学位论文待解密后适用本声明。 本论文( 囵在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 储c :护峻 日期:v l o 年月l 泊 新c 签- 7 ,:恍 导师( 签) :、陟州 枷,驴年月,厂日 , 一 哈尔滨丁稃大学硕十学仲论文 摘要 随着上世纪9 0 年代初信息化社会的到来,网络已经变得越来越普及,它 已经成为了人们获取各类数据的有效手段和方法。那么如何从海量的文本数 据中找到人们所需的信息就成为了亟待解决的问题。文本挖掘研究由此应运 而生。文本聚类

6、是文本挖掘领域中一个重要分支,研究它有着重要而深远的 意义。 本文先是通过结合了改进的人工免疫算法去解决K M e a n s 算法初始聚类 中心敏感的问题,使得其聚类中心更加的合理以便得到更优的聚类结果。这 是第一个阶段,目的是得到优化的初始聚类中心。第二阶段利用了D eC a s t r o 于2 0 0 2 年提出的a i N e t 网络模型对已经具有相对优化的中心的W e b 文本进行 聚类。 本文首先阐述了W e b 文本聚类的国内外研究现状和现存的问题,然后介 绍了文本聚类的相关过程,从预处理,文本模型表示,到常用的聚类算法, 并对这些聚类算法的优缺点进行了评析。文中分析了传统人

7、工免疫算法存在 的问题,提出最佳策略对三个人工免疫遗传算子进行改造来加快算法的收敛 速度,保证后代的最优性。最后改进了用于聚类的a i N e t 网络模型中亲和度 的计算方法,对变异过程进行了部分控制,克服了其用于度量高维文本聚类 相似度不精准的缺点。 实验结果表明,本文中改进的算法有较好的动态适应性,并且改善了聚 类的质量。 关键字:W e b 文本聚类;K M e a n s ;人工免疫算法;最佳策略;a i N e t 模型 哈尔滨下程大学硕十学仲论文 A bs t r a c t W i t ht h ec o m i n go fi n f o r m a t i o ns o c

8、 i e t yi n19 9 0 s ,t h en e t w o r kh a sb e c o m e i n c r e a s i n g l yp o p u l a rw h i c hp r o v i d e se f f e c t i v em e a n sa n dm e t h o d sf o ra c c e s s i n g a l lk i n d so fi n f o r m a t i o n S oh o wt of i n dt h ei n f o r m a t i o nf r o mg r e a td e a lo ft e x t

9、J d a t ai sam o s tu r g e n tp r o b l e mt ob es o l v e d T h u s ,r e s e a r c ho ft e x tm i n i n gc a m e , i n t ob e i n g T e x tc l u s t e r i n gi sa ni m p o r t a n tb r a n c ho ft h ef i e l do ft e x tm i n i n g , w h i c hh a si m p o r t a n ta n df a r - r e a c h i n gs i g

10、n i f i c a n c e T h i sa r t i c l ef i r s ts o l v e dt h ep r o b l e mo fK - M e a n sa l g o r i t h mw h i c hi ss e n s i t i v e t oi n i t i a lc e n t e r sc o m b i n i n gw i t hi m p r o v e da r t i f i c i a li m m u n ea l g o r i t h mS Oa st o m a k ec l u s t e rc e n t e r sm o

11、 r er e a s o n a b l ea n do b t a i ni d e a lc l u s t e r i n gr e s u l t s T h i si s t h ef i r s ts t a g ew h i c ha i mt oo b t a i no p t i m i z e di n i t i a lc l u s t e r i n gc e n t e r s U t i l i z i n g a i N e tM o d e lw h i c hi sp r o p o s e df r o mD eC a s t r oi n2 0 0 2

12、t oc l u s t e rt h eW e bt e x t s b a s e do nt h er e l a t i v e l yo p t i m i z e di n i t i a lc e n t e r si nt h es e c o n ds t a g e T h i sa r t i c l ef i r s te l a b o r a t e st h er e s e a r c h i n gs i t u a t i o na n de x i s t i n gp r o b l e m so f W e bc l u s t e r i n gt

13、e x t ,a n dt h e ni n t r o d u c e sr e l a t e dp r o c e s so ft h et e x tc l u s t e r i n g w h i c hi sf r o mp r e - p r o c e s s i n g ,r e p r e s e n t a t i o no ft e x tm o d e lt ot h ec l u s t e r i n g a l g o r i t h mi nc o m m o nU S e ,m e a n w h i l e ,e v a l u a t i n ga n

14、 da n a l y z i n gt h ea d v a n t a g e sa n d d i s a d v a n t a g e s o ft h e s ec l u s t e r i n g a l g o r i t h m s T h ep a p e ra n a l y z e st h ep r e s e n t p r o b l e m so ft r a d i t i o n a l a r t i f i c i a li m m u n ea l g o r i t h m ,p u t t i n gf o r w a r dt h eb e s

15、 t , s t r a t e g i e st oi m p r o v et h et h r e eg e n e t i co p e r a t o r st oa c c e l e r a t et h ec o n v e r g e n c e I - s p e e do ft h ea l g o r i t h m a n de n s u r i n gt h e o p t i m a l i t yo fg e n e r a t i o n s E v e n t u a l l y a i N e tm o d e l w h i c hi su t i l

16、 i z e dt oc l u s t e ri s i m p r o v e d t oo v e r c o m et h e d i s a d v a n t a g e so fl o wa c c u r a c yf o rc a l c u l a t i n ga f f i n i t yo fh i g h d i m e n t i o nt e x t c l u s t e r i n g T h er e s u l t so ft h ee x p e r i m e n ti n d i c a t e d st h a tt h ei m p r o v e da l g o r i t h mh a s ,一 , 哈尔滨T 稃大学硕+ 学位论文 r e l a t i v e l yb e t t e rd y n a m i ca d a p t i o na n da m e l i o r a t et h eq u a l i t yo fc l u

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号