专业搜索引擎中文件服务系统设计与实现

上传人:206****923 文档编号:47303793 上传时间:2018-07-01 格式:PDF 页数:58 大小:1.58MB
返回 下载 相关 举报
专业搜索引擎中文件服务系统设计与实现_第1页
第1页 / 共58页
专业搜索引擎中文件服务系统设计与实现_第2页
第2页 / 共58页
专业搜索引擎中文件服务系统设计与实现_第3页
第3页 / 共58页
专业搜索引擎中文件服务系统设计与实现_第4页
第4页 / 共58页
专业搜索引擎中文件服务系统设计与实现_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《专业搜索引擎中文件服务系统设计与实现》由会员分享,可在线阅读,更多相关《专业搜索引擎中文件服务系统设计与实现(58页珍藏版)》请在金锄头文库上搜索。

1、Y8 2 S 窘3 3北京化工大学单位代码:1 0 0 1 0学号:2 口o jD o D 牛哼硕士研究生学位论文题目童些! 墼重! I 鳖主螂旦星务系;屯设汁与实观专业计簿机应用技采研究生壹查鲎指导教师赵恒永日期:Z p D r年1 月弓。日靶索诧工大学硬士磷究生学位论文专业搜索引擎中文件服务系统设计与实现摘要为了满足化工领域专业搜索的需求,我们研究室开发了化工专业搜索引擎。该搜索引擎需要对大量的文件做读写操作,这会消耗大量的系统时间,从而显著降低了搜索弓| 擎的工作效率。因此,有必要开发专用的文件服务系统,为搜索引擎提供高速的文件读写服务。本文设计并实现了化工专业搜索引擎专用的文件服务予系

2、统,该子系统能够响应来自搜索引擎的文件读写请求,从而为搜索引擎提供高速的文件读写服务。该系统采用基于J A V A 平台的分布式对象技术R M I 实现,使用压缩打包的方式对文件进行存储和管理。有效地满足了搜索弓I 擎对文件操作懿需求。该搜索引擎已经实现了对H T M L 文件的解析,但是还需要对网上许多其蚀不慝类型的文佟进行解辑,以实现对这些文 孛的索弓l ,从恧使用户通过使用该搜索引擎能够检索到这些文件资源。本文继续这方面的开发又实现了对E x c e l 文件的孵橱,为对这种类型的文件进行索引创造了条件。以上代码均经过测试,可以稳定运行。文件服务子系统的实现对化工专业搜索引擎性熊的提高有

3、着较为明显的作用。而对E x c e l 文件解析的实现则进一步完善了该搜索弓l 擎的文件处理器的文件解析功能。北京化工大学硕士研究生学位论文关键字:文件服务系统,L Z S S 算法,远程方法调用,多线程,文件处理器,E x c e l 文件解析! ! 塞些三查兰堡圭塑塞竺兰壁堡苎T H ED E s l G NA N DI 羹朋阿I E M E N 丑钢o NO FF l L ES E l W I N GS Y 姗MI NP R O F E S S l 0 N A LS E A R C H E RE N G I N EA B S T R A C TI no r d e rt om e e

4、tt h en e e d so fs p e cia lt ys e a r c hinc h e m ic a lf i e l d s ,o u rl a bh a sd e v e l o p e dc h e m i c a ls e a r c h e re n g i n e T h i ss e a r c h e re n g i n en e e d st oal o to fr e a d i n ga n dw r i t i n go p e r a t i o n so ff i l e s I tw a s t e sl o t so fs y s t e mt

5、i m e A n dt h ew o r ke f f i c i e n c yo ft h es e a r c h e re n g i n ew i l lr e d u c er e m a r k a b l y S oi t se s s e n t i a lt od e v e l o pf i l es e r v i n gs y s t e mi no r d e rt op r o v i d eh i g h s p e e df i l er e a d i n ga n dw r i t i n gs e r v i c e T h i sa r t i c

6、l ed e s i g n sa n di m p l e m e n t sf i l es e r v i n gs y s t e mf o rt h ec h e m i c a ls e a r c h e re n g i n e T h i ss y s t e mc a nr e s p o n dt h ef i l er e a d i n ga n dw r i t i n gr e q u e s t sf r o mt h es e a r c h e re n g i n e A n ditp r o v i d e st h es e a r c h e re

7、n g i n eh i g h s p e e df i l er e a d i n ga n dw r i t i n gs e r v i c e s T h i ss y s t e ms t o r e sa n dm a n a g e sf il e sb yu s i n gt h ew a yo fc o m p r e s s i o nb a s e do nR M It e c h n o l o g y I tm e e t st h ed e m a n d so ft h es e a r c h e re n g i n ef o rf i1 eo p e r

8、 a t i o n se f f i C i e n t l yT h i ss e a r c h e re n g i n eh a sr e a liz o d t h ep a r s e ro f H T M Ld o c u m e n t s 。B u tt h e r ea r el o t so fo t h e rf i l et y p e sw h i c hn e e dt op a r s ei no r d e rt h a tt h es e a r c h e re n g i n ec a ni n d e xt h e ma n do r d i n a

9、 r yu s e r sc a nf i n dt h e s et y p e sf i l e sf r o mI n t e r n e tb yu s i n go u rs e a r c h e re n g i n e T h i sa r t i c l ea l s oh a sr e a l i z e dt h ep a r s e ro fE x c e ld o c u m e n t s S oi th a sp r o v i d e dt h ec o n d i ti o n sf o ri n d e x i n gt h e m T h ep r o g

10、 r a ma b o v eh a sp a s s e dt h et e s t S oi tc a nr u ns t a b l yF i l es e r v i n gs y s t e me l e v a t et h ec a p a b i l i t yo ft h es e a r c h e re n g i n er e m a r k a b l y 。A n dt h ep a r s e rf o rE x c e ld o c u m e n t sc o n s u m m a t e st h ef u n c t i o no ft h ef i l

11、 ep r o c e s s o ro ft h es e a r c h e re n g i n ee f f i c i e n t l yK e y w o r d s :F i l eS e r v i n gS y s t e m ,L Z S S ,R e m o t eM e t h o dI n v o c a t i o n ,M u l t i t h r e a d i n g ,F i l eP r o c e s s o r ,E x c e ld o c u m e n t sD a r S e4北京化工大学碗士研究生学位论文符号说明H T M L :H y p

12、 e rT e x tM a r k U pL a n g u a g e ,超文本标记语言X M L :E x t e n s i b l eM a r k u pL a n g u a g e ,扩展标记语言F T P :F il eT r a n s f e rP r o t o c o l ,文件传输协议R P C :R e m o t eP r o c e d u r eC a l1 ,远程过程调用R M I :R e m o t eM e t h o dI n v o c a t i o n ,远程方法调用N e t B I O S :N e t w o r kB a s i cI

13、 n p u t O u t p u tS y s t e m ,网络基本输入输出系统S M B C I F S :S e r v e rM e s s a g eB l o c k C o m m o nI n t e r n e tF i l eS h a r e ,服务器信息块通用因特网文件共零协议C O M :C o m p o n e n tO b j e c tM o d e l ,组件式对象模型D C O M :D i s t r i b u t eC o m p o n e n tO b j e c tM o d e l ,分布式组件对象模型C O R B A :C o m m

14、 o nO b j e c tR e q u e s tB r o k e rA r c h it e c t u r e ,通用对象请求代理体系结构L R U :L e a s tR e c e n t l yU s e d ,最近最久未使用算法0 M G :O b j e c tM a n a g e m e n tG r o u p ,j ( 雩象管理组北京化工大学 学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,

15、均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:屠志嶂2 0 b j 年习;。日北京化工大学硕士研究生学位论文第一章绪论1 1 课题背景1 ,1 1 搜索S l 擎简介搜索弓| 繁( S e a r c hE n g i n e ) 是陡羲W E B 信息鲍逐速增加,从1 9 9 5 年开始逐渐发展起来的技术。据发表在科学杂志1 9 9 9 年7 月的文章W E B 信息的可访问性估计,全球目前的网页超过8 亿,有效数据超过9 T ,并且仍以每4 个莠翻一番豹速度增长。阁户要在如此浩瀚的信患海洋墨寻找信息,必然会象大海捞针一样无功而返。搜索引擎正是为了解决

16、这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信患,对信息避行理解、提取、缀织相处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因丽成为计算机工业界和学术箨争相研究、开发的对象。按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类I n :( 1 ) 目录式搜索弓l 擎:以人工方式或半自动方式搜集信患,由编辑员查器信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录测览服务和直接检索服务。这类搜索引擎的代表是:Y a h o o 、L o o k S m a r t ,O p e nD i r e c t o r y 、G oG u i d e 等。( 2 ) 机器人搜索引擎:由一个称为蜘蛛( S p i d e r ) 的机器人程序以某种策略自动地在互联网中搜集和发现信息,出索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索弓

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号