基于Lucene的全文搜索引擎设计说明

上传人:l**** 文档编号:128447501 上传时间:2020-04-21 格式:DOCX 页数:40 大小:419.50KB
返回 下载 相关 举报
基于Lucene的全文搜索引擎设计说明_第1页
第1页 / 共40页
基于Lucene的全文搜索引擎设计说明_第2页
第2页 / 共40页
基于Lucene的全文搜索引擎设计说明_第3页
第3页 / 共40页
基于Lucene的全文搜索引擎设计说明_第4页
第4页 / 共40页
基于Lucene的全文搜索引擎设计说明_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《基于Lucene的全文搜索引擎设计说明》由会员分享,可在线阅读,更多相关《基于Lucene的全文搜索引擎设计说明(40页珍藏版)》请在金锄头文库上搜索。

1、基于Lucene的搜索引擎作者姓名:王旭 专业班级:2010050704 指导教师:涂德志摘要 从1994年至今,万维网经过了二十年的飞速发展,当前的万维网数据规模到底有多大无从估量。随着网络信息资源的急剧增长,现如今,信息已经不再是一种稀缺的资源,我们的注意力反而变得稀缺了。人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎提供了一种便捷的获取网络信息的途径,只要你能在电脑上打字,那么你就能通过“输入关键字+自行浏览”的用户交互方式快速查找到自己感兴趣的资源。目前Web搜索引擎(Search Engine) 技术正成为计

2、算机科学界和信息产业界争相研究、开发的对象。 搜索引擎是指互联网上一种提供用户查询的一类应用。通过人工目录整理或者是网络爬虫收集互联网上已经存在的网页,在用户输入查询词后,将相关网页迅速展现给用户。用户自行浏览后选择最合适期望的链接,进入查看。关键词:网络信息资源 Web搜索引擎 查询ABSTRACTSince 1994, the World Wide Web after two decades of rapid development, how much the current size of the World Wide Web is incalculable. With the rapi

3、d growth of network information resources, nowadays, the information is no longer a scarce resource, however,our attention became scarce . more and more concerned about how quickly and efficiently from the vast amounts of network information, to extract potentially valuable information to effectivel

4、y play a role in the management and decision-making. Search engines provide a convenient way to obtain network information, as long as you can type on a computer, then you can through the mode: keywords + browse ,to quickly find the resources you are interested. Currently Web search engine (Search E

5、ngine) technology is becoming the target computer science and information industry compete on development.Search engine on the Internet refers to a method of providing a user queries a class of applications. Sorting through artificial catalog or web crawlers to collect Web pages on the Internet alre

6、ady exist, after the user enters the query words, the relevant pages quickly presented to the user. Choose the most appropriate link , browse the desired post into view.Keywords: Network Information Resources Web Search Engine Consult目录第1章 前 言11.1 搜索引擎的学术背景与实际意义11.2 国内外文献综述21.3 课题来源及主要研究内容2第2章 相关技术介

7、绍42.1 JSP与Tomcat42.2 SQL Sever数据库42.3 Ajax简介52.4 Lucene介绍5第3章 搜索引擎原理83.1 搜索引擎体系结构83.2 搜索引擎主要模块功能介绍93.2.1 搜索器 (Crawler)103.2.2 索引器 (Indexer)113.2.3 检索器(Searcher)123.2.4 用户接口(UserInterface)12第4章 系统分析134.1 需求分析134.2 系统可行性分析134.2.1 社会可行性分析134.2.2 技术可行性分析144.2.3 经济可行性分析14第5章 总体设计155.1 系统构架155.1.1 索引建立子系统

8、165.1.2 用户接口子系统165.2 数据库设计165.3 实现环境配置18第6章 详细设计196.1 建立索引196.2 文件搜索实现196.3 数据库搜索实现216.4 后台数据编辑实现22第7章 系统测试247.1 测试重要性247.2 测试用例25结 论27致 谢28参考文献29第1章 前 言1.1 搜索引擎的学术背景与实际意义万维网是互联网最主要的组成部分,也是人们获取网络信息的最主要的来源。1994年,蒂姆伯纳斯李创立万维网联盟(World Wide Web Consortium,http:/www.w3.org),在万维网的整体构架中,通用资源标识符、超文本标记语言和超文本传

9、输协议这三个元素是万维网的核心,缺一不可。再随后的几十年当中,由于万维网的开放性和其上信息广泛的可访问性,不出意料的成为了互联网的霸主。目前,是以网页为主的互联网时代,以Web网页为对象的搜索引擎检索系统相继产生了,搜索引擎成为人们上网找寻信息的重要手段,搜索引擎的产生,使得人们能够快速的从互联网找到与自己需求相关的网页链接。人工智能、数据挖掘的进一步研究以及现在网页的特性使得搜索引擎技术进一步发展,在搜索后,甚至还有意料之外的收获。2008年,Google在其官方博客上称,仅其页面搜索量就已经高达1万亿个网页,而且现在互联网上的网页数每天都有数以万计的数量增长。Yahoo是出现最早的目录式搜

10、索引擎, 全文搜索引擎Google的出现得到了广大网民的认可,并迅速占领了全球市场,到现今国内的如Baidu、新浪爱问、腾讯搜搜、Sogou等,搜索引擎的品牌愈来愈多,服务也越来越丰富。同时,伴随着Web2.0的普及,网络信息的膨胀速度呈指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要键入全文检索的功能。目前,搜索引擎已经不仅仅是采集网页中已经存在的信息并提供给用户访问的工具,它正朝着组建一个大的社区方向发展。Google是目前不可争议的第一大搜索引擎,在这个社区里你可以浏览新闻、

11、地图查看、浏览新闻、收发邮件、翻译你想要翻译的外文文献以及搜索你想要浏览的网页等等。另外,如大家比较熟悉的百度,相继开发的百度百科、百度知道、百度贴吧、百度文库等一系列的社区功能,也吸引了大量用户。搜索引擎构建的社区正在慢慢的融入人们的生活与学习。1.2 国内外文献综述搜索引擎,又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具,实质上是一种网页网址检索系统。根据查询方式的不同,搜索引擎也有不同的分类,它们有的提供分类和关键词检索途径,有的仅提供关键词检索途径。提供关键词检索是通过主要由Crawler、Spider、Worm、Robot等计算机软件程序不停地、尽可能广的在

12、互联网上漫游,搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它没有不停的为收集信息而工作的“网络蜘蛛”,而是由专业人员谨慎地选择网站的首页,并将其放入自己网站相应的分类类目中,因此,这种模式下,大多数的网页是不能被访问到的。网络目录中的分类网站是人工整理的,网页质量高,但其跟新速度慢,有限的覆盖范围使得用户还是跟倾向与使用后者。到目前,成功的搜索引擎系统也很多,如Yahoo,Google,baidu等。从最开始的人工目录分类,到关键词检索,全文检索,搜索引擎的发展。搜索引擎能够实现

13、的功能也多样化。除了传统的从互联网上收集网页信息,各大引擎还加入了自己独特的功能。包括如Google翻译,地图,百度文库,百度贴吧等。除了各大搜索引擎大佬,还有众多的搜索引擎活跃在互联网舞台上。目前,搜索引擎市场上流行的是不分用户对象的搜索引擎,独辟蹊径,开发针对特殊群体的搜索引擎,近几年也笼络了不少的用户。如针对儿童的美国ASK网站网站编辑团队组织开发的。同样的,也有面向老人的,病人的一系列的搜索引擎。1.3 课题来源及主要研究内容课题来自于指导老师意见,几经思考,最终由本人自拟。到现在,B/S结构的应用已经占据了软件开发中的大半江山,从大一学C+,到QT“退伍”,再到学习Java Web开

14、发,通过几年的努力,基本掌握了Web开发技术。同时,对于互联网上大量页面的检索及结果排序也产生了浓厚的兴趣。此次课题类型为应用软件开发,一个基于Lucene全文检索引擎工具包的搜索引擎。根据自己在校期间多次实践开发经验,采用MyEclipse集成开发环境,SQL Sever2005数据库。它具有以下特点:支持桌面文件搜索,格式包括txt、doc、xls和ppt;支持分词查询;支持全文搜索;能够高亮显示搜索关键字;显示查询所用的时间;显示搜索历史、过滤关键字。第2章 相关技术介绍2.1 JSP与Tomcat HTMl页面时静态页面,写好后,由浏览器执行。HTML语法不支持动态显示,及在HTMl页

15、面中,不能访问数据库和对数据加工处理。随着网页类型的多元化,现如今,单纯的静态网页已经不能满足用户的需求。HTML不能处理访问数据库数据,Java代码却能访问数据库。在HTML代码中混入Java代码的一种技术就是JSP(Java Sever Pages)。JSP页面的Java代码在服务器端执行,执行生成HTML页面返回给客户端。因此,在一个采用JSP技术的项目中,服务器的选择也是必须的。Tomcat是Sun的JSWDK(Java Server Web Development Kit)中的Servlet容器,由Apache、Sun和其他一些公司和个人共同开发而成。Tomcat既是一个开放源码、免费支持JSP和Servlet技术的容器,同时又是一个Web服务器软件,受到了Sun公司的大力推荐和支持。因此,Servlet和JSP的最新规范都可以在Tomcat的新版本中得到实现。Tomcat是一个小型的轻量级应用服务器,运行时占用系统资源少、扩展性好、支持负载平衡与邮件服务器等开发应用系统中的常用功能,并且不断改进和改善。先进的技术、稳定的性能、源码开放和免费获取的机制,使得Tomcat深受Java爱好者的喜爱

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号