JAVA面向主题的搜索引擎

上传人:pu****.1 文档编号:505521911 上传时间:2023-04-04 格式:DOC 页数:56 大小:1.15MB
返回 下载 相关 举报
JAVA面向主题的搜索引擎_第1页
第1页 / 共56页
JAVA面向主题的搜索引擎_第2页
第2页 / 共56页
JAVA面向主题的搜索引擎_第3页
第3页 / 共56页
JAVA面向主题的搜索引擎_第4页
第4页 / 共56页
JAVA面向主题的搜索引擎_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《JAVA面向主题的搜索引擎》由会员分享,可在线阅读,更多相关《JAVA面向主题的搜索引擎(56页珍藏版)》请在金锄头文库上搜索。

1、中文摘要由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询请求。相比之下,面向主题的搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此能满足用户对快速、准确的获取信息资源的要求。本文首先介绍了面向主题搜索引擎系统开发的背景及意义,分析了系统开发的可行性,并对系统开发过程中所涉及到的相关理论知识进行简要的介绍,然后进行需求分析、总体设计和详细设计,得到系统所要实现的主要功能,绘制出系统的功能模块图并用程序流程图描述系统的各个模块的处理过

2、程,而后进行系统的实现。本系统实现了管理员登录系统,添加关键词,发现主题资源信息,下载主题资源,用户检索等功能。由于本系统在下载网页时资源较少,因此用户检索出的结果较少。关键词:搜索引擎;Nutch;Tomcat;Cygwin26Subject-Oriented Search EnginesAuthor: ZhaoBei Tutor: XunYalingAbstractAs a result of massive information of web is in change constantly, the search engines has been difficult to provid

3、e users with a high-quality, comprehensive and timely information to update the search service, its limitations in that it attempts to index all the web information and services to all the theme query request. In contrast, subject-oriented search engines only cover a specific theme and web-related a

4、reas, so that it can be a deeper search, search the cycle can be shorter, so they can meet the fast and accurate access to information resources of the users requirements. This paper first introduces developments background and significance of subject-oriented search engines system, feasibility of t

5、he analysis ,development of systems and the brief introduction to the theoretical knowledge relevant of systems involved in the process of developing, followed by needs analysis, design and detailed design, in order to achieve the main function the system , drawn the map of function of the system mo

6、dules and system process flow chart to describe the process of each module, and then the realization of the system.This system realized the manager to register the system, the increase key word, the discovery of subject resources information, the downloading subject resources, and user retrieval fun

7、ctions so on. Because this system when downloads the homepage the resources are few,so the user retrieves the result are few.Keywords: search engines; Nutch; Tomcat; Cygwin目 录第一章 系统概述11.1 系统开发背景11.2 系统开发意义11.3 可行性研究11.3.1 技术可行性21.3.2 经济可行性21.3.3 操作可行性21.3.4 可行性研究结论2第二章 系统技术简介32.1 Nutch简介32.2 Tomcat简

8、介32.3 Cygwin简介42.4 JSP简介42.5 Java简介52.6 Dreamweaver简介6第三章 需求分析73.1 信息需求73.2 处理需求73.3 系统数据流图83.4 数据字典93.4.1 数据流字典93.4.2 加工处理数据字典103.4.3 数据项数据字典113.4.4 数据存储字典11第四章 总体设计124.1 系统功能模块图124.2 系统E-R图124.3 数据库设计14第五章 详细设计155.1 管理员处理的程序流程图155.2 获取主题资源的程序流程图155.3 提取网页文本内容程序流程图165.4 对文本进行分词和过滤程序流程图165.5 网页索引程序流

9、程图175.6 用户检索程序流程图17第六章 编码实现186.1 管理员登录186.2 关键词管理196.3 面向主题资源的发现206.4 待下载URL列表管理226.5 面向主题资源的下载236.6 用户检索功能286.7 数据库的创建29第七章 测试317.1 确定测试方法的原则317.1.1 黑盒测试317.1.2 白盒测试317.1.3 本系统选择的测试方法317.2 测试的目标317.3 测试项目317.3.1 系统管理员登录的测试317.3.2 关键词管理的测试327.3.3 待下载URL列表管理的测试33结束语35致谢36参考文献37附录38第一章 系统概述1.1系统开发背景搜索

10、引擎在我们的日常生活中起到越来越重要的作用,“百度一下,你就知道”这句话被广大网民所熟知。随着因特网的迅猛发展、Web信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 目前搜索引擎领域的商业开发非常活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的产业之一。随着互联网的发展,通用搜索引擎的结构越来越复杂。通用搜索引擎拥有庞大的索引数据和宽泛的主题,但搜索结果越来越无法满足用户对信息

11、精确查找的需求。用户往往需要在检索结果中进一步查找,才能获得感兴趣的信息。互联网需要能够快速、准确查找信息的面向主题的搜索引擎。1.2系统开发意义面向主题的搜索引擎是为了提高互联网特定领域信息搜索的效率而产生的,又叫专题搜索引擎。面向主题的搜索引擎搜集和索引的信息是某一个领域或者面向某一个方面的应用。在我们所熟知的百度、google、雅虎等搜索引擎,都是通用搜索引擎,其求大求全决定了不能满足特定领域、特殊人群的精准化信息需求服务。多元化的人群决定了多元化的信息搜索需求,在引入结构化的网页分析技术后所形成的垂直搜索引擎在互联网中已经并且将继续占有部分市场,是互联网内容细分的必然趋势。本系统能够实

12、现面向主题的Web信息收集与检索功能,专题搜索可以为特定领域用户提供面向主题的搜索功能,能提供快速、准确的主题信息查询,较好的解决了专有信息检索困难的问题。1.3可行性研究可行性研究就是对系统进行全面、概要的分析,确定本系统是否值得进行开发,并在此基础上提出开发系统的初步方案与计划。1.3.1技术可行性本系统采用Windows平台,基本的服务形式为Tomcat环境下的Web服务。整个系统采用Java语言进行开发,搜索引擎内核部分,在Nutch搜索引擎的基础上进行二次开发,由于Nutch开放源代码,修改非常方便。基本的开发和运行环境要求如下:1. 硬件环境:CPU类型P4,内存1GB以上。2.

13、操作系统:Windows XP SP2系统。3. 数据库系统:MS SQL Server 2000。4. 开发工具:JDK5.0,Eclipse,Tomcat 5.0。1.3.2经济可行性本系统是在Nutch的基础上进行开发的,其源代码是开放的,我们可以通过修改代码来实现面向主题的搜索引擎的设计。由于对源代码修改比自己开发一个搜索引擎要容易,而且人力消耗和资源消耗也比较少,因此从经济方面来说,可以省去大量的人力和物力。1.3.3操作可行性本系统操作简单,易于理解,对于管理员来说进行关键词的添加和进行网页的下载通过培训是可以比较熟练掌握的,对于用户来说,用户查找信息只用在查找界面中输入要查找的相

14、关信息就可以找到想要查找的内容。1.3.4 可行性研究结论经过上述的可行性研究,可知本系统的开发能够补充现有的通用搜索引擎的不足,因此本系统是值得开发的。第二章 系统技术简介2.1 Nutch简介Nutch 是一个刚诞生开放源代码(open-source)的Web搜索引擎。尽管Web搜索是漫游Internet的基本要求,但是现有Web搜索引擎的数目却在下降,并且这很有可能进一步演变成为一个公司,其垄断了几乎所有的Web搜索为其谋取商业利益,这显然不利于广大Internet用户。Nutch为我们提供了这样一个不同的选择,相对于那些商用的搜索引擎,Nutch作为开放源代码搜索引擎将会更加透明,从而

15、更值得大家信赖。现在所有主要的搜索引擎都采用私有的排序算法,而不会解释为什么一个网页会排在一个特定的位置。除此之外,有的搜索引擎依照网站所付的费用,而不是根据它们本身的价值进行排序。与它们不同,Nucth没有什么需要隐瞒,也没有动机去扭曲搜索的结果,Nutch将尽自己最大的努力为用户提供最好的搜索结果。Nutch 致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标,Nutch必须能够每个月取几十亿网页,为这些网页建立一个索引,对索引文件进行每秒上千次的搜索,提供高质量的搜索结果并且以最小的成本运作。Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。2.2 Tomcat简介Tomcat 服务器是一个免费开放源代码的Web 应用服务器。Tomcat是Apache软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号