毕业设计（论文）-基于BS结构的搜索引擎应用研究.doc

资源描述

《毕业设计（论文）-基于BS结构的搜索引擎应用研究.doc》由会员分享，可在线阅读，更多相关《毕业设计（论文）-基于BS结构的搜索引擎应用研究.doc（44页珍藏版）》请在金锄头文库上搜索。

1、摘要随着Internet的飞速发展，人们越来越依靠网络来查找他们所需要的信息，但是，由于网上的信息源多不胜数，也就是我们经常所说的RichData,PoorInformation。所以如何有效的去发现我们所需要的信息，就成了一个很关键的问题。为了解决这个问题，搜索引擎就随之诞生。本文从搜索引擎的应用出发，探讨了搜索引擎的作用，提出了搜索引擎的功能和设计要求，在对搜索引擎系统结构和工作原理所作分析的基础上研究了页面爬取，解析等策略和算法，并使用了JAVA实现了一个程序对其运行结果做了分析。关键词搜索引擎；java；Eclipse;字符Based on B / S Design and im

2、plementation of search engineComputer Science Department Major:Computer Science & TechnologyNo.:07190240 Name: LiuJianXiong Tutor: LinMugangAbstract This application from the search engines, discusses the role of search engines, search engines put forward the function and design requirements, struct

3、ure and the search engine system based on the principle of the analysis of the page crawling, parsing and other strategies and algorithms, and use JAVA program to its operating results have been analyzed. Key Words search engine; java目录1 项目背景11.1 搜索引擎现状分析11.2 课题开发背景11.3搜索引擎的组成和工作过程31.3.1 搜索器31.3.2

4、索引器41.3.3 检索器51.4搜索引擎的分类61.5当前搜索引擎的关键技术101.5.1网络蜘蛛技术101.5.2基于相关度的排序121.5.3基于概念的检索122 系统开发工具和平台142.1 关于JAVA语言142.2 Eclipse介绍152.2.1Eclipse历史152.3 servlet的原理163 系统总体设计183.1系统总体结构183.2搜索策略184 系统详细设计194.1 界面设计实现194.2 设计代码分析194.3 servlet的实现234.4 网页的处理队列244.5搜索字符串的匹配254.6 搜索引擎的实现255 系统测试396 结论41参考文献43II1

5、项目背景 1.1 搜索引擎现状分析互联网被普及前，人们查阅资料首先想到的便是拥有大量书籍的图书馆，而在当今很多人多会选择一种更方便，快捷，全面准确的方式互联网，如果说互联网是一个知识宝库，那么搜索引擎就是打开知识宝库的一把钥匙，搜索引擎是随着WEB信息的迅速增加，从1955年开始逐渐发展起来的技术，用于帮助互联网用户查询信息的搜索工具，搜索引擎以一定的策略在互联网中搜集，发现信息，对信息进行理解，提取，组织和处理，并为用户提供检索服务，从而起到信息导航的目的。目前搜索引擎已经成为倍受网络用户关注的焦点，也成为计算机工业界和学术界争相研究，开发的对象。目前较为流行的搜索的引擎已有Google，Y

6、ahoo，Ifno seek，baidu等。出于商业机密的考虑，目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开，现有的文献也仅限于概要性介绍，随着WEB信息资源呈指数级增长及WEB信息资源动态变化，传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要，他们正面临着巨大的挑战，以何种策略访问WEB，提高搜索效率，成为近年来搜索引擎研究的主要问题之一。1.2 课题开发背景目前虽然有多种搜索引擎，但各种搜索引擎基本上由三部分组成：（1）在互联网上采集信息的网页采集系统：网页采集系统主要使用一种工作在互联网上的采集信息的”网络蜘蛛” 。”网络蜘蛛”实际上市一些基于

7、WEB的程序，利用主页中的超文本链接遍历WEB，利用能够从互联网上自动收集网页的”网络蜘蛛”程序，自动访问互联网并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集到网页数据库中。（2）对采集到的信息进行索引并建立索引库的索引处理系统：索引处理系统对收集回来的网页进行分析，提取相关网页信息(包括网页所在URL，编码类型，网页内容包含的关键词，关键词位置，生成时间，大小与其它网页的链接关系等)，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链接中每一个关键词的相关度(或重要性)，然后建立索引并存入到网页索引数据库中，索引数据库可以采用通用的大型数据

8、库，如Oracle,Sybase等，也可以定义文件格式进行存放，为了保证索引数据库中的信息与WEB内容的同步，索引数据库必须定时更新，更新频率决定了搜索结果的及时性，索引数据库的更新时通过启动”网络蜘蛛”对WEB空间重新搜索来实现的。（3）完成用户提交的查询请求的网页检索器：网页检索器一般是一个在WEB服务器上运行的服务器程序，它首先接收用户提交的查询条件，根据查询条件对索引库进行查找并将查询到的结果返回给用户，当用户使用搜索引擎查找信息时，网页检索器接收用户提交的关键词，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页，有的搜索引擎系统综合相关信息和网页级别形成相关度数值，然后

9、进行排序，相关度越高，排名越靠前，最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户，典型的搜索引擎系统如Google就是采用这种策略。信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百废、中国搜索等大型搜索引擎一直是人们讨论的话题. 捏索引擎技术的研究，国外比中国要早近十年，从最早的Archie，到后来的 Excite，以及 ahvista、overture,Google等搜索引擎面世，搜索引擎发展至今，已经有十几年的历史，而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域，都是国外的产品和技术一统天下，特别是当某种技术在国外研究多年而国内才

10、开始的研究的情况下，例如操作系统、宇处理软件、浏览器等等，但搜索引擎却是个例外. 虽然在国外搜索引擎技术早就开始研究，但在国内还是陆续捅现出优秀的搜索引擎，像百度、中搜等。随着搜索引擎技术的成熟，它将成为获取信息、掌握知识的利器. 但是现有的索引擎，对于用户所提出的查询要求仅限于关键词的简单逻辑组合，搜索结果重视的是返回的数量而不是质量，在结果文档的组织和分类上也有所欠缺. 国外的一次调查结果显示，约有71%的人对搜索的结果感到不同程度的失望. 因此，如何提高搜索引擎的智能化程度，如何按照知识应用的需要来组织信息，使互联网不仅提供信息服务，而且能为用户提供知识服务，将成为计算机工业界和学术界有

11、待研究的方向。1.3搜索引擎工作原理搜索引擎的原理，可以看做三步：从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。1. 从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。2. 建立索引数据库由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），

12、然后用这些相关信息建立网页索引数据库。3. 在索引数据库中搜索排序当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎一般由Crawler、分析器、索引器、索引数据库、检索器和用户接口组成9。Crawler以广度优先或深度优先的方法从Web上下载页面;分析器对下载页面的内容进行分析以用于索引，具体包括分词、过滤、转换等工作;索引器将文档表示为一种便于检索的方式并存储

13、在索引数据库中，一般采用的方法有矢量空间模型(Vector Space Model)、倒排文档、概率模型等;检索器实现用户查询关键词和目标文档匹配度的计算，根据计算结果所有符合查询要求的页面URL按照相关度递减的顺序排列，并返回给用户;用户接口为用户提供一个输入查询请求，定制查询结果的Web页面并将查询结果格式化后返回给浏览器。1.3搜索引擎的组成和工作过程搜索引擎在执行用户的查询时并不真正地搜索互联网上的每一个网页，它搜索的实际上是预先整理好的网页索引数据库。对一个普通的搜索引擎而言，一般由搜索器、索引器、检索器和用户接口等四个部分组成。1.3.1 搜索器搜索器的功能是在互联网中漫游，以便发

14、现和搜集信息。它常常是一个日夜不停地运行的计算机程序。它要尽可能多、尽可能快地搜集各种类型的新信息和定期更新已经搜集过的旧信息，以保证用户及时得到最新信息和避免死连接、无效连接。目前搜集信息的策略有两种:1)从一个起始URL集合开始，顺着这些URL中的超链(Hyperlink)，以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL，但常常是一些非常流行、包含很多链接的站点(如Yahoo!、新浪等)。2)将Web空间按域名、工P地址或国家域名进行划分，每个搜索器负责一个子空间的搜索。搜索器搜集的信息类型多种多样，包括HTML, XML, Newsgroup文

15、章、PDF文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术，以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。1.3.2 索引器索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。索引器首先对搜索到的信息进行信息预处理，因为搜索器访问到的是不同组织形式的数据信息，如各种数据库、不同文件系统以及网络Web页面等等。在预处理过程中，不同格式的文档(如Microsoft Word, WPS, Text, HTML等、都将被转换成统一的标准格式一文本文档。在预处理后，就可以对信息建立索引，一般地，建立信息索引包含下面几个步骤:1)词的切分和词法分析在汉语里，词是信息表达的最小单位，在西文语言里，单词是表达信息少最小单位。而汉语不同于西方语言的是，其句子的语词间没有分隔符(空格)因此需要进行语词切分。汉语里词的切分常存在歧异性、模糊性，如句子“使用户满意”可切分为“使/用户/满意”，也可能被错误地切分为“使用/户/满意”。因而需要利用各种上下文知识解决语词切分的歧异性和模糊性。此外还需要对词进行词法分析，识别出各个语词的词干，以便根据词干建立信息索引。2)进行词性标注及相关的自然语言处理在切分的基础上，利用基于规则和统计的方法进行词性标注、识别重

展开阅读全文