毕业论文--搜索引擎的设计与实现

上传人:liy****000 文档编号:115199493 上传时间:2019-11-13 格式:DOC 页数:50 大小:508.50KB
返回 下载 相关 举报
毕业论文--搜索引擎的设计与实现_第1页
第1页 / 共50页
毕业论文--搜索引擎的设计与实现_第2页
第2页 / 共50页
毕业论文--搜索引擎的设计与实现_第3页
第3页 / 共50页
毕业论文--搜索引擎的设计与实现_第4页
第4页 / 共50页
毕业论文--搜索引擎的设计与实现_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《毕业论文--搜索引擎的设计与实现》由会员分享,可在线阅读,更多相关《毕业论文--搜索引擎的设计与实现(50页珍藏版)》请在金锄头文库上搜索。

1、 太原理工大学毕业设计(论文)用纸摘要网络中的资源非常丰富,然而如何有效的搜索讯息却是一件困难的事情。创建搜索引擎就成了解决这个问题的最佳方法。本文起首详明介绍了基于英特网的搜索引擎的系统构造,继而从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深入的理解这种技术,本人还亲自完成了一个自己的搜索引擎简易搜索引擎。简易搜索引擎是从指定的Web页面中依照超链接进行解析、搜索,并把搜索到的每条信息进行索引后加入数据库。继而通过Web服务器承接客户端请求后从索引数据库中搜索出所匹配的讯息。本人在介绍搜索引擎的章节中除具体的论述技术核心外还结合了简易搜索引擎的实现代码来说明,图文并茂

2、、易于理解。关键词:网络机器人;搜索引擎;服务器iThe design and implementation of a search engineAbstractThe resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of

3、search engine based on the internet in detail, then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself.The news search engine is explained and searched according to hyperlink from a

4、 appointed web page, then indexs every searched information and adds it to the index database. Then after receiving the customers requests from the web server, it soon searchs the right news form the index engine.In the chapter of introducing search engine, it is not only elaborate the core technolo

5、gy, but also combine with the modern code,pictures included, easy to understand.Key Words: spider;webSearch;Serverii目录摘要iAbstractii1 引言12 开发语言及开发环境32.1 Java语言32.1.1 平台无关性32.1.2 安全性32.1.3 面向对象32.1.4 分布式32.1.5 健壮性32.2 开发环境42.3 编译环境简述43 项目可行性分析53.1 分析方法概述53.2 评价尺度53.3 具体项目分析53.3.1 经济可行性53.3.2 技术可行性53.3

6、.3 操作可行性54 项目需求分析64.1 OOA方法介绍64.2 功能需求64.3 性能需求64.4 环境需求74.5 可靠性需求74.6 用户界面需求74.7 软件成本消耗与开发进度需求74.8 条件假定和限制75 总体设计概要85.1 系统概述85.2 功能模块设计85.2.1 网络机器人85.2.2 索引与搜索95.2.3 Web服务器105.3 搜索引擎的主要指标及分析105.4 小节116 详细设计概要126.1 网络机器人设计126.1.1 网络机器人概述126.1.2 网络机器人的结构分析126.1.3 解析HTML136.1.4 Spider程序结构166.1.5 程序性能提

7、高论述176.1.6 Spider程序综述176.2 索引设计176.2.1 Lucene全文检索176.2.2 Lucene的原理分析186.2.3 索引建立综述246.3 服务器的设计和部署246.3.1 基于Tomcat的Web服务器246.3.2 用户接口设计256.3.3 部署WEB应用286.3.4 服务器部署综述297 软件测试307.1 测试的目的307.2 测试方法307.3 部分测试用例317.3.1 系统启动测试317.3.2 搜索测试317.4 测试分析和总结31结论33参考文献34致谢35英文原文36中文翻译431 引言面对巨大的网络资源,搜索引擎为所有网上冲浪的用户

8、提供了一个入口,毫不夸张的说,所有的用户都可以从搜索动身抵达自己想去的网络中的任何一个地方。因此它也成为除电子邮件之外最多人使用的网络服务。搜索引擎技术伴随着WWW的成长是有目共睹的。搜索引擎已经经历了三代的更新发展:第一代搜索引擎呈现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,很少从新搜集网页并去刷新索引。并且其检索速率非常慢,正常都要等待10秒乃至更长的时间。在实现技术上也基本使用比较成熟的IR(Information Retrieval)、网络、数据库等技术,相当于使用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm

9、 (WWWW)平均每天担当大约1500次查询。大约在1996年涌起的第二代搜索引擎系统大多选用分布式解决方案(多个微型计算机协同工作)来提高数据规模、响应速率和用户数量,它们一般都维持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户索引请求。1997年11月,当时最先进的几个搜索引擎堪称能创建从2,000,000到100,000,000的网页索引。Altavista搜索引擎宣称他们每天大抵要承受20,000,000次查询。2000年搜索引擎大会上,依照Google公司总裁Larry Page的演讲,Google正在使用3,000台运行Linux系统的个人电脑

10、在搜集Web上的网页,并且以每天30台的速率向这个微机集群里添加计算机,以维持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速率为每秒100个网页,平均速率为每秒48.5个网页,每天可以搜集超过4,000,000网页。搜索引擎一词在国内外因特网领域被普遍使用,但是它的含义却不尽肖似。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序搜集上千万到几亿个的网页,而且每个词都被搜索引擎索引,也就是我们通常说的全文检索。著名的因特网搜索引擎有First Search、Google、HotBot等。在中国,搜索引擎通常指基于网站目录的索引服务或是特定网站的索引服务,本人这里

11、研究的是基于因特网的索引技术。搜索引擎的起源点是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David F

12、ilo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。1994年初,华盛顿大学(University of Washington)的学生Brian Pinkerton开始了他的小项目WebCrawler。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。1994年7月,卡内基梅隆大学(Carnegie Mellon University) 的Mi

13、chael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。1995年,一种新的搜索引擎形式出现了元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Meta

14、crawler。1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、OR、NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveX objects。1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了的域名,1

15、997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Dont be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布B搜索引擎Beta版(此前Baidu只为其它门户网站搜狐、新浪、Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。随着技术的进步,搜索引擎

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号