《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文

上传人:zhuma****mei1 文档编号:136072462 上传时间:2020-06-23 格式:DOC 页数:33 大小:306KB
返回 下载 相关 举报
《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文_第1页
第1页 / 共33页
《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文_第2页
第2页 / 共33页
《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文_第3页
第3页 / 共33页
《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文_第4页
第4页 / 共33页
《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文》由会员分享,可在线阅读,更多相关《《基于Web搜索引擎的设计与实现》-公开DOC·毕业论文(33页珍藏版)》请在金锄头文库上搜索。

1、lw 本科毕业论文(设计、创作) 题目: 基于 Web 搜索引擎的设计与实现 Design and Implementation of Web-based search engine 学生姓名: 学号: 0802115 所在院系: 信息与通信技术系 专业:电子信息工程 入学时间: 2008 年 9 月 导师姓名: 职称/学位: 博士 导师所在单位: 信息与通信技术系 完成时间: 2012 年 5 月 安徽三联学院教务处 制 lw 摘 要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立 搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引 擎的系统结构,

2、然后从网络机器人、索引引擎、Web 服务器三个方面进行详细的说明。 在次基础上设计并实现了一种快捷高效的新闻搜索引擎,该搜索引擎是从指定的 Web 页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库, 然后通过 Web 服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 关键词:搜索引擎;网络机器人;索引引擎 ;Web 服务器 lw Abstact The network resources are very rich, but how effective search information is a difficult thing. Build a search

3、 engine is the best way to solve the problem. This paper first introduced the Internet search engine based on the structure of the system, and then from the network robots, indexing engine, the Web server of the three aspects of the detailed instructions. Based on the time designed and realized a qu

4、ick and efficient news search engine, the search engine from the Web page in accordance with specified in the connection for analytical, search, and the search to every news indexing of add to the database. Then through the Web server accept client requests from database search index after the news

5、of the match. Keywords: search engine; Network robot; Indexing engine; Web server lw 目目 录录 摘要.2 目录.4 第一章 绪论.6 1.1 搜索引擎出现的背景及意义 .6 1.2 搜索引擎的发展历史及趋势 .6 第二章 搜索引擎的结构.9 2.1 系统概述 .9 2.2 搜索引擎的构成 .9 2.2.1 网络机器人.9 2.2.2 索引与搜索.9 2.2.3 Web 服务器.10 2.3 搜索引擎的主要指标及分析 .10 2.4 小结 .10 第三章 网络机器人.11 3.1 什么是网络机器人 .11 3.

6、2 网络机器人的结构分析 .11 3.2.1 如何解析 HTML .11 3.2.2 Spider 程序结构.12 3.2.3 如何构造 Spider 程序.13 3.2.4 如何提高程序性能.15 3.2.5 网络机器人的代码分析 .16 3.3 小结 .18 第四章 基于 LUCENE 的索引与搜索.19 lw 4.1 什么是 LUCENE全文检索.19 4.2 LUCENE的原理分析.19 4.2.1 全文检索的实现机制.19 4.2.2 Lucene 的索引效率.19 4.2.3 中文切分词机制 .21 4.3 LUCENE与 SPIDER的结合 .22 4.4 小结 .25 第五章

7、基于 TOMCAT 的 WEB 服务器.26 5.1 什么是基于 TOMCAT的 WEB服务器 .26 5.2 用户接口设计 .26 5.2.1 客户端设计.26 5.2.2 服务端设计.27 5.3 在 TOMCAT上部署项目.30 5.4 小结 .30 第六章 项目总结以及未来工作展望.31 6.1 项目总结 .31 6.2 未来工作展望 .31 参考文献 .32 致谢 .33 lw 第一章 绪论 1.1 搜索引擎出现的背景及意义 网络的出现以及发展对于世界发展的意义是极其重要的,它让地球村的理念变 成现实,信息的传输不再受到时间和空间的限制。在没有搜索引擎的时代,用户希 望寻找某方面的信

8、息,就必须通过各种途径或者是网站之间的连接寻找,可以这样 说,脱离了搜索引擎的网站,就像是信息海洋中的一个一个孤岛,用户必将面临巨 大的搜索成本,同时必须付出大量的时间和精力。 搜索引擎的出现改变了上述的现象,它通过程序的自动搜寻并建立索引,将这 些信息孤岛联系起来,形成了一张巨大的信息网,并且运用分布式计算的巨大力量, 能够让用户从海量数据中摒除垃圾信息,获取想要的知识。搜索引擎不仅仅是节省 了用户的时间,通过挖掉搜寻成本这座墙,它让许许多多的不可能成为可能。 1.2 搜索引擎的发展历史及趋势 搜索经历了三代的更新和发展: 第一代搜索引擎出现于 1994 年。这类搜索引擎一般都索引少于 1,

9、000,000 个 网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待 10 秒甚至更长的时间。 第二代搜索出现在 1996 年。这类搜索引擎系统大多采用分布式方案(多个微型 计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大 约 50,000,000 网页的索引数据库,每天能够响应 10,000,000 次用户检索请求。 第三代搜索引擎年代的划分和主要特性至今没有统一的认识,不过至少可以肯 定的是:第三代搜索引擎是对第二代搜索引擎在搜索技术上的改进,主要增加了互 动性和个性化等高级的技术,为用户使用搜索引擎获取信息获得更好的体验。至于 互动性的评价标准是什么,以及第三代搜索引擎到底比第二代搜索引擎增加了多少 价值尤其是为企业利用搜索引擎开展网络营销增加了哪些价值,目前并没有非 常令人信服的研究结论。这也就是目前所谓的第三代搜索引擎并没有表现出太多优 lw 势的原因之一。 现在,网络上有很多著名的搜索引擎,百度,google 等等,百度从 2005 年诞生 到现在成为全球最大的中文搜索引擎,可想而知,发展的速度是多么的快,人们对 搜索引擎的的需求是多么的大,百度的日点击率我无法在找到确切的数字,但是我 们可以计算一下,截至 2008 年底,中国网民规模达到 2.98 亿人,每个网民上网点

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号