搜索引擎与网络爬虫的浅析及实现-毕业论文

资源描述

《搜索引擎与网络爬虫的浅析及实现-毕业论文》由会员分享，可在线阅读，更多相关《搜索引擎与网络爬虫的浅析及实现-毕业论文（33页珍藏版）》请在金锄头文库上搜索。

1、搜索引擎与网络爬虫的浅析及实现1本科毕业论文本科毕业论文题题目：搜索引擎与网络爬虫的目：搜索引擎与网络爬虫的浅析及实现浅析及实现姓名：学院：软件学院系：软件工程专业：软件工程年级：学号：指导教师：职称：年月搜索引擎与网络爬虫的浅析及实现2摘要随着互联网的发展, 网上的资源越来越丰富, 如何有效利用网上的资源, 是当今信息时代的主题。搜索引擎的出现，就为如何在互联网的海洋中有效地搜索用价值的信息提供了一个很好的解决方法。本文将对互联网搜索引擎的系统结构进行详细的剖析，然后分别对搜索引擎的主要组成部分网络爬虫,索引数据库, 服务器端进行实例化分析。为了达到让读者了解

2、搜索引擎及网络爬虫的原理，笔者基于 java 平台上实现了一个简单的新闻搜索引擎，以其后几章里将以该引擎为例，阐明一般搜索引擎的基本原理和实现方法。新闻搜索引擎的原理简单说来是从指定的互联网页面上抓取超链接, 然后对其进行解析、分类，并把结果（新闻条目）建立索引后加入数据库。用户从浏览器向 Web 服务器发出搜索请求，服务器端接到请求后，从索引数据库中搜索出匹配的新闻，通过 web 响应返回给客户端，并显示在用户浏览器上。关键字互联网信息搜索网络爬虫索引服务器搜索引擎与网络爬虫的浅析及实现3AbstractWith the development of the Internet,

3、the resource on the Internet becomes huge and vast. How to utilize the resource efficiently, is the exciting topic nowdays. The come out of the Search Engine, provides some helpful solutions to this problem. This thesis begins with analyzing the structure of the Search Engine, and then states the de

4、tails of the components which consist of the Search Engine. That is, Spider, Index Database and Web Server.In order to make the audiences understand clearly, I implement a News Search Engine on the Java Platform. I will analyze the principle of Search Engine with this instance.The principle of the N

5、ews Search engine is simply to acquire the hyperlinks on the web page by the Spider. Then the collection of hyperlinks will be parsed, classified, indexed and stored in the Index Database. While receiving the request from the Client (usually the Internet Explorer), the Search Engine searches for the

6、 information in the Database immediately, then responses the result to the Client by Http message, showed on the Internet Explorer.Key words Internet, Search Engine, Spider, Index, Web Server.搜索引擎与网络爬虫的浅析及实现4目录摘要2 第一章搜索引擎简介7 1.1 搜索引擎的发展历史.7 1.2 搜索引擎的实现原理.7 1.2.1 搜索引擎的基本结构.7 1.2.2 网络爬虫.9 1.2.3 索引数据库

7、.9 1.2.4Web 服务器.9 1.3 小结.9 第二章网络爬虫原理及设计10 2.1 网络爬虫的概述及其工作原理.10 2.2 网络爬虫的搜索策略.12 2.3 构造网络爬虫.13 2.3.1 解析 HTML13 2.3.2 HTMLPage.open()方法14 2.3.3 Vector 类.15 2.3.4 Iterator 接口.15 2.3.5 com.heaton.bot.Link 类.16 2.3.6 利用 Searcher 类扫描网页.16 2.4 小结.17 第三章 lucene 下的索引和搜索.17 3.1 什么是 Lucene17 3.2 Lucene 的原理分析.

8、18 3.3.Lucene 的中文切分词机制.18 3.4 索引数据库的实现19 3.4.1 生成索引数据库文件的 IndexWriter 类.19 3.4.2 AddNews(String url, String title)方法19 3.5 小结20 第四章实验设计与结果演示22 4.1 新闻搜索引擎程序结构22 4.2 新闻搜索引擎服务器端23 4.3 客户端.27 4.4 结果演示.27 第五章搜索引擎策略29 5.1 概述.29 5.2 第四代搜索引擎搜索策略.305.2.1 Guide words30 5.2.2 网页评级.30 5.3 搜索引擎未来展望31 鸣谢32 参考文献

9、33搜索引擎与网络爬虫的浅析及实现5ContentsAbstract2 Chapter1 Introduce to Search Engine7 1.1 History of Search Engine7 1.2 How to implement a Search Engine7 1.2.1 Structure of Search Engine7 1.2.2 Spider9 1.2.3 Index Database9 1.2.4 Web Server9 1.3 Summary9 Chapter2 Principle and Design of Spider10 2.1 Introduce to

10、 Spider.10 2.2 Search Strategy12 2.3 Construct a Spider.13 2.3.1 Parse HTML.13 2.3.2 HTMLPage.open()14 2.3.3 Vector15 2.3.4 Iterator15 2.3.5 com.heaton.bot.Link16 2.3.6 Scan the HTML by Searcher Class16 2.4 Summary17 Chapter3 Index and Search base on Lucene17 3.1 What is Lucene.17 3.2 Principle of L

11、ucene18 3.3. Chinese Characters analysis in Lucene.18 3.4 Implement Index Database19 3.4.1 IndexWriter19 3.4.2 AddNews(String url, String title)19 3.5 Summary20 Chapter4News Search Engine Designing and Performance22 4.1 Structure of the News Search Engine22 4.2 Server23 4.3 Client27 4.4 Performance.

12、27 Chapter5 New Search Strategy29 5.1 Introduce to Search Strategy29 5.2 The Fouth Generation Search Strategy.30 5.2.1 Guide words30 5.2.2 Evaluate the Website.30 5.3 Future of Search Engine31 Acknowledgements32搜索引擎与网络爬虫的浅析及实现6Reference33搜索引擎与网络爬虫的浅析及实现7第一章搜索引擎简介1.1 搜索引擎的发展历史搜索引擎的发展历史在互联网发展初期，网站相对较

13、少，信息查找比较容易。然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。随着 WWW 的发展，搜索引擎发出闪耀的光芒。搜索引擎自出现以来，经历了三代的发展1：表 11 搜索引擎发展的三个阶段出现时间建立索引数目速度使用技术第一代1994 年少于1,000,000个慢Information Retrieval、网络、数据库等第二代1996 年约50,000,000 个较快Information Retrieval、网络、数据库、分布式分布式等第三代2000 年约200,000,000个极快Information Ret

14、rieval、网络、数据库、分布式分布式等1.2 搜索引擎的实现原理搜索引擎的实现原理1.21 搜索引擎的基本结构搜索引擎是通过对信息建立索引数据库，然后根据用户的查询请求，按照一定算法在数据库中查询找到匹配的信息并返回给用户。为了保证用户查找信搜索引擎与网络爬虫的浅析及实现8息的精度和新鲜度，一个强大的搜索引擎需要建立一个庞大的索引数据库，从而保证信息的精度和覆盖的广度，并要及时更新以保证信息的及时性。一般搜索引擎的宏观结构如下图2：图 11 搜索引擎的宏观结构微观结构如下图2：图 12 搜索引擎的微观结构Web PagesSpiderCreate IndexSearch from DBWe

15、b ServerIndex DatabaseIEIESpider搜索引擎与网络爬虫的浅析及实现91.2.2 网络爬虫网络爬虫是一个 WEB 页面扫描程序。它通过扫描 WEB 页面, 抓取其内的超链接, 并将其加入扫描等待队列。网络爬虫扫描 web 页面的策略一般分为：广度优先、深度优先和 IP 地址三种。设计时可根据需要制定扫描策略。1.2.3 索引数据库网络爬虫扫描后得到的 WEB 页面放在临时数据库中，为了提高检索效率，需要对数据库建立索引。用户输入搜索条件后搜索程序在索引数据库中检索然后返回符合查询要求的信息的索引，按索引找到超链接按一定次序返回给用户。1.2.4Web 服务器Web 服

16、务器是用户与索引数据库之间的桥梁。用户在浏览器中输入查询关键字，Web 服务器根据查询关键字在索引数据库中进行查询、排列然后返回给客户端。1.3 小结小结以上对基于因特网的搜索引擎结构进行了分析，下面在这些研究的基础上，以笔者设计的一个简单搜索引擎News Search Engine 为例, 对上述搜索引擎的三个组成部分进详细分析。在这个新闻搜索引擎中，笔者运用了 Java 技术和其它一些 Open Source 工具（bot 开发包3 和 Lucene 包4）。搜索引擎与网络爬虫的浅析及实现10第二章第二章网络爬虫原理及设计网络爬虫原理及设计2.12.1 网络爬虫的概述及其工作原理网络爬虫的概述及其工作原理网络爬虫，是一种专业的抓取 WEB 页面的程序，也叫网络机器人，是搜索引擎的重要组成部分。网络爬虫从一个或多个 Web 页面上开始执行，获得该网上上的超链接，将这些超链接放入队列，然后通过这些超链接再访问下一级页面，再抓取其页面上的超链接放入队列，如此不

展开阅读全文