基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文

资源描述

《基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文》由会员分享，可在线阅读，更多相关《基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文（62页珍藏版）》请在金锄头文库上搜索。

1、本科毕业论文本科毕业论文(科研训练、毕业设计)题题目：基于目：基于 NutchNutch + + LuceneLucene 搜索引擎的搭搜索引擎的搭建建-爬虫系统的设计与主题相关的若干探索姓名：学院：软件学院系：软件工程专业：软件工程年级：学号：指导教师：职称：年月摘要I摘摘要要搜索引擎是为满足人们对网络信息的搜索需求而发展起来的技术。近年来，随着网络信息量的与日俱增，人们已经越来越离不开搜索引擎了。搜索引擎以一定的策略利用网络爬虫爬取网络上的各种资源，建立索引，并对信息进行分析，提取，组织和处理，从而起到信息导航的作用。本文阐述了搜索引擎的基本运作流程，并通过 N

2、utch 深入了解，分析了网络爬虫部分的工作流程，最后构建出了一个基于 Nutch + Lucene 的搜索引擎。通过网络爬虫在爬取阶段与主题关键字的比较判别实现了主题判别。关键词关键词：Nutch；Lucene；主题搜索厦门大学学士学位论文IIConstruction of Search Engine based on Nutch plus Lucene-Several explorations of the topical network spider and the Reptile system designAbstractSearch Engine is a burgeoning te

3、chnology which help us in the information era to meet our searching demands of information through TBs of data on the Internet.Based on using the core functions of the Network Spider strategeticaly, Search Engines could act like an information navigator to build indexes, analysis the data, abstract

4、and organize information, so as to hunt what we need from the rich resources of the Internet. This thesis introduces the basic theories of the search engine, analyze the working procedures of the crawling part thoroughly by the example of Nutch, and construct a Search engine based on Nutch + Lucene,

5、 which impliments the topic discrimination by comparing the topic keywords with the contents from web pages.Key Words: Nutch Lucene topical crawl目录III目录第一章绪论1 1.1 课题研究背景 .1 1.2 搜索引擎的原理 .4 1.3 本文主要工作 .6 1.4 论文组织 .6 第二章 Nutch 及其相关技术 7 2.1 Nutch 7 2.2 Lucene 13 2.3 Hadoop 13 2.4 MapReduce .14 第三章系统

6、概要设计.16 3.1 系统总体架构 16 3.2 系统爬虫模块 18 3.3 主题判别 19 3.4 系统界面模块 19 第四章系统的设计与实现.25 4.1 基础设施平台 25 4.2 系统爬虫部分的实现 25 4.3 系统界面部分的实现 31 4.4 爬虫爬取结果分析 34 第五章总结与展望.39 5.1 工作总结 39 5.2 工作展望 39 致谢语40 参考文献41 附录 A 42 A.1 Nutch 在 cygwin 下的配置与使用42厦门大学学士学位论文IVContentCHAPTER 1 INTRODUCTION.1 1.1 Research Background1 1

7、.2 The Principles of Search Engine4 1.3 Main Task of This Thesis6 1.4 Thesis Organization6 CHAPTER 2 NUTCH AND RELATED TECHNOLOGIES 7 2.1 Nutch7 2.2 Lucene13 2.3 Hadoop.14 2.4 MapReduce15 CHAPTER 3 SYSTEM OUTLINE DESIGN 16 3.1 System Overall Framework16 3.2 Systems Crawl Module18 3.3 Topical Discrim

8、inant.19 3.4 Systems Interface Module.20 CHAPTER 4 DESIGN AND IMPLEMENTATION OF SYSTEM .25 4.1 Basic Implementation Platform.25 4.2 Implementation of The Crawl Part25 4.3 Implementation of The Systems Interface.31 4.4 Analyze The Crawled Results 34 CHAPTER 5 CONCLUSIONS AND FUTURE WORK39 5.1 Conclus

9、ions31 5.2 Future Work34 Acknowledgements.40 References .41 Appendix A .42 A.1 Allocation and Use Nutch in Cygwin42第一章绪论1第一章绪论本章节介绍了本文的项目背景，研究现状以及本项目主要内容。作为全文的开始，本章节还总结了全文的章节组织架构，给出了全文的脉络，方便读者进行更加深入地阅读。1.1 课题研究背景随着计算机与互联网的日益普及和应用，现在的全球网站数量已经超过 1.6 亿个，而网页数量则早已超过了 50 亿。普通用户想找到所需的资料简直如同大海捞针，而在这时，为满足大

10、众信息检索需求的搜索网站便应运而生了。现代意义上的搜索引擎的祖先，是 1990年由加拿大麦吉尔大学（University of McGill）计算机学院的师生开发出的 Archie1。Archie 工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。而此后的数十年，一个个搜索引擎巨头也陆续诞生了：Google，Yahoo，Baidu。当人们对上述这些通用搜索引擎的依赖程度越来越高时，人们的满意程度却变地越来越低了。根据 iResearch 艾瑞市场咨询发布的个人门户发展趋势研究报告2，网民对搜索结果主要不满意的地方主要集中在

11、冗余信息多，找不到足够的资料、有价值信息太少等方面。1.1.1 搜索引擎的现状搜索引擎是为满足人们对网络信息的搜索需求而发展起来的技术。它以一定的策略利用网络爬虫爬取网络上的各种资源，建立索引，并对信息进行分析，提取，组织和处理，从而起到信息导航的作用。在美国， Hitwise 在 2008 年 3 月发表的美国搜索引擎市场份额统计结果3。从中可以看出大部分用户都会选择 Google，Yahoo 和微软提供的搜索引擎进行搜索。具体市场份额如下图所示：厦门大学学士学位论文2图 1- 1 美国 2008 年 3 月搜索引擎市场份额资料来源：而在国内市场，据易观国际2008 年第 1 季度中国搜索引

12、擎市场季度监测报告显示4，百度牢牢占据老大的地位，谷歌位居第二，具体数据如下图所示：图 1- 2 中国 2008 年第一季度搜索引擎市场份额资料来源：1.1.2 搜索引擎的发展趋势经过多年的发展，搜索引擎的功能已经越来越强大，也更加地贴近人们的需求。一方面Google，Yahoo 等搜索引擎巨头开始整合资源，使自己的搜索引擎更人性化：比如当用户在搜索城市的地名时，很有可能，搜索结果页面的开始会显示出你搜索城市的天气情况。另一方面，虽然 Google，Yahoo 等通用搜索引擎虽然能够很大程度上解决人们在互联网上找信息的困难，但是由于随着信息多元化，千篇一律给所有用户同一个入口显然不能满足特定用

13、户第一章绪论3更深入的查询需求5。另外值得注意的一点在于，通用搜索引擎不能遍历所有互联网上的信息。面对通用搜索引擎发展所遇到的困难和人们对信息的新需求，一种只爬取特定领域的主题搜索引擎展现在我们的眼前。我会在下面的小节中介绍主题搜索引擎的相关概念。1.1.3 主题网络爬虫网上的信息浩如烟海，网络资源以几何级的速度增长，一个搜索引擎很难收集全所有主题的网络信息，即使信息主题收集得比较全面，由于主题范围太宽，很难将每个主题都做得精确而又专业，使得检索结果垃圾太多。这样一来，主题搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地，比如像股票、天气、新闻的主题搜索引擎，具有很高的针对性

14、，用户对查询结果的满意度较高6。主题网络爬虫就是根据一定的网页分析算法过滤掉与主题无关的链接，保留主题相关的链接并将其放入待抓取的 URL 队列中；然后根据一定的搜索策略从队列中选择下一步要抓取的网页 URL，并重复上述过程，直到达到系统的某一条件时停止7。所有被网络爬虫抓取的网页将会被系统存储，进行一定的分析、过滤，并建立索引，对于主题网络爬虫来说，这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。1.1.4 主题网络爬虫研究进展为了高效地抓取与主题相关的网络资源，研究者提出了许多主题定制爬行策略和相关算法，使得网络爬虫尽可能多地爬行主题相关的网页，尽可能少地爬行无关网页，并且确

15、保网页的质量。主要的方法有三种：1. 基于文字内容的启发式方法：基于文字内容的启发策略主要是利用了 Web 网页文本内容、URL 字符串、锚文字等文字内容信息。其缺点是没有考虑到通过超链而形成的 Web 有向图对主题网络爬虫的影响。2. 基于 Web 超链图评价的方法：基于 Web 图的启发策略的基本思想来自于文献计量学的引文分析理论。尽管引文分析理论的应用环境与 Web 并不相同，但到目前为止，网页之间的超链还是比较有价值的一种信息。3. 基于分类器预测的方法：厦门大学学士学位论文4为了克服基于文字内容难以精确描述用户感兴趣的主题，以及基于 Web 超链图分析的低效率，研究者提出了基于分类器

16、导引的主题网络爬虫8，从而可以基于分类模型来描述用户感兴趣的主题和预测网页的主题相关度。通过文本分类模型可以从更深的层次来描述用户感兴趣的主题信息，并可以更加准确地计算网页的主题相关性，而不只停留在基于关键词的匹配上。文本分类技术应用于主题信息搜索中有利于提高主题搜索的正确率和准确率。有关实验结果表明，使用主题分类器来指导网络爬虫爬行主题相关网页的效果要好得多。1.2 搜索引擎的原理搜索引擎一般由搜集器，分析器，索引器和用户接口五个部分组成。如下图所示：图 1- 3 搜索引擎体系结构9资料来源：搜索引擎-原理、技术与系统第一章绪论51.2.1 搜集器搜集器10的功能是在互联网中漫游、发现和搜集信息。通常情况是一个计算机程序日夜不停地运行，根据设定尽可能多、尽可能快地爬取系统所指定的内容。同时还需要进行定期地更新已经搜索过的信息，以避免死链接和无效链接。搜索器

展开阅读全文

基于Nutch + Lucene搜索引擎的搭建 -爬虫系统的设计与主题相关的若干探索-毕业论文

最新文档