网络搜索引擎的分析

上传人:m**** 文档编号:488839676 上传时间:2022-12-11 格式:DOC 页数:37 大小:1,011KB
返回 下载 相关 举报
网络搜索引擎的分析_第1页
第1页 / 共37页
网络搜索引擎的分析_第2页
第2页 / 共37页
网络搜索引擎的分析_第3页
第3页 / 共37页
网络搜索引擎的分析_第4页
第4页 / 共37页
网络搜索引擎的分析_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《网络搜索引擎的分析》由会员分享,可在线阅读,更多相关《网络搜索引擎的分析(37页珍藏版)》请在金锄头文库上搜索。

1、本 科 生 毕 业 论 文网络搜索引擎的分析院 系: 信息科学与技术 专 业: 计算机科学与技术 学生姓名: 学 号: 指导教师: 摘要随着互联网的飞速发展,信息革命引发的一个特别的工具-搜索引擎,其作用是在几十亿之间现有的网站中找出具体的用户想要查找的资料。大家都知道,网络搜索引擎已成为最重要的网络信息搜索工具,以获取以无法估计的速度出现的网页信息。到目前为止,很多以前流行的搜索引擎已经渐渐消失,其他新的搜索引擎又开始出现。但是在近几年出现的基于各种不同搜索算法的搜索引擎中, Google已经成为最流行的和成功的搜索引擎之一,Google为何能够成功在很大程度上归因于简单而优雅的PageRa

2、nk算法。该算法的实现原理很简单,当用户提交他或她的想要查询信息时,搜索引擎分析其数据库中已经存放网站,然后返回用户想要查询的超链接列表。更重要的是,此列表按照与用户查询信息的相关度进行排序,以方便用户准确有效地找到想要查询的网页。本论文首先讨论搜索引擎的发展历史、现实重要意义以及其发展趋势。接着详细介绍网页排序算法的实现原理、该算法的优缺点和如何改进该算法、以及对网页排序算法进行实例分析,进一步论述了Google采用的网页排序算法为何会取得如此大的成功。最后重点地介绍如何构建简单有效的搜索引擎,这也是全文的难点,这里只是实现搜索引擎的核心功能,还有更多搜索的功能急需进一步完善。关键词: 搜索

3、引擎 网页排序算法 构建搜索引擎 超链接AbstractWith the development of Internet, the information revolution gives rise to the search engine, a special tool whose task is to identify specifically information among billions of existing websites those are relevant to the users query. As we all know, web search engines ha

4、ve become the most important tools to access information that appear at the speed unevaluated. By now, many of search engines have gone out of business while others have merged. However, among millions of them based on various algorithms that have emerged in recent years, Google has become one of th

5、e most popular and successful one and this companys triumph largely attributes to the simple but elegant algorithm, PageRank algorithm. This principle of this algorithm implements as follows. When a user submits his or her query, the search engine analyzes its repository of stored web sites and retu

6、rns the list of hyperlinks to those that contain information requested by the query. Most importantly, this list is ordered so that most relevant web sites come up first, which might be convenient for the users to find the targets wanted. In this paper it begins our topic with the search engines his

7、tory of development, its practical significance and the future trend developed. Then we discuss the principle of PageRank algorithm in detail, the algorithms merit and shortage, also the modified methods about this algorithm and numerical tests on PageRank algorithm. And it indicates that why Google

8、s core search algorithm have so much potential for development. The last but not least, how to build effective search engines will be introduced. And How to efficiently build a simple engine will be the focus of this paper. In addition, the search engine is constructed to only achieve the core funct

9、ion, and there are many urgent functions to be improved.Keywords: search engine PageRank algorithm build the index hyperlink目 录摘要IAbstractII第一章 前言11.1搜索引擎的历史11.2搜索引擎的分类21.3搜索引擎的现实意义31.4搜索引擎的发展趋势4第二章 搜索引擎原理52.1搜索引擎原理分析52.1.1收集信息62.1.2建立索引72.1.3查询并返回结果72.1.4用户接口72.2PageRank算法82.2.1算法原理82.2.2算法实例分析92.2

10、.2.1第一次计算92.2.2.2第二次计算122.2.2.3第N次计算142.2.3算法的不足142.2.3.1偏重旧网页152.2.3.2主题飘移现象152.2.3.3专业站点被忽视152.2.3.4网页中超链接对网站PR值的影响152.2.4算法的改进162.2.4.1具有时间反馈的改进162.2.4.2基于网页链接和内容分析的改进17第三章 构建搜索引擎193.1Lucene入门193.1.1什么是Lucene193.1.2Lucene的特点193.1.3Lucene构建搜索引擎基本流程203.1.3.1建立索引203.1.3.2搜索流程213.2Lucene检索结果排序223.2.1

11、评分算法公式223.2.2评分算法的特点与不足223.2.3评分算法公式的改进233.2.4另一种评分算法-向量空间算法243.3Lucene构建搜索引擎253.3.1构建运行环境253.3.2搜索引擎的代码实现253.3.2.1索引建立253.3.2.2查询263.3.2.3搜索结果28第四章 结论31致谢32参考文献332第一章 前言1.1 搜索引擎的历史实际上所说搜索引擎是在近10年的不断发展中逐步形成的,建立在互联网中和计算机技术之上。其实也有人说搜索引擎的鼻祖就是黄页,诞生于19世纪末,因为黄页在电话诞生后成为了以电话为主体的信息门户,而且黄页把有电话的企业分门别类,的确与现的搜索引

12、擎有相似之处。下面就简短地介绍搜索引擎的发展历史1: 1990 年由Montreal 的McGill University 学生Alan Emtage、Peter Deutsch、Bill Wheelan 发明的Archie。后来,程序员们开发出了一个名叫“spider”(蜘蛛)的“Robot”(机器人)程序,它能自动以人类无法达到的速度不断重复地在网络上检索信息。 1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够

13、捕获网址(URL)。 1994年,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)诞生。除了网站搜索,它还支持Gopher和Telnet 搜索。 1994年7月,卡内基梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1995年12月,DEC的正式发布AltaVista

14、。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。 1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google以网页级别(PageRank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。而且Google在PageRank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图、股票、词典、寻人等集成搜索、多语言支持等,像Altavista一样,再一次彻底改变了搜索引擎的定义。 2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在

15、北京中关村创立了百度(Baidu)公司。2001年8月发布B搜索引擎Beta版(此前Baidu只为其它门户网站搜狐、新浪、Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎。 2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。1.2 搜索引擎的分类计算机技术飞速发展,关于搜索引擎的定义和发展过程,按其工作方式主要可分为全文搜索引擎、目录索引类搜索引擎和元搜索引擎三类2。 全文搜索引擎全文搜索引擎是名副其实的搜索引擎,它通过从互联网上提取各网页的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的顺序返回给用户。而数据库的建立是通过一个叫网络机器人或叫网络蜘蛛的软件,定期自动分析网络上的各种链接并获取网页信息内容,按规则加以分析整理,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号