2022年计算机等级考试三级网络技术辅导:网络搜索技术.docx

上传人:博****1 文档编号:557139297 上传时间:2022-09-10 格式:DOCX 页数:4 大小:13.46KB
返回 下载 相关 举报
2022年计算机等级考试三级网络技术辅导:网络搜索技术.docx_第1页
第1页 / 共4页
2022年计算机等级考试三级网络技术辅导:网络搜索技术.docx_第2页
第2页 / 共4页
2022年计算机等级考试三级网络技术辅导:网络搜索技术.docx_第3页
第3页 / 共4页
2022年计算机等级考试三级网络技术辅导:网络搜索技术.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《2022年计算机等级考试三级网络技术辅导:网络搜索技术.docx》由会员分享,可在线阅读,更多相关《2022年计算机等级考试三级网络技术辅导:网络搜索技术.docx(4页珍藏版)》请在金锄头文库上搜索。

1、 2022年计算机等级考试三级网络技术辅导:网络搜索技术考点6网络搜寻技术 1搜寻引擎的原理和组成 (1)搜寻引擎的原理 搜寻引擎的原理起源于传统的信息全文检索理论,即计算机程序通过扫描一篇文章中的全部词,建立以词为单位的排序文件,检索程序依据检索词在每篇文章中消失的频率和概率,对包含这些检索词的文章排序,最终输出排序结果。 (2)全文搜寻引擎功能模块的组成 现在的全文搜寻引擎一般由搜寻器、索引器、检索器和用户接口4个局部组成。 搜寻器。搜寻器也称为“蜘蛛”、“机器人”或“爬虫”,实际上是一种基于Web的程序。搜寻器在Internet上逐个访问效劳器来收集信息,它通过恳求Web站点上的HTML

2、网页来采集该 HTML网页,并建立一个网站的关键字列表。搜寻器建立关键字列表的过程称为网络爬行。 索引器。索引器的功能是理解搜寻器所搜寻的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可使用集中式索引算法或分布式索引算法。索引算法对索引器的性能有很大的影响。一个搜寻引擎的有效性在很大程度上取决于索引的质量。 检索器。检索器的功能是依据用户查询在索引库中快速地检索出文档,进展文档与查询的相关度评价,对将要输出的结果进展排序,并实现某种用户相关性的反应机制。网页检索器是一个在Web效劳器上运行的CGI(公共网关接口)程序。 用户接口。用户接口的作用是输入用户查询,显示查询结果,

3、供应用户相关性反应机制。用户接口可以分为简洁接口和简单接口两种。 (3)名目导航式搜寻引擎和网页搜寻引擎的组成 名目导航式搜寻引擎的信息搜集系统主要由人工完成,搜寻引擎的标引专家依靠手工来搜寻不断消失的新网站,给每个网站一个标题和也许描述,将其放入相应的类目体系中。在页面上表达为每个类目路径下排列着的相关网站,所以也称为名目导航。名目导航式搜寻引擎供应两种查询接口形式:一种是直接单击名目树,另一种是关键字检索。 2Google和百度搜寻引擎 Google是目前世界上使用率和搜寻精度的全文搜寻引擎,百度则是全球的中文搜寻引擎,两者分别是国外、国内搜寻引擎的领头羊。 (l)Google的主要技术

4、Google成立于1998年,创始人为美国斯坦福大学计算机科学系的两位博士。Google一词由英文单词googol变化而来,表示1后面有100个零的数字,显示了Google搜寻力量的强大。 Google的主要技术有以下几点: 网页采集技术分布式爬行系统。该系统通常由一个URL效劳器将URL列表供应给网络爬行器(Google同时运行3个爬行器)。每个爬行器同时保持大约300个网络连接。 页面等级技术(Page Rank)。Google是以Open Directory Project为类目根底,开发了独树一帜的Page Rank技术。 超文本匹配分析技术。超文本匹配分析技术是目前搜寻引擎中最先进的检索技术。 (2)百度的主要技术 百度(Baiducom)于1999年底在美国硅谷成立,创始人是北京大学的两位毕业生李彦宏和徐勇。“百度”一词来源于辛弃疾的名句“众人寻他千百度”。 智能性、可扩展搜寻技术。 智能化中文语言处理技术。 分布式构造化算法与容错设计。 智能化相关度算法技术。 检索结果的智能化输出技术。 高效的搜寻算法和效劳器本地化。 在检索功能方面,百度还具有如下的功能:爱护的提示功能、快照功能、专业的MP3搜寻功能、便于用户沟通的“贴吧”功能、百度常用搜寻功能等。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号