Internet搜索引擎概述摘要

上传人:汽*** 文档编号:437846303 上传时间:2022-08-07 格式:DOCX 页数:6 大小:20.79KB
返回 下载 相关 举报
Internet搜索引擎概述摘要_第1页
第1页 / 共6页
Internet搜索引擎概述摘要_第2页
第2页 / 共6页
Internet搜索引擎概述摘要_第3页
第3页 / 共6页
Internet搜索引擎概述摘要_第4页
第4页 / 共6页
Internet搜索引擎概述摘要_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《Internet搜索引擎概述摘要》由会员分享,可在线阅读,更多相关《Internet搜索引擎概述摘要(6页珍藏版)》请在金锄头文库上搜索。

1、In ter net搜索引擎概述摘要:对基于In ter net的搜索引擎的含义及分类、基本构成、工作原 理及性能评价标准进行了概述,并进一步分析了利用搜索引擎检索网络信息的局限,对其未 来的发展趋势作了相应的分析。关键词:搜索引擎,网络信息检索,发展趋势1 搜索引擎的含义及其分类搜索引擎,即search engine,这一词在国内外因特网领域中被广泛的使用,然而。它的含 义却不尽相同。在美国。搜索引擎通常指的是基于因特网的搜索引擎,它们收集因特网上几 千万到几亿个网页,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的 全文检索,典型的如Goog|e, Inoseek, HotB

2、ot。在中国,搜索引擎通常指的是基于网站 目录的搜索服务或者是特定网站的搜索服务,前者如搜狐、新浪等公司开发的网站搜索服务, 后者如Chinaren网站提供的全文检索服务。而本文研究的搜索引擎是指一种基于Intemet 的信息查询工具,即一种基于In ter net的信息查询系统,包括信息采集、信息标引和信息检 索三个主要部分。现有的搜索引擎基本上分为三类:1.1 single search engine(独立搜索引擎)它的特点是仅在搜索引擎自身的数据库检索信息, 比如 Yahoo。1.2 Meta search engine(元搜索引擎)它在检索信息时通过调用其它多个独立的搜索引擎来 完成检

3、索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除 重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数 据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询 语法上的差别较大,使得元搜索引擎本身仅支持AND、OR、NOT等简单的语法操作,返回 的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。1.3 Net search engine(网络搜索软件)就是网络用户可以将相应的搜索软件下载至本地的 计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可 以灵活地控制输出结果,其最大

4、特点是方便用户使用和能快速地查询网络相关资源。 2 网 络搜索引擎的工作原理及其基本构成 用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对 应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言还 需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做 网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点 采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建 一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用 户提供查询

5、服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成. 网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网 页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的 过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些 重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直 到访问完所有的链接。索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要 建立索引。索引一般为倒排档索引。搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户

6、检索要求的网页 并对它们进行分级排序。然后将分级排序后的结果显示给用户。3 搜索引擎的主要性能评价指标31 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在 建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文 索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如 Google 建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的 东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为 所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页

7、面中的超链接。 这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判 别时的准确度。由于索引不同,在检索信息时产生的结果会不同。32 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了 检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段 检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法, 提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实 现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不 但提高了搜索引擎的质量,而且会得

8、到用户的支持。33 搜索引擎的检索效果 检索效果可以从响应时间、查全率、查准率和相关度方面来衡 量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符 合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要 求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度 量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计 算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂 的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的 抗干扰能力。总

9、之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或 者有极大的相似度。34 搜索引擎的受欢迎程度 搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度, 知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会 随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息 量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒 体检索的搜索引擎将越来越受用户的欢迎。另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引 擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按

10、重要程度索引等); b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全 率,查准率,相关度);d.受欢迎程度;e.信息占有量。4搜索引擎检索信息的局限 2001年Roper的调查指出,36%的互连网用户一个星期花超过2个小时的时间在网上搜 索; 71 的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另 一项由Keen所做的调查显示,31 %的人使用搜索引擎寻找答案,网上查找答案的半数以 上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起 来大致有以下几个方面。4. 1 搜索引擎对信息的标引深度不够 目前,搜索引

11、擎检索的结果往往只提供一些线形的 网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信 息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。4. 2 搜索引擎的信息量占有不足 作为搜索引擎必须占有相当大的信息量才能具有一定的 查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。4. 3 搜索引擎的查准率不高 分析起来,这是因为:一方面由于网上信息数量巨大、内容 庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程 序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将 一些与网页主题并不相关

12、的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率 低。44 检索功能单一,缺乏灵活性 目前许多搜索引擎的查询方法比较单一,一般只提供分 类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关 键词或者概念进行笼统的检索。45 搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成 上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实 现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识 性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及 随领域不同而变化的

13、专业性知识等等。5 搜索引擎未来的发展趋势 新一代搜索引擎的发展目标就是采用新兴的搜索技术为用户提供更方便易用、更精确的搜索 工具来满足用户的信息查询需要。技术上,应该在自然语言理解技术上有所突破,以 XML 可扩展标记语言为主,并使用向导技术。下面就搜索引擎的发展趋势谈几点看法。vstr ong 答案补充 51 垂直化专业领域搜索 由于社会分工的加大,用户从事的职业有所不同,不同用户对 信息搜索也往往有自己的专业要求。由于综合性的搜索引擎收录各方面、各学科、各行业的 信息,因而搜索不相关的信息太多,专业垂直引擎则可以解决这个问题,垂直类搜索引擎是 只面向某一特定的领域,专注于自己的特长和核心

14、技术,能够保证对该领域信息的完全收录 与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。52 智能化搜索 传统的搜索引擎使用方法是被动搜索,而准确的搜索应建立在对收录信 息和搜索请求的理解之上。显然,基于自然语言理解技术的搜索引擎由于可以同用户使用自 然语言交谈,并深刻理解用户的搜索请求,则查询的结果更加准确。53 关联式的综合搜索 所谓关联式综合搜索,是这样一种一站式的搜索服务,它使得用 户在搜索时只需要输入一次查询目标,即可以在同一界面得到各种有关联的查询结果,这种 服务的关键在于有一架构在XML基础上的整合资讯平台。vstrong答案补充v/strong

15、54 个性化搜索 提高搜索精确度的另一个途径是提供个性化的搜索,也就是将搜索建立 在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析, 积累用户的搜索个性化数据来提高用户的搜索效率。5. 5结构化搜索所谓结构化搜索,是指充分利用XML等技术使信息结构化,同时使用查 询结构化,从而使搜索的准确度大大提高。5. 6 本土化的搜索 世界上许多著名的搜索引擎都在美国,它们以英语为基础,完全按他 们的思维方式和观点搜集和检索资料,这对于全球不同国家的用户来说是显然不合适的。各 国的文化传统、思维方式和生活习惯不同,在对于网站的内容的搜索要求上也就存在差异。 搜索结果要符合当地

16、用户的要求,搜索引擎就必须本土化。5. 7 多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代,开发出可查 询图像、声音、图片和电影的搜索引擎是一个新的方向,这也将极大地满足用户的需求。未 来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和更能够满足用户的信息查询 需求。vstrong答案补充v/strong参考文献1 张卫丰.徐保文等. Web 搜索引擎综述.计算机科学, 2001;(9)2王忠周士渡.In ter net英文搜索引擎评析.情报学报,1999; (5)3 张军.搜索引擎的功能及其局限性探讨.情报科学, 2001;(5)4 张莉扬.网络检索工具性能评价标准浅议.情报科学, 2001网络搜索引擎21 世纪是信息时代,随着信息科学技术的不断发展,网络已成为人们生活中的重要组成部分, 网上信息呈几何级数增长,面对众多繁杂无序的信息,如何能快速、准确、经济地查找到所需

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号