……………………………………………………………最新资料推荐…………………………………………………1、 搜索引擎技术的产生背景 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等百度和谷歌等是搜索引擎的代表搜索引擎的发生背景在因特网发展初期,网站相对较少,新闻查找比较容易然而随着新闻技术的飞速发展,特别是因特网应用的迅速普及,网站越来越多,并且每天全球互联网网页数目以千万级的数量增加要在浩瀚的网络新闻中寻找所需要的材料无异于大海捞针这时为满足人人新闻检索需求的搜索网站应运而生搜索引擎从发生到发展大概阅历履历了如下四个步骤:(1) Archie的出现Archie已经具备了现代搜索引擎的雏形1990年,加拿大蒙特利尔大学艾伦伊米杰等三个学生在查询文件的时候感触非常不便,当时需要到散布在各个地方的FIP主机中去搜索,于是他们三人开发了用文件称号查找文件体例的想法经过精心设计,终于开发出了Archie程序。
Archie是第一个自动搜索互联网上匿名FTP网站文件的程序Archie是一个可搜索的FTP文件称号排列表,当用户输入精确的文件称号时,Archie会告诉用户哪一个FTP地址可以下载该文件Archie还不是真正的搜索引擎,只是实现了自动索引互联网上匿名FIP网站文件的技术,但无疑是在搜索引擎技术发展上迈出的第一步2) Spider的出现为搜索引擎的发展奠定了基础,由于特地用于检索新闻的机器人(Robot)程序像蜘蛛(Spider)一样在网络间爬来爬去,因此,Robot程序又被称之为Spider程序世界上第一个Spider程序,是由1993年6月美国麻省理工学院学生马杰杰瑞开发出来的,它可以用来捕捉互联网上的网址,追踪互联网发展规模虽然它也还不是真正意义上的搜索引擎,但Wanderer的原理与技术已经被今天的搜索引擎广泛采用随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在www Wanderer基础上,一些编程者将传统的spider程序工作原理作了些改进其原理是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,优化就有可能检索整个互联网到1993年底,一些基于此原理的搜索引擎开始纷繁涌现,其中以 Jumpstinsideion、TheWorldWideWebWorm(Goto的前身, 也就是今天Overture), 和Repository—BasedSoftware Engineering(RBSE)最负盈盛名。
然而Jumpstinsideion和wwwwo只是以搜索工具在数据库中找到匹配新闻的先后次序排列搜索结果,因此毫无新闻关联度可言而RBSE是是第一个索引HTML文件正文的搜索引擎,是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎3) Lycos的发明Lycos(CarnegieMellonUniversityCenter forMac^ine Translinsideion Announces Lycos)是搜索引擎史上又一个重要的进步CarnegieMellonUniversity的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos1994年7月20日,Lycos正式发布除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量同时期的Infoseek(Steve Kirsch AnnouncesFree Demos Of the Infoseek SearchEngine)是另一个重要的搜索引擎起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。
但它的友善的用户界面、大量附加服务使它名望日隆随着Lycos和Infoseek在国际互联网上的亮相,有人把这时期称之为搜索引擎的春天尔后应用这两种技术的搜索引擎的出现如雨后春笋从此搜索引擎进入了高速发展时期4) 搜索引擎的搜索引擎—元搜索引擎元搜索引擎的出现与其说是技术的发展,不如说是管理的发展随着互联网规模的急剧膨胀,搜索引擎光靠自己单打独斗己无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商如国外的Inkt,它本身并不是直接面向用户的搜索引擎,但向包括overture、Looksmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务Google在其成立之初也是作为元搜索引擎,向Yahoo提供全文网页搜索服务例国内的百度也属于这一类,搜索引擎的优化搜狐和新浪用的就是它的技术因此从这个意义上说,百度搜索引擎优化它们是搜索引擎的搜索引擎图1 搜索引擎原理图 二、 搜索引擎技术能解决的问题 1、搜索引擎的主要功能及工作机制 搜索引擎是 In ternet 上的一个网站, 它的主要任务是在Internet 上主动搜索 Web 服务器信息并将其自动索引, 其索引内容存储于可供查询的大型数据库中。
当用户输入关键字 (Keyword )查询时, 该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接对于各种搜索引擎, 它们的工作过程基本一样, 包括以下三个方面: (1) 派出 “网页搜索程序”在网上搜寻所有信息, 并将它们带回搜索引擎; (2) 将信息进行分类整理, 建立搜索引擎数据库; (3) 通过Web 服务器端软件, 为用户提供浏览 器界面下的信息查询 2、优秀搜索引擎的基本特点 目前各种各样的中西文搜索有10余种或更多, 比较著名的搜索引擎有 Yahoo、Excite、InfoSeek 一个优秀的搜索引擎应具有以 Lycos、 ltaVista 等 以下几个特点: (1) 支持全文检索 (FullTextSearch ) 全文搜 索引擎的优点是查询全面而充分, 用户能够对各网 站的每篇文章中的每个词进行搜索当全文搜索引擎遇到一个网站时, 会将该网站上所有的文章 (网页) 全部获取下来, 并收入到引擎的数据库中只要用户输入查询的 “关键字”在引擎库的某篇文章 中出现过, 则这篇文章就会作为匹配结果返回给用户。
(2) 支持目录式分类结构 (Directory )分类搜索引擎的优点是将信息系统地分门归类, 当遇到一个网站时, 它并不像全文搜索引擎那样, 将网站上的所有文章和信息都收录进去, 而是首先将该网站 划分到某个分类下, 再记录一些摘要信息,对该网站进行概述性的简要介绍最具代表性的目录式分类搜索引擎是Yahoo网站 (3) 能够区分搜索结果的相关性 (Pertinency )搜索引擎应该能够找到与搜索要求相对应的站点, 并按其相关程度将搜索结果排序 (4) 检索方法多样, 查找手段完备 (5) 其他性能 一个优秀的搜索引擎产品还必须查询速度快, 具有较好的可维护、 可更新性能 现有的搜索引擎在信息维护 、信息重复、网络及站点负载方面还存在很多的不足, 索引数据库往往很大, 检索的查准率不高 现有搜索引擎的缺陷: (1) 运算符合布尔运算组合运用数量有限; (2) 仅使用关键词提问, 但关键词检索不能完全满足用户的要求, 而且它是一种盲目的匹配; (3) 不能检索历史信息; (4) 简单的结果表示方法使用户显得茫无头绪; (5) 单个引擎的限制。
3、搜索引擎的语法规则 如果想要得到最佳的搜索效果, 就要使用搜索的基本语法来组织要搜索的条件 (1) 使用逻辑操作符 搜索引擎中常用的操作逻辑符是: AND、OR、NOT、AND 表示逻辑 “与” 可用 “&”表示, OR表示逻辑 “或” 可用 “ ”来表示, NOT表示逻辑“非”可用 “! ”来表示 (2) 使用 “+ 、 - ”连接号和通配符 4、搜索引擎研究的主要问题 由于现有的搜索引擎有上述很多的缺陷, 因此搜索引擎仍是网络和情报检索的研究热点 当前主要的研究热点有: (1) 能充分表达用户查询要求的查询语言一套能充分表达用户要求但又不增加网络负载的查询语言是搜索给用户的第一个良好印象 (2) 索引数据库的组织和管理如何对大容量、非结构化的信息进行增、删、改操作也是一个值得研究的问题 (3) 信息的自动加工如何对信息进行准确的分类和标引是搜索引擎要研究的主要问题 (4) 提高检索的查准率现在搜索引擎的问题不再是能找到多少文献, 且很多文献不一定与用户要求非常相关因此, 提高查准率是搜索引擎查找 效率的主要体现。
(5) Web 信息的发掘如何迅速发现和搜索网 上新加入的信息和被删除的信息 三、 搜索引擎技术概览 搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展搜 索引擎的最新技术发展包括以下几个方面: (1)提高搜索引擎对用户检索提问的理解 为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和 目录查询的缺点,现在已经出现了自然语言智能答询用户可以输入简单的疑问句,比如“how can kill virus of computer?”搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结 果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。
(2)对检索结果进行处理 1、基于链接评价的搜索引擎 基于链接评价的搜索引擎的优秀代表是Google,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量这种评价体制与《科技引文索引》的思路非常相似, 但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性 2、基于访问大众性的搜索引擎 基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的 时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求因此具有典型的趋众性特点这种评价体制与基于链接评价的搜索引擎有着 同样的缺点 3、去掉检索结果中附加的多余信息 有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以。