因特网上中文搜索引擎的评述

上传人:飞*** 文档编号:10292162 上传时间:2017-10-06 格式:DOC 页数:6 大小:61.50KB
返回 下载 相关 举报
因特网上中文搜索引擎的评述_第1页
第1页 / 共6页
因特网上中文搜索引擎的评述_第2页
第2页 / 共6页
因特网上中文搜索引擎的评述_第3页
第3页 / 共6页
因特网上中文搜索引擎的评述_第4页
第4页 / 共6页
因特网上中文搜索引擎的评述_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《因特网上中文搜索引擎的评述》由会员分享,可在线阅读,更多相关《因特网上中文搜索引擎的评述(6页珍藏版)》请在金锄头文库上搜索。

1、因特网上中文搜索引擎的评述叶中行 葛 勇 叶 蕾- 摘自科学2001 第 3 期因特网上的科学信息和电子杂志的总量在持续增长,整个网络可看作是一个可以检索的 150 亿单词的大电子百科全书。但是这些信息是极其无序的,如何获取和利用因特网上的信息已经成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。因特网上的信息呈几何级数增长,快速有效地查询一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。所谓搜索引擎,是指因特网上的在万维网 (WWW )中主动搜索信息并能起自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等

2、方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内取得大量的文献成为可能。中文搜索引擎概述中文搜索引擎的出现是最近几年的事情,但发展很快。它的性能究竟如何,能检索到的信息有多少,因特网上的中文信息或网页知多少,这些都是值得关心的问题。目前中文引擎共有约 80 多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎。由于语言、文化上的差异,中文搜索引擎必然与国外的搜索引擎有所不同。中文搜索引擎有两个特点。1内码:由于历史原因,目前

3、世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系,例如祖国大陆用的是GB 码,而中国台湾地区则用 BIG5 码,字符集的大小也不尽相同?2分词:西文单词用空格分隔相当清晰,而此法对中文的字词则行不通,因此造成传统上就的不同处理方法。一种是完全单汉字全文检索,即将文章中的每一个汉字都进行索引,而将用户的检索提问根据单汉字匹配的原则去检索。此法查全率高,但查准率低。此处还有一种方法,则是目前绝大多数中文搜索引擎采用的分词方法,即根据一定的原则和手段来对文章进行自动分词,然后按词建库,对检索结果按词汇匹配进行查询。一

4、般来讲,这样既比较准确又能提高整个系统的检索响应效率。但中文的组词十分复杂,常用名词、专用名词、地名、人名、成语等各不相同,目前的中文搜索引擎还没有很好地解决中文名词分词的技术,往往影响了引擎的查准率?如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上以最小的代价找到所需要的信息,这些涉及到对搜索引擎性能的评价?中文搜索引擎的评价方式要有效地评价各中文引擎,首先要选定评价标准。 (1)资料全:即查全率高,以免为了某一信息要查询多个搜索引擎;(2)信息准:即搜索得到的信息与用户所要求的信息的相关性高,查准率直接影响到搜索的速度和费用;(3)速度快

5、;(4)费用省。用四个字表述就是:全、准、快、? 劳伦斯和贾尔斯曾对 Alta Vista、 Excite、 HotBot、 In-foSeek、 Lycos、 Northern Light 以及 Alta Vista、 EuroSeek、中英文集成搜索引擎及网址英文集成搜索引擎Easy Searcher2 Http:/ByteSearch Http:/Mamma Http:/MetaCrawler Http:/Profusion Http:/S Http:/SavvySearch Http:/Dogpile Http:/中文集成搜索引擎飚凤搜索通 Http:/万纬搜索引擎 Http:/372

6、1 Http:/T500 Http:/(163 用户访问Http:/ 用户访问常用中文搜索引擎及其特点搜索引擎 主要特点Excite 支持中西文的高性能检索引擎,拥有现今最大的中文网页数据库,用人工智能法进行切分词和概念分析,搜索跟提问式的概念和含义相关的文献 Alta Vistat(Sina 新浪)库容量及响应速度令其他中文引擎难以匹敌。其核心不是为非西文语种准备的,中文检索时不支持高级检索功能,不能运用一些强劲的逻辑检索特性 Cseek(搜索客 )检索功能非常强劲,引擎的核心是非常成熟的商用软 verity。界面清晰明了,但其页面上缺乏对于其检索功能的简单描述和辅助选项按钮Netease(

7、网易)其免费主页、免费 EMAIL 等具有一定的影响。检索时先在自己的分类库中进行查询,若无结果,系统将提问式转向全文数据库进行检索WebGather(天网 )主要以 CERNET 的网页信息为主。系统不仅提供 WWW 网页的查询,同时也提供对新闻组(Newsgroup)内容的查询,还支持通过 EMAIL 的检索Goyoyo(悠游)考虑到的特点,各个网站都有 GB 与 BEG5 两种页面,内容考虑到不同用户的需求而有所差异。除网页搜索外,还提供了网址(URL)查询功能Wander(网典搜索)基于汉语语法、词的上下文和语义等中文信息处理技术,智能化地提取摘要和关键词、建立索引、提供查询,监控不良

8、信息、报警功能的网络信息自动发现和查询Lotof(好多 ) 可查询面较广泛,包括艺术、教育、宗教、体育等,也可用”或”、 ”与”、 ”非”来进行检索Gais(盖世搜索) 英文主页面同时有四个链接,分别链接至目录服务,WWW 网页的检索,BBS 资料库检索与 FTP 检索。WWW 网页检索与分类库浏览页面是中文的Tonghua(常青藤) 作为一个智能的中文搜索引擎,汇集了大陆、港台、澳门、新加坡等中文地域的网络地址Sohu(搜狐) 主页上提供了许多相关信息、广告等等,相对于它相当及时的新闻更新来羽,它的库更新间隔就显得稍微长了一些Compass(指南针)主要以中国教育和科研计算机网(CERNET

9、) 、ChinaNet 、中国科技网(CSTNET) 、中国金桥网( ChinaGBN)等的信息为主。特色是它的多样化输入方式和多个分类体系YahooGB(雅虎 )大体上保留了它的英文引擎的特色,并且根据中文的特点作了一些改进。保留了原来的主分类,在细目上又根据中文的特点作了改动,重新规划分类注:中文搜索引擎可分为两类,表中上半部分为 9 个关键词类搜索引擎,下半部分为 4 个分类搜索引擎折线及拟合函数 f(x)=b(1-e-ax)中文搜索引擎测试中,返回网页数与引擎个数个数呈指数关系,估计参数 b=7.5016107Excite、 Google、 HotBot、 InfoSeek 、Lyco

10、s 、 Microsoft、 North-ern、 Light、 Snap 、Yahoo 等英文搜索引擎收集大量的试验数据,利用统计方法进行比较。分析和评价1,2 。研究结果宣称,1997年公众搜索引擎包含至少 3.2 亿个网页,最大的搜索引擎盖率估计为网页总量的三分之一。1999 年他们利用随机抽样估计出网络服务器总数为 1.6 亿个。而公众搜索引擎则为 8 亿页,两年中翻了 2.6 倍。他们还估计出万维网上总的影像资料数量约为 3*1012 字节,公众搜索页面上有 1.8 亿个图像。同时搜索引擎的搜索结果有重叠部分,引擎的不同覆盖组合之各为 3.35 亿页,是估计总页数的 42。中文搜索引

11、擎的评价方法为简化测试和计算,笔者采用了抽样统计方法,利用上海万纬信息技术有限公司的一个可以同时对多个中英文搜索引擎进行搜索的集成搜索引擎进行测试,首先精选 30 个关键词对颇有名气的 14 个中文搜索引擎进行测试,选择测试结果中返回页总数最大的 6 个引擎,然后用精选的 500 个关键词进行测试,搜集检测返回页数的数据,并进一步估计万维网上中文页数总量和单个引擎的覆盖率。同时用二引擎、三引擎、四引擎、五引擎和六引擎进行测试,每次输入关键词,搜索结果返回各引擎的网页总数,同时要求返回前 100、200、300 条信息的记录,用这三批信息中的重复数估计被测试的多个引擎返回页的重复数。于是,各引擎

12、的返回网页总数之和减去重复数,即得被测试的几个搜索引擎返回的网页总数。测试的日期从 2000 年 3 月 18 日到 5 月 24 日。同时,随机抽取一些关键词进行手工检查,以便确认所有的检索结果都是从每个引擎中返回,并且是经过正确的语法分析得到的,手工检查的重复数与上述试验中返回的重复数是一致的。通过逻辑查询发现,不同关键词之间检索结果重复率很低,可以忽略不计。还要指出的是:每个搜索引擎我覆盖的页数每天都会有变化,很小的可以忽略不计,而有的变化很大,如其中一个引擎返回的网页总数在 5 月 12 日到 5 月 24 日期间比二周前增加了 1.675 倍。测试结果的评价通过上述方法对 2000

13、年 3 月 18 日到 5 月 15 日测试结果进行计算。测试一个、两个、三个、四个、五个、六个引擎返回页数的数据,可以认为返回顺的网页数与引擎个数呈指数关系。用最小二乘法估计参数,500 个关键词返回的中文万维网页总数上界为 7500 万页左右。考虑到所选用的关键词仅 500 个,因此猜测实际的网页总数应在 1 亿页以上。单个引擎的覆盖率算出了每个引擎返回中文万维网页数和万维网总页数的估计数,就可以计算每个引擎的覆盖率。如考虑覆盖率变化较大的一个引擎的影响,再重新测试,对在 3 月 18 日到 5 月 24 日测试所得结果进行计算,得到各中文搜索引擎的覆盖率。由计算结果可知,大多数单个引擎的

14、覆盖面都是有限的,只有一个引擎能够覆盖各类引擎搜索总页数的约 60。还有很大一部分万维网页没有被任何引擎索引过。六个引擎组合的结果是最大引擎覆盖页数的 1.67 倍,是最小引擎覆盖页数的 29.54 倍。不同中文搜索引擎可检索信息量的差距非常明显。造成引擎覆盖面差距的原因是多方面的,如网络带宽、磁盘容量、计算能力等,引擎覆盖面的大小显然是衡量引擎功能的一个重要指标。中文搜索引擎的查准率笔者另外的一些试验结果表明,不同引擎对同一个关键词的查准率及同一引擎对选自不同领域的关键词的查准率都有很大差别,查准率的变化范围从 0 到 100。这表明各个引擎搜集信息的领域各有偏重。在测试过程中还发现各个搜索

15、引擎搜索的方式各不相同,Yahoo 在查询的时候是按目录进行查询的,比如说,在查“上海交通大学 ”的时候,它首先查询有无与 “上海交通大学” 有关的目录,如上海,然后再一层一层的往下查,而新浪和 Lotof 则是在网页中直接按整个词进行查询,比如说在查询“上海交通大学”时,这两个搜索引擎将查询包含“上海交通大学” 这个词的网页,而 Goyoyo 则是按单字进行查询的,如在查“上海交通大学”的时候,它将分别查询与各个字有关的网页,其结果是查全率较高,但查准率相对低一些。查全率和查准率是有关的,查准率高但查全率低,查到的信息的绝对量就少。反之,查到有用信息的代价就高。为提高搜索的准确度,大多数的英文搜索引擎都支持逻辑查询。用户可以用多个单词,加上适当的逻辑字符来缩小搜索范围,从而显著提高搜索结果的准确度。中文搜索引擎并非都支持控制符。主要的引擎供应商都声称他们的引擎能够跟上整个因特网的膨胀速度,但是,万维网是分布式的、动态的、快速增长的信息资源,这对于传统的信息收集技术来讲有着不可克服的困难。传统的信息收集技术是为不同环境设计并代表性地用来索引一个静态的、且可以直接访问的文档。而万维网的发展带来一些重要问题

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号