天网搜索引擎设计概述

上传人:枫** 文档编号:509446170 上传时间:2023-07-31 格式:DOCX 页数:33 大小:493.88KB
返回 下载 相关 举报
天网搜索引擎设计概述_第1页
第1页 / 共33页
天网搜索引擎设计概述_第2页
第2页 / 共33页
天网搜索引擎设计概述_第3页
第3页 / 共33页
天网搜索引擎设计概述_第4页
第4页 / 共33页
天网搜索引擎设计概述_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《天网搜索引擎设计概述》由会员分享,可在线阅读,更多相关《天网搜索引擎设计概述(33页珍藏版)》请在金锄头文库上搜索。

1、一个海量ftp信息的搜集与服务系统的设计与实现-陈华 2001.6.10摘要在因特网上对众多FTP站点进行快速的文件条目查找,是网络信息搜索的重要 组成部分。本文以“天网” FTP搜索引擎为例,介绍了千万级基于WEB的强大的 FTP搜索引擎的设计与实现,并重点分析了系统所采用的关键技术和方法。关键词FTP, 搜索引擎, WWW AbstractFTP Search Engine is a powerful tool to search useful files for users from various resourceful FTP sites. In this paper, mainly

2、 described are the design and implementation of our FTP search engine, as well as the key technologies and methods we adopt. Keyword FTP, Search Engine, World Wide Web目录一、 引言4二、搜索引擎的历史与发展4a) 搜索引擎的起源4b) 真正意义的搜索引擎.4c) Ftp 的搜索引擎.5I、基于文本的ftp搜索引擎:Archie。.5II、基于Web的Ftp搜索引擎。 5三、天网ftp搜索引擎的现状.5a) 天网 Ftp 搜索产生

3、的起源与发展历史。 .5b)天网ftp搜索引擎的现状6i.提供的功能61.文件类型的分类.62.时间过滤63.大小过滤64. 精确匹配65.站点限制66. 结果中查询功能.67. 支持常用的*,?,与,并 操作.78. 多语言版本79.快捷方式系统.7ii.数据量.71.站点数量在3000以上72.文件条目 1300万左右73. 快捷方式约一千条.7iii.访问量.71. 日页面下载量在 3 万左右.7c) 搜集建库模i.搜集建库过程说明.14ii.站点获得策略14iii.并发搜集策略15iv.分布搜集策略15v.多次尝试和断点续搜.15vi.线性的建库过程.15vii.数据库的切换16) 搜

4、索服务模块.16i.搜索服务过程说明16ii.服务接口说明17iii.匹配算法.17iv.Cache 策略182. 日访问人数在 1.5万以 上四、海量ftp搜索引擎的系统结构设 计a) 系统的结构设计:四大模块和五个数据 库9b) 数据库功能和结构说 明i.ii.10iii.iv.v.文件类型库 站点列表 库 素材数据 库 索引数据 库 快捷方式数据 库1310111112v.强大的过滤功能的实现1.2.3.18vi.4.5.文件类别过滤文件大小过滤文件最后修改时间过滤站点过滤精确匹配18对“与”、“并”、*、?操作以及结果中再搜索的支 持19e) WWW 搜索界 面20ii.iii.智能的

5、换页机 制 使用结果页面模 板20.21iv.多语言版本的支持.21v.漂亮、实用的结果输出页 面.22vi.为支持分布搜索的改 进 1. 使用多服务器的可能性和必要.22性2. 分布搜索的实现3. 对分布搜索的加.22.22速.23支持多媒体文件的特别处理技术23i.多媒体文件条目的文件名特殊性以及查询特殊性23ii.一种比较有效的处理技术.23iii.在建库模块的改动.23iv.在 CGI 模块的改 动24CGI参数说i.f)2018181818i.使用快捷方式的原因.24ii.快捷方式系统的关系 图.24iii.文件分类类别层次的显示.25iv.快捷方式条目的显示.25v.注册新的软件v

6、i.过滤用户注册的快捷方 式26vii.管理快捷方式系 统.26天网ftp搜索与国内国际Ftp搜索引擎的比较.26a)国内国际ftp搜索引擎系统按原型分类说明:.26g) 快捷方式系26b)五、24c)d)功能比 较: 数据量比 较: 速度比 较:2728282829六、天网 Ftp 搜索引擎未来的发 展 七、结束语一、引言 今天搜索引擎的核心是网络导航服务,搜索引擎是一个网络门户,他们提 供新闻,在线图书馆,词典,以及其它网络资源,他们提供了不仅仅是网站搜索 的服务,他们的涉及面越来越广,也越来越有用。比如,Yahoo!注重的是网站分 类归总服务,而如 Alta Vista, Excite

7、等则注重提供庞大的搜索数据库。根据中国 互联网络信息中心(CNNIC)有关中国Internet发展状况统计报告,搜索引擎是除 电子邮件以外网民使用最多的服务。面对浩如烟海的网络信息资源,网络搜索与 导航已成为网络用户必不可少的工具。与相对众多的WWW搜索引擎相比,功 能强大的FTP搜索引擎并不常见,由此限制了人们对具有大量信息与资源的FTP 站点的访问。实现一个高速、海量、功能强大而又基于WEB的FTP搜索引擎将 为网络用户提供极大方便。为此,北京大学计算机系网络与分布式系统领域最新开发出了 “天网” FTP 搜索引擎,并已作为“天网”中、英文搜索引擎1, 2的一个子系统在网上提供服 务,获得

8、了广大用户的一致好评。本文将从“天网” FTP搜索引擎的系统结构与 算法出发阐述一种千万级FTP搜索引擎的设计与实现的方案。二、搜索引擎的历史与发展a) 搜索引擎的起源1991年,XWAIS版本提供了一个有着友好界面的信息搜索系统,但 这个系统要求很特殊的文件格式。而在同一年还出现了另外一个信息搜 索系统,这是我们所称之为的 GOPHER。 Gopher 是一种按菜单形式 组织的分布式文档查询系统 , 最初在 Minnesota 大学发展起来(1991 年),开始用于校园网,后来推广到Internet. Gopher为用户查询信 息提供一个多级的菜单界面, 只需按照菜单指示的路径就能获取你想要

9、 的信息,使用非常方便.Gopher由Gopher客户(Gopher Client)程序 和Gopher服务器(Gopher Server)程序两部分组成.在Internet上建立 了数以千计的运行Gopher服务器程序的Gopher服务器.它们是一些能 为用户提供信息查询服务的计算机系统. 到1995年初的统计, 约有 6, 000 主机安装了 Gopher Server, 遍及全世界 100 多个国家. 绝大多数 Gopher 服务器都是向 所有 Internet 用户开放的. Gopher 系统的主要 信息形式是正文文件. 信息文件可能驻留在不同的计算机上, 通过目录 结构把它们链接在一起. 一个 Gopher 服务器的所有信息文件组成一棵 信息树. 由于这种链接是透明的, 用户查询时可以在信息树之间自由穿 越, 不必考虑信息的物理位置. Gopher 客户程序是用户端的信息浏览 程序,用于同Gopher Server进行对话.用户查询时, 通过Client对 Server 发出查询请求; Server 接收这种请求并把查询结果送回 Client. 任何一台能够通过某种方式与 Internet 连接的计算机, 都可以通过一 定方法成为 Gopher client .b) 真正意义的搜索引擎最早的真正意义上的搜索引擎是Lycos,创建于1994年

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号