199706中英文发现系统的转接层子系统、索引子系统的设计与实现.doc

资源描述

《199706中英文发现系统的转接层子系统、索引子系统的设计与实现.doc》由会员分享，可在线阅读，更多相关《199706中英文发现系统的转接层子系统、索引子系统的设计与实现.doc（32页珍藏版）》请在金锄头文库上搜索。

1、北京大学学士学位论文中英文发现系统的转接层子系统、索引子系统的设计与实现论文摘要中国于1994年进入INTERNET，之后INTERNET在中国得到了迅速的发展，中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的，它们或支持中文的能力很差，或根本不支持中文。个别支持中文搜索的搜索引擎，它们的数据库中所包含的中文信息的数量十分小，搜索的结果非常不理想。对于日益增长的中国INTERNET来说，实现一个具有大量中文信息数据库，能够良好支持中文检索的搜索引擎已是一种迫切的需求。本论文所描述的系统即是作者参与设计和实现的一个支持中文

2、的搜索引擎。它即支持对中文，英文的简单检索，又支持逻辑运算，模糊匹配等高级检索。它通过对中文的分词，实现了对在中文词汇一级检索的支持；通过对中文，英文的编码，实现了对中文，英文系统核心实现的一致化；通过两级索引机制和索引项的特殊设计，实现了检索的快速命中。论文首先介绍了系统设计和实现的一些背景资料，介绍了WWW的发展于现状，世界主要搜索引擎及其比较，中文的特点与搜索引擎对中文的支持。之后，描述了系统的整体设计，详细介绍了转接层子系统和索引数据库子系统的设计。关键词：搜索引擎中文分词索引数据库编码方案目录第一章背景介绍.31.1 Internet和WWW的发展与现状.31.2 世界主要得

3、搜索引擎及其比较.41.3 中文的特点和搜索引擎对中文的支持.6第二章系统概述.102.1 系统设计目标.102.2 系统总体结构.10第三章转结层子系统的设计.123.1 转结层子系统的设计思想.123.2 中文编码互换.133.3 中英文编码方案.143.4 中文分词.173.5 中英文词汇的自动学习.19第四章索引数据库子系统的设计.214.1 索引数据库系统的设计思想.214.2 索引数据库的设计.224.3 索引数据库的更新和维护.234.4 索引数据库的检索.25第五章总结展望.295.1 系统测试和评估.295.2 远景展望.29致谢.31参考文献.32第一章背景介绍1

4、.1 Internet和WWW的发展与现状Internet的前身是美国国防部高级研究计划管理局（ARPA）在1969年建立的APPANET网，初期只有4台，其设计目标是：当网络中的一部分因为战争等特殊原因而遭到破坏时，其他部分仍能正常运行。80年代初期，ARPA和美国国防部通讯局研制成功了用于异构网络的TPC/IP协议并投入使用，此后美国加州大学伯克莱分校把该协议作为其BSD UNIX的一部分，使得该协议得以流行。1986年，美国国家科学基金（NSF）以5个科研教育服务的超级计算机中心为基础建立NSFNET网络，以便在全国实现资源共享。90年代初到到现在，是Internet增长最迅速的时期，每

5、天都有许多的主机加入到Internet中，以下是这一时期Internet连接主机数的统计资料：图1.1 90年代Internet连接主机数目统计表（自MIT）随着Internet的迅速发展，Internet的使用性质已从建网初期的科研教育为主，变为现在的商业化，普及化的一种信息资源交流工具。WWW（World Wide Web）起源于欧洲核子研究中心（the European center for unclear research），它最初的目的是用于研究中心内部文档的连接。在1990年9月，第一个基于文本的原形开始运作并在1991年国际超文本会议上作了公众演示。在1993年一月，第一个基于

6、图形界面的WWW浏览器Mosaic诞生了。Mosaic的推出获得了极大的成功，它使得网络脱离了原来单调的字符界面，以及不友好的交互方式，获得了普通用户的喜爱，从而也推动了WWW自身的发展。随着Netscape等新的WWW浏览器的面世，使得WWW浏览器的功能不断加强，WWW信息越来越丰富，这使得WWW具有了更强的吸引力，使得WWW在Internet上的发展势不可挡。WWW的发展速度是惊人的，它的发展速度远远高于Internet的发展速度，但这种发展速度也在随着时间的推移而逐渐下降。在1993年下半年，WWW在不到三个月的时间里翻了一翻。即使到了现在，WWW也在以每六个月翻一翻的速度飞速增长。在I

7、nternet上还支持许多其他服务，如ftp，telnet，e-mail，news，irc等。在WWW产生之前，这些服务占用了Internet的所有流量。WWW产生后，便迅速增长并相继超过了所有的服务，到1995年四月达到了Internet流量的第一位，直到现在还是稳定的处于第一位。中国进入Internet比较晚。高能所是中国第一个进入Internet的单位，在1994年5月。随后，中国教育科研网（China Education and Research Network）在6月也进入了Internet。之后，Internet在中国也得到了十分迅速的发展。到1997年1月，在短短的不到三年的时间

8、里，在cn域下的主机数已达到19739台，这足以证明Internet在中国发展的迅速。1.2 世界主要得搜索引擎及其比较由于WWW的迅速发展，WWW上的信息量急剧增长。在1996年早些时候，Lycos公司通过每日的例行记录，得出的结论是网上大约有1900万网页。根据上面所提及的WWW增长速度，现在网上大概拥有1亿个以上的网页。在如此众多的网页中筛选用户需要的信息，没有十分有效的，自动化的搜索工具是难以想象的。这就象在一个巨大的图书馆中，但这个图书馆没有目录。当用户希望找到一本自己需要的书时，他只能一个一个的书架，一本一本书的查找。这显然对于用户来说是不可忍受的。搜索引擎就象一个自动化的目录一样

9、，它可以帮助用户发现用户所需要的信息来源，并帮助用户去获取它。搜索引擎的工作机制大致如下：首先，搜索引擎用一个绰号为“蜘蛛”的自动代理软件在网址中爬行，访问网络中公开区域的每个站点并记录其网址，从而创建一个详尽的网络目录。而后，搜索引擎根据自己的需要，访问数据库中记录的部分站点或所有站点。系统把“机器人”软件发往要访问的站点，记录每一页的所有文本内容或者从这些信息中提取自己所需的摘要和其他信息。得到的这些信息被存放于一个数据库中，这个数据库必须经常更新，重建，以保持与信息世界的同步发展。最后，数据库中的信息最终是为检索用户服务的。搜索引擎启动一个CGI程序接受用户的搜索请求，把符合用户请求的信

10、息从数据库中提取出来，并按其相关程度排序后输出给用户。随着WWW的迅速发展，专门作为搜索引擎的站点也正以惊人的速度发展。现在网上常用的搜索引擎有Alta Viasta，Excite，InfoSeek，Guide，Lycos，Open Text等第。这些搜索引擎给WWW用户带来了极大的方便。网上的搜索引擎大部分都是对整个WWW进行搜索的。由于搜索的范围相同，各种搜索引擎就有了一种比较的关系。在大量的使用中，各种搜索引擎表现出了许多共同之处，同时页体现出了许多各自的特点。相同之处：1。搜索速度十分快，用户响应时间非常短。搜索时间一般都在12秒之间。这得益于竞争的结果，因为各搜索引擎的设计者都知道速度是用户的最基本需求，在速度上不能满足用户需求将使得他所设计的搜索引擎毫无竞争力。2。搜索结果的准确性依赖于被搜索的内容。对

展开阅读全文