搜索引擎信息组织的优化研究

上传人:E**** 文档编号:118273585 上传时间:2019-12-11 格式:PDF 页数:8 大小:322.64KB
返回 下载 相关 举报
搜索引擎信息组织的优化研究_第1页
第1页 / 共8页
搜索引擎信息组织的优化研究_第2页
第2页 / 共8页
搜索引擎信息组织的优化研究_第3页
第3页 / 共8页
搜索引擎信息组织的优化研究_第4页
第4页 / 共8页
搜索引擎信息组织的优化研究_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《搜索引擎信息组织的优化研究》由会员分享,可在线阅读,更多相关《搜索引擎信息组织的优化研究(8页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎信息组织的优化研究4 司莉 分析了搜索引擎信息组织存在的问题,提出了应用规范词表、后控词表、联机词汇展 示、建立同义词典、属性链表词典、专业词袁挂接、概念搜索引擎模式等关键词搜索引擎信 息组织的优化对策。对于主题指南搜索引擎,提出了引入和吸收传统分类法的原理、建立超 文本导航系统、加强网页自动分类系统的开发与研究、确立创建网络信息分类法应遵循的 基本原则、合理借鉴现有搜索引擎设置类目体系的经验以及增设舍义与范围注释等优化 措施。 2 0 0 4 年1 月1 5 日,C N N I C ( 中国互联网信息中心) 发布第1 3 次互联网报告,用户上网目 的调查结果显示,将获取信息作为上网最

2、主要目的的网民所占比例最多,达到4 6 2 。1 1 搜索 引擎作为网络信息导航,是检索信息的主要工具。分析其信息组织存在的问题,提出优化的对 策与措施是提高检索效率的重要理论与实践课题。 1搜索引擎信息组织方式 根据所使用的技术及信息组织方式,可将搜索引擎划分为两大类:目录导航式搜索引擎 ( 又称主题指南搜索引擎) 和基于R o b o t 的搜索引擎( 以称关键词搜索引擎) 。目录导航式搜 索引擎由人工发现、抓取、辨别网上信息,按照图书分类、学科分类或其他分类依据,建立主题 树分层目录,将采集、筛选后的信息分f 3 N 类地归人各大类或子类之下。也就是将信息资源按 照某种事先确定的概念体系

3、,分门别类地逐层加以组织,用户通过浏览的方式层层遗历直到 找到所需的信息线索,再通过信息线索连接到相应的网络信息资源。“。 基于R o b o t 的搜索引擎,利用称作R o b o t ( 也称S p i d e r 、w e bC r a w l e r 等) 的程序自动访 问w e b 站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其 他站点上。搜集的网页加入到搜索引擎的数据库中,以固定的记录格式存储,用户通过关键 词及其组配查询,检索所需要的信息线索( 即相关站点链接) ,并通过信息线索直接链接 到相应的网络信息资源。本文为方便论述,分别对这两种搜索引擎信息组织

4、的优化进行 探讨。 国家社会科学基金项目“网络信息组织模式的优化研究”( 0 3 B T Q 0 2 1 ) 系列论文之一 2 5 4 2 关键词搜索引擎信息组织的优化 2 1 关键词搜索引擎存在的主要问题 2 1 1 从检索实例来看 笔者于2 0 0 4 年9 月1 6 日选取“搜索引擎+ 存在问题”、“元数据”、“网页分类”3 个关键 词分别作为检索入口词,对搜索引擎“百度”进行检索,检出结果分别为1 3 50 0 0 篇、6 42 0 0 篇 和7 81 0 0 篇;再分别以“s e a r c he g i ”p r o b l e m ”、“m e t a d a t a ”、“w

5、e bc l a s s i f i c a t i o n ”作检索词对 g o o g l e 进行检索,检出篇数分别是:63 3 00 0 0 篇、21 8 00 0 0 篇和40 0 00 0 0 篇。“命中”的似是 而非的网站名称成千上万甚至更多,其中大量结果与检索需求关系很小,甚至毫不相关,我们 不得不依次进行浏览,耗费大量时间与精力在返回结果中查找、筛选所需内容。检准率太低是 关键词搜索引擎的致命缺点,这是由于搜索引擎大多采用自动标引方式所致,同义词、近义词 得不到控制,词间关系得不到揭示。 2 1 2 从标引方式上看 , 搜索引擎r o b o t 软件自动从自然语言编写的网页

6、中搜集关键词,建立索引数据库,提供关 键词检索途径。这种自动标引方式,不作词汇规范和词问关系显示,增加了获得较高检索效果 的难度。同义词及准同义词大量并存,一词多义现象,词与词之间关系不明确,无法清楚显示 概念之间的关系。另外,自然语言中学名与俗称、新称与旧称、全称与简称、同一产品的命名、 绰号与型号、不同译名、不同书写形式的词、词索可倒转的词、一般近义词、实指同一问题的反 义词和否定词以及两种语言的等价词等大量存在,造成了检索内容的严重分散。检索过程中 必须将这类词视为等同词,才能保证检全率。 2 2 关键词搜索引擎的优化 从检索实例与对标引方式的分析来看,解决关键词搜索引擎信息组织存在问题

7、的关键是 词汇控制。 2 2 1 词汇控制目的 著名的情报语言学家兰开斯特( F W L a n c a s t e r ) 认为:所谓词汇控制,就是把自然语言加 工成检索语言的情报控制过程。词汇控制的目的主要有:一是促进标引员和检索者对主题事 物表达的一致性,从而避免相关资料的分散,可通过同义词和近义词的控制( 合并) ,以及同形 异义词的区分来实现;二是通过将纵聚合和横组合关系的词连接起来,以促进对某一主题进行 全面检索,实现扩检与缩检。未来情报语言学研究的重点之一就是:通过对词汇进行控制,实 现情报检索中自然语言的人工化和情报检索语言( 人工语言) 的自然语言化。 2 2 2 词汇控制的

8、措施 1 规范化词表的应用 规范化词表,即规范化检索语言,是指对检索语言中的同义词、同音词、多义词、同形异义 词、近义词等进行规范化处理的语言,通过对概念及词间关系加以控制和规范,使每个检索词 含义明确,以便准确检索,防止误检、漏检。其措施主要为:一是主要对词形词义控制,同形异 2 5 5 义词进行概念限定,对可能引起歧义的主题词进行涵义注释。二是对词问关系控制,即对词汇 问的等同、等级以及相关关系用Y ( 用) 、D ( 代) 、S ( 属) 、F ( 分) 、c ( 参) 进行控制。 但由于标引人员对词表、分类表的理解与使用难以统一,将自然语言转换为规范语言词汇 时,容易造成情报失真,词表

9、的建设也赶不上自然语言的发展。因而,笔者认为,这种方法不是 最佳方案。 2 后控词表技术的应用 后控制词表,Y - N 只供检索词表或不断增长词表。它是利用先控语言的原理和方法编制 的自然语言检索用控制词表,主要是对自然语言中大量存在的等同关系、等级关系和大部分的 相关关系进行控制与揭示,通过这些措施达到对自然语言检索中的各种不利因素的事后控 制。”后控词表是全文系统的一个“转换系统”,相当于入口词表,也是一个“扩检系统”,还是 “词间关系的显示系统”。用户借助于这种词表,可以在很大程度上弥补全文系统由于自然语 言标引的“不控制”产生的主要问题和不足,从根本上改进全文检索系统的性能,提高系统的

10、 效率。 侯汉清提出采用将自然语言检索标识与某种词表或分类表相对应的方式,利用中国分 类主题词表( 第一卷,分类号一主题词对应表) 作为框架,将标引中积累下来的自由词作为人 V I 词纳人其中,设计与编制新闻信息数据库后控词表。”虚拟图书馆中用自然语言标引,N A 后控词表实现词汇控制,是一个较理想的解决方案,臧国全提出具体的实现步骤。”3 3 联机词汇展示 顾名思义,是允许用户浏览系统使用的词汇,使其能从中选取适当的词汇进行检索。“能 够将用户的检索词汇转换成规范词汇。透过浏览词汇的过程,了解系统的知识构架。以 M u h i T e s 为例,它利用以字母顺序为主的逐层展示架构作为浏览的起

11、始点,检索者点击选定某 一字母时,系统则进入以该字母为开头的控制词汇。检索者可以点击相关词汇,方便地进行扩 检与缩检。 4 建立同义词典 用户常以一个或几个检索词代表概念,作为切入点或人口词,获得一定量的网址,再以这 些主页为人1 2 1 开始在网上漫游。必须尽可能将相关词汇列出,才能获得较高的检全率。而许 多用户并不知道应尽可能将相关词汇列出才能提高检索效率,也不太可能花时间键人所需的 全部词汇,因为,返回结果的去重工作会花费大量时间与精力。这就需要建构概念与词汇间的 明确关系,才能有效地提高检索效率。其方法是将原始查询问句中的检索词汇一一与同义词 典进行比对,搜寻同义词典中的相符词汇,将该

12、词汇所属词汇群中的其他词汇加入到原始查询 语句。 5 建立属性链表词典 属性链表方法的核心是往词条节点中增加若干域,将标准词和所有的表现词用一个链表 链接起来,并用一个指针从表现词指向标准词节点。这样就能迅速从标准词得到表现词,也可 从表现词得到标准词。”o 而在以传统方法建立的词表很难统计“文本中相同意义的词( 概念) ”,要回答某一标准词 有哪些同义词时,必须遍历全部词表才能得出答案。 6 专业词表的挂接 引人超文本技术,实现专业词表编制与维护的机读化,挂接在基于专业词表基础上的搜索 2 5 6 引擎中,用户查寻时,通过浏览词表进行入口词汇的选择,提高检索效率。 7 建立概念化搜索引擎 概

13、念化的搜索引擎即通过对文献中的原文信息进行语义上的自然语言处理,析取各种概 念信息,并由此形成一个知识库,然后根据对用户提问的理解,检索知识库中的相关信息,以提 供直接的回答。口1 这一功能的搜索引擎可借助于同义词表对用户输入的关键词自动添加同义 词,这样有助于提高检全率。 3 主题指南搜索引擎的优化研究 3 1 主题指南搜索引擎存在问题 1 在类目设置与类目名称方面 笔者于2 0 0 4 年9 月1 1 6 日间对以下几种搜索引擎的分类大纲和二级类目设置数量进 行调查,结果列于表1 1 。 表1 18 种搜索引擎分类太纲殛二级类目数量对照表 C n Y a h o oS o h u1 6 3

14、 o o i E ,S i n a c o r n l y e o s c o i n c n北极星 l o o k s m a r t g o o g l e 一 一J一 一 一 一J 一 一 一 J 级级级级级,级级级级级级 级 级级级 级 娱乐 3 2娱乐休闲1 9经济金融2 7娱乐休闲2 9公司企业4 2休闲娱乐1 3计算机7艺术4 8 休闲与 2 3工商经济3 4电脑网络2 0生活服务3 1商业经济3 5运动健身9娱乐7商业5 1 生活 商业与 3 0公司企业7 6新闻出版1 5教育就业3 9生活服务2 9生活服务1 4兴趣与 经济爱好 6计算机 5 0 健康与 4 3文学2 9娱乐

15、休闲2 3社会文化3 6体育健身3 4新闻媒体6 家庭与 6游戏3 1 莲药与出版社家政 新闻与参考与 3 7体育健身2 7艺术1 7政法军事1 9文学小说2 5文化艺术56健康4 3 媒体教育 计算机与 参考资料2 4卫生健康3 1科学技术 2 7个人主页 1 6科学技术2 0 1 5地区 5 2世界 7 4 因特网 政府与 9生活服务2 0政法军事1 2求职与1 9参考资料2 5医疗与社1 0科学与1 6家庭2 5 政治招聘会福利 健康 艺术与儿童与青 2 3社会文化2 3生活资讯2 l文学3 0社会文化2 9教育8购物61 4 人文 少年 电脑与因 8 3社会科学2 8情感绿洲1 4体育

16、健身3 l国家与3 8基础科学1 1 社会与 1 2新闻2 8 特网地区政治 区域 d国家地区 3 7时尚搜索1 7 8科学技术2 7电脑网络2 8社会科学1 2体育7娱乐4 1 农工贸及 科学 4 3电脑网络2 3公司企业2 9新闻媒体3 0旅游交通2 42 7旅游6参考资料2 7 相关科学 社会与 2 7教育培训3 7社会文化2 3商业经济2 4教育就业3 3金融 6 工件与 7地区 l l 文化金钱 教育 3 4艺术2 7教育学习2 3艺术2 9医疗保健4 1房地产5 科学 2 9 2 S 7 ( 续表) C n Y a h 0 0 S o h u 1 6 3 c o r n l y e o s c o m e l l北极星 l o o k s m a r t g o g g l e 一一J一一一一一一 级级级级级级级级级级级级级级级级 计算机与 机关

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号