网络信息组织与利用 第十讲

上传人:子 文档编号:52251210 上传时间:2018-08-19 格式:PPT 页数:61 大小:1.76MB
返回 下载 相关 举报
网络信息组织与利用 第十讲_第1页
第1页 / 共61页
网络信息组织与利用 第十讲_第2页
第2页 / 共61页
网络信息组织与利用 第十讲_第3页
第3页 / 共61页
网络信息组织与利用 第十讲_第4页
第4页 / 共61页
网络信息组织与利用 第十讲_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《网络信息组织与利用 第十讲》由会员分享,可在线阅读,更多相关《网络信息组织与利用 第十讲(61页珍藏版)》请在金锄头文库上搜索。

1、网络信息组织方法 主题法 第二讲网络信息组织与利用 第十讲 传统主题法在网络资源组织中的应用 网络主题检索系统主题语言在网络资源 组织中的应用 主题法是网络资源信息组织的一种主要模 式。 在网络资源组织中,主题法的使用一般分 为两种形式: 采用现有的词表,包括叙词表和标题表 广泛采用关键词法高级关键词查询 区分大小写查询:有的搜索引擎能够区分 检索词的大小写,将同一个词大写形式和 小写形式视为不同的词进行查询。 自然语言查询:用户可直接用自然语言的 字、词、句子作提问式,系统可以自动分 析提问的要求,识别需要查询的关键词及 词间关系。自然语言查询使检索变得直接 、简单,特别适合非专业的检索者。

2、现有主题词表 在网络资源组织中的应用 目前,适用现有主题词表组织网络信息资 源的还不多,主要是美国国会图书馆标 题表(LCSH)和医学主题词表( MeSH)。现有主题词表 在网络资源组织中的应用采用LCSH: InterCat: A Catalog of Internet Resource (OCLC); Canadian Information By Subject(Library and Archives Canada)现有主题词表 在网络资源组织中的应用采用MeSH的有: CliniWeb Browse (Oregon Health Sciences University) OMNI (

3、Organizing Medical Networked Information)http:/omni.ac.uk/browse/subject-listing/alphalist.htmlhttp:/omni.ac.uk/browse/mesh/a.html网络主题检索系统 网络主题检索系统概述 索引模块的结构组成 关键词索引的查询、检索提供和优化 词汇控制 链接控制 关键词搜索引擎的特点及发展前景网络主题检索系统概述 网络主是检索系统的特点 网络检索系统的类型 关键词搜索引擎的组织特点和要素网络主是检索系统的特点 概念:网络主题检索系统是一种直接通过 表达信息内容特征的词汇,对网络信息进

4、行检索的工具总称。关键词搜索引擎是典 型代表,起源于1994年的webcrawler.随 后有lycos,excite,infoseek,alta vista等。网络主是检索系统的特点 优点: 可以直接使用检索的对象进行查找 通用性强。可以使用自然语言 专指度高。直接检索特定内容对象的信息 信息量大,时效性强。使用机器采集,成 本低,及时快捷网络主题检索系统的特点 不足点: 缺乏系统检索能力。族性检索差 信息质量缺乏控制,查准率低 检索需要掌握技巧。网络检索系统的类型 根据标引语言:自然语言系统和控制语言 系统 根据处理的信息对象:综合性、专业或专 类(学科)、专门(如视频等)主题检索 工具

5、关键词主题检索工具是网络组织的主流关键词搜索引擎的组织特点和要素 特点 后组。信息组织只提供了组织的基础和进 行各种检索操作的可能。由用户在检索阶 段实施组配 自由组配。组织的限制小,无定式 隐含。不可浏览,只在检索相应的部分关键词搜索引擎的组织特点和要素 直接构成成分 索引及相关工具:基础结构,由索引模块 建立 检索界面及提供方式:是根据用户需要确 定的实施组织的条件和形式 检索优化:重组机制。关键词搜索引擎的组织特点和要素 组织要素 词法 句法 其它相关要素,如链接、用户因素。 算法索引模块的结构组成索引模块是主题搜索引擎组织和检索的基础 ,通常应根据网络信息的特点烽检索的需 要建立并结合

6、适合的技术加以实现, 关键词搜索引擎索引的构成 网络信息的数据特点关键词搜索引擎索引的构成 关键词搜索引擎建立的索引以及相关工具包括: 顺序索引:以信息为中心建立,将所采集的网络信息顺序编 号 倒排索引(内容索引):以索引词为中心建立倒排列表的集 合,每个词后是一个经过排序的列表,记录词在网页中出现 的次数、位置及其它信息。网页以标识语言,可依据标识语 言对网页结构的记录获取相关信息 结构索引(链接索引):根据网页的链接资源建立的索引 实用索引:结合搜索引擎检索界面提供的实际功能建立的索 引 用户日志:记录用户的操作数据 辅助词典和工具。网络信息的数据特点 搜索引擎的组织效果与索引和索引的数据

7、特点相关 ,因此网页数据成分及其质量在相关性处理上占有 重要位置。 作为相关性处理和组织依据的因素涉及多种成分: html,标记,url,链接,锁定文本,相应的目录数据 ,日志等。网络信息的数据特点 网络信息数据与传统信息数据处理因素比较网络信息识 别要素传统 信息数据对 应因素说明结构数 据Html标识传统 文献结构数 据 资源地 址url发表来源、地址传统为 人工 标引 相关数据 链接、锁定 文本引用数据主题标 注主题指南中 类目数据元数据中的分类 、主题标识传统为 人工 标引 检索数 据检索日志检索记录关键词索引的查询、检索提供和优化 查询 检索排序和算法 优化关键词法在搜索引擎中的应用

8、 主题语言在网络信息组织中的应用目前主要表 现为关键词语言在网络搜索引擎中的广泛应用 。 几乎每一个搜索引擎都具有关键词检索功能, 这意味着搜索引擎的索引数据都采用了关键词 法进行信息组织,也就是从网站、网页的题名 、地址、摘要,甚至网页的正文中抽取关键词 作为索引词。关键词法在搜索引擎中的应用 不同搜索引擎提供的关键词检索功能不同 ,说明它们对关键词法的应用有一定差异 。 网络搜索引擎的关键词检索功能:简单查 询、高级查询。简单关键词查询 直接在查询框中输入一个或多个关键词, 系统按照自己的规则可能会将输入的关键 词分解为几部分,并将包含每部分字符的 信息都显示出来,也可能查出字面相同但 内

9、容相差很远的信息。 中文关键词查询以单汉字检索技术为基础 时,获得的查询结果与查询要求可能相差 更远。高级关键词查询 布尔查询:大多数搜索引擎具有该功能, 有的允许逻辑与、逻辑或、逻辑非三种逻 辑运算,有的只能进行其中的一两种逻辑 运算。大多搜索引擎采用命令方式,如 AND、OR、NOT,或+、-,或将关键词 之间的空格默认为逻辑与、逻辑或,有些 用菜单选项进行。高级关键词查询 精确查询:又称词组查询,将一个词组当 作一个独立的运算(往往用双引号括起来 ),进行严格匹配,以提高查准率。高级关键词查询 模糊查询:又称概念查询,不仅根据输入 的关键词查询,而且会自动地用关键词的 同义词、近义词进行

10、查询,提高查全率。 检索系统需配备相当于后控制词表的同义 词、近义词词表。高级关键词查询 截词查询:在搜索引擎中,目前大多只提 供右截断法,截词符多采用“”。 位置查询:目前只有少数搜索引擎具有该 功能,而且大多数只有一种邻近位置运算 ,即Near运算。高级关键词查询 字段查询:将关键词查询限定在特定字段 。搜索引擎中,字段查询多表现为限定前 缀的形式。主要限定的字段有:题名( title)、URL、主机名(host)、域名( domain)、链接(link)等。可提高查准 率。高级关键词查询 限制查询:将关键词限制在特定信息范围 内进行查询。限制的信息范围主要有网络 系统,如Web、News

11、group、E-mail等; 信息类型,如文本信息、图像信息、声频 信息等;时间段及语种等。高级关键词查询 管道查询:用管道符号“|”连接两个或多个 关键词,查询时系统自动地先对前一个词 进行匹配,然后在其基础上再对后一个词 进行匹配,依次类推,以达到逐渐缩小检 索范围,提高查准率的效果。检索排序和算法 网络检索数据量大,用户很难完整浏览, 因此排序非常重要 网络关键词检索系统的检索结果提供,通 常采用按匹配加权的方式加以排序显示以 便将最符合用户需求的信息置前,有助于 在提高查全率的前提下提高查准率 检索排序是主题搜索引擎质量评估的关键 因素之一。如google 提供的pagerank算 法

12、网络搜索引擎排序涉及的因素 网页中查询词匹配数量 网页中多个查询词匹配的完备程序 匹配单元和分解问题 网页中术语的位置 标注中术语的位置:如title, link text, body text 本页词频和总词频之比 指向本页的锁定文本 指向本页的链接分析 有时,点击分析 对于新网页,结合考虑新鲜度问题 对于商业因素,例如,某些系统如发现检索对象与人为 增加检索要素的商业公司网站有联系,则不予排列等检索优化 检索优化是指以交互的方式对用户的查询 提供新的检索方案或将用户的检索结果进 行重组,以改进检索效果。检索优化 检索优化在网络信息检索之所以重要,是因为 : 网络检索结果数量多,有必要缩小检

13、索范围, 增加专指度 文本检索的查准率低,有必要通过优化检索方 式加以改进 网络信息涉及的因素多,用户难以同时考虑到 用户多为终端用户,没有检索经验,有必要提 供优化检索方案予以帮助检索优化 优化形式 检索查询优化。以用户检索历史资料为依 据提供帮助 容错检索的同时,提供纠错检索。建立纠 错词表,对用户常见错误进行纠正 在动态聚类的基础提供检索扩充。将聚类 结果作为检索扩充的依据,供检索扩展参 考使用 将聚类结果作为二次检索的依据词汇控制 关键词搜索引擎是以词汇为检索和匹配的依据的,这就 决定了要有效进行组织和检索,必须进行词汇控制,确 定相应的词法和句法,表现为 检索和组织单元 检索句法:对

14、复杂检索内容的表达 为了优化检索的需要,处理一词多义,一义多词的问题 词汇控制是指根据检索需要对词汇进行选择,处理的一 系列活动。 索引单元的选择与检索句法 词间关系控制索引单元的选择与检索句法 词汇索引单元的选择和使用:倒排索引是 关键词搜索引擎组织和检索的基础。由于 词汇是语义表达的基本单元,也是关键词 检索系统进行检索匹配的基本成分,符合 存储和检索的需要。因此以词作为基本索 引单元是一个基本的选择。西文搜索引擎 是以基本词汇为基础建立的。中文由于文 本是按句子连写的,词与词间无空格,计 算机无法直接识别,因此要进行单元选择 。中文常见索引单元和词汇获取方案索引方案特点使用情况索引单元单

15、汉 字索引较高查全率, 存储空间和计 算量使用较少基本词汇为 基 础较高查全率使用基本词汇结 合 词组提高查准率使用词汇的获 取N-gram 法有利于发现 新 词试验阶 段采用基本切分词 曲切词充分,词 组少使用基本切分词 曲+补充词组基本切分, 加大词组量使用索引单元的选择与检索句法 2.组配句法:检索句法及其方式的确定, 关系到检索内容的有效表达问题,直接影 响系统的组织和揭示能力。检索句法的主 要目标是通过明确提供基本的组配形式, 使用用户可以在组配检索中确切表达检索 需求,避免因句法错误赞成次序障碍。同 时,也可以通过基本的检索模式的设置增 加检索系统的易用性索引单元的选择与检索句法 2.组配句法 网络检索的检索模式(改进传统布尔检索) 对常见的同时输入多个检索词但不输入组配符 号的情况,规定了默认的组配方法,增加检索 的易用性,如,google规定,此类情况一律按逻 辑“与”的方式处理 高级界面的易用性,定型化努力。如通过常用 逻辑组配形式设置,加强复杂检索的易用性; 提供语言信息类型等常用组配范畴供用户选择 提供对自然语言检索语句的检索方法。索引单元的选择与检索句法 2.组配句法 中文搜索引擎对检索短句的分解匹配通常 涉及以下因素: 分解单元问题:是否包括与检索相近的分 解单元 分解层次问题。是否彩多层次分解方式 分解策略问题:是否

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号