自然语言检索.ppt

上传人:灯火****19 文档编号:138254547 上传时间:2020-07-14 格式:PPT 页数:17 大小:342.50KB
返回 下载 相关 举报
自然语言检索.ppt_第1页
第1页 / 共17页
自然语言检索.ppt_第2页
第2页 / 共17页
自然语言检索.ppt_第3页
第3页 / 共17页
自然语言检索.ppt_第4页
第4页 / 共17页
自然语言检索.ppt_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《自然语言检索.ppt》由会员分享,可在线阅读,更多相关《自然语言检索.ppt(17页珍藏版)》请在金锄头文库上搜索。

1、自然语言检索,2012情报学 于博,自然语言基本概述,什么是自然语言 自然语言又称“日常语言”,它是在长期的社会实践中约定俗成的用于在日常生活中表达和交流思想的工具 特点:语汇、涵义极为丰富,但有歧义,自然语言基本概述,自然语言,情报检索语言,情报语言,自然语言基本概述,情报检索语言 分类法语言 主题法语言 代码语言,受控制语言,自然语言,日常使用的语言,无控制语言,所谓受控语言,是指人们从自然语言出发, 根据检索的需要, 依据一定的规则对自然语言进行事先规范而形成的人工语言,其实质是表达文献情报特征的概念及其相互关系的概念标识系统。 自然语言则是指人们日常生活中使用的语言,是在情报检索中使用

2、文献作者原来所用的语言,或文摘编写者原来所用的语言。,自然语言基本概述,自然语言与情报检索语言比较,自然语言与情报检索语言比较,自然语言检索是情报检索的趋势 随着近些年网络情报检索的发展,传统的检索语言由于条条框框太多,在一定程度上限制了它的应用。 自然语言由于未经任何的规范化处理, 比较符合人们的检索习惯。自然语言词汇专指度比较高,可以实现对文献的深度标引,进而实现全文检索;使用自然语言不会使得概念的表达失真,标引与检索不统一;人工标引和自动标引可以自由选择,不存在各种语言兼容等问题。,自然语言检索的困难,汉语自动分词问题 词义模糊性、不确定性问题 词间关系的无控制性问题,自然语言检索策略,

3、自然语言的三种控制模式 标引控制 检索控制 标引不控制 检索控制 标引控制 检索不控制,后控制,自然语言检索策略,后控制 在标引阶段和检索的人机接口处使用的仍然是自然语言,在检索系统内存有一个概念的集合:当系统接收到用户的一个或多个自然语言检索标识后,能自动地在该集合中进行概念的搜索,得到与此标识相关的更多概念,然后再选取能确切表达用户意图的词作为检索词,最后给出检索结果。 入口词表、后控词表,自然语言检索策略,受控语言与自然语言结合使用 受控语言与自然语言并行使用 建立后控制词表 入口词表 以自然语言作为自由词进行补充标引 自动赋词标引或自动赋分类号,基于ontology的自然语言检索,On

4、tology 原本是一个哲学概念。用于描述客观事物的本质, 是对客观存在的一个系统的解释和说明。 1991 年,Neches 等人最早给出了Ontology 的定义:给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成的规定这些词汇外延的规则的定义,基于ontology的自然语言检索,共享概念模型的明确的形式化规范说明 (1)概念模型(Conceptualization); (2)明确(Explicit); (3)形式化(Formal); (4)共享(Shared)。 把现实世界中的某个领域抽象成一组概念(如实体、属性、进程等)及概念之间的关系,然后构造出这个领域的本体。,基于o

5、ntology的自然语言检索,传统自然语言的检索过程 用户利用自然语言直接输入检索请求,系统接收检索请求,同时对其进行语法分析,将其转换成计算机可识别的短语。向系统提交用户的检索意图,查找到源文本,并对其进行排序、去重处理,最后向用户提交查询结果,完成整个检索过程。 基于Ontology 的自然语言检索的过程 首先必须在一个具体的领域建立Ontology, 然后根据具体的要求收集信息,并对收集后的信息进行注释,依靠本体将用户的查询请求从语义上进行分析, 使用户的查询请求更为清晰、明确、规范,匹配算出符合用户需求的信息,将结果提供给用户。,基于ontology的自然语言检索的优势,消除自然语言的歧义 实现语义检索,提高检索效率 构建用户兴趣模型,Thank You !,2012情报学 于博,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号