自然语言

上传人:jiups****uk12 文档编号:56956373 上传时间:2018-10-17 格式:PPT 页数:87 大小:1.60MB
返回 下载 相关 举报
自然语言_第1页
第1页 / 共87页
自然语言_第2页
第2页 / 共87页
自然语言_第3页
第3页 / 共87页
自然语言_第4页
第4页 / 共87页
自然语言_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《自然语言》由会员分享,可在线阅读,更多相关《自然语言(87页珍藏版)》请在金锄头文库上搜索。

1、1,第四章 自然语言与信息组织,2,4.1 自然语言是一种发展趋势 4.2 自然语言的应用方式 4.3 汉语自然语言的特殊问题及分词技术 4.4 单汉字检索 4.5 后控词表 4.6 自然语言检索的效率问题 4.7 自然语言与分类主题语言的比较 4.8 大众分类法TAG,3,4.1 概述,自然语言在信息组织与检索方面的应用是以计算机检索为前提的; 自然语言本身有突出的优点; 研究广泛; 汉语分词技术的发展; 节省时间,建检索系统速度快; 多数数据库都具有自然语言检索功能。,4,4.2 自然语言的应用方式,自然语言在信息组织与检索中大致有三种应用方式: 不标引(无标引)方式 自动抽词标引方式 人

2、工标引方式,5,4.2 自然语言的应用方式,不标引(无标引)方式 文本关键词匹配检索 单汉字检索 文本检索作为辅助检索途径,标引 对信息单元的内容进行调查,形成其相应概念概念标引,主题分析; 将概念转换为检索语言标识符号标引,6,文本关键词匹配,数据库中存储的是文本(全文、摘要、标题),不进行任何标引,检索时用关键词进行匹配,多称为文本检索; 如果是针对全文数据库,则称为全文检索; 检索表达式可以是词、词的组配; 最普通的应用方式。,7,字符串匹配检索算法,精确匹配检索 假设两个串t和p: t=t0t1t2tn-1 目标 p=p0p1pm-1 模式 其中,1mn(通常m= 0;x与y关系弱时,

3、MI (x , y )0;而当MI(x , y ) 0时,x与y称为“互补分布”。 最大熵模型(ME, Max Entropy)在已知条件下选择一个合适的概率分布来预测事件。,38,规则和统计结合的方法,通常利用词典进行初切分,然后用其它的概率统计方法和简单规则消歧和进行未登录词识别。 比如: 利用词典匹配进行初切分得到一个切分词图,然后利用词频信息求词图N条最短路径的N-最短路径法。 最大匹配算法、state-of-the-art分类器和支持向量机的结合。 通过词典匹配找出所有交叉歧义,利用Bigram语言模型或其变形来消除歧义。,39,基于字的切分方法,N元切分法(N-gram) :对一个字符串序列以N为一个切分单位进行切分。 如二元切分法: “ABCDEFG” “ABCDEFG” 交叉二元切分法(Overlapping Bigram):“ABCDEFG” “ABBCCDDEEFFG” 简单快速,但会产生大量无意义的标引词,导致标引产生的索引文件的空间,以及检索和进行标引的时间都大大增加。同时,因为它的切分单位并非语言学意义上的词语,所以也会导致检索的查准率下降。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号