文档详情

分词歧义消解

夏日****8
实名认证
店铺
PPT
2.33MB
约41页
文档ID:330016966
分词歧义消解_第1页
1/41

第3章 分词歧义消解n分词歧义类型n基于规则的分词消歧n基于统计方法的分词消歧3.1.1分词歧义的类型n切词中的歧义n词的歧义n结构歧义n指代和省略中的歧义n更复杂情况切词中的歧义n定义1:汉字串AJB称作交集型切分歧义,如果满足AJ,JB同时为词此时的汉字串J称作交集串n定义2:汉字串AB称作多义组合型切分歧义,如果满足A、B、AB同时为词汉语真实文本中的分词歧义情况(续)词的歧义n一词多个词性例:汉语学习很重要 他们努力学习汉语n一词多义例:红旗和绿旗 高举先烈的红旗结构歧义n“VP+的+是+NP”反对|的|是|少数人n“N1+N2+N3”型歧义结构 北欧|语言|研究会n“ADJ+N1+N2”型歧义结构 小|学生|词典结构歧义n“VP+N1的+N2”咬死了|猎人|的|狗n“VP+ADJ+的+N”型歧义结构 喜欢|干净|的|小孩n“N1+的+N2和+N3”型歧义结构 衣服|的|袖子|和|口袋n指代和省略中的歧义n指代中的歧义 老师给大家讲了一个动人的故事,这使大家很激动n省略中的歧义 他说不清楚不同的人对“词”的认识有差异3.2基于规则的分词消岐法n最大匹配法+规则n最短路径法+规则通用分词规则n构词规则+排歧规则n构词规则n成词切分优先n单字方位词不组词n量词优先n单词动词尽可能单独切分n链长为2的交集字段自然成词通用分词规则n构词规则+排歧规则n排歧规则n前缀词素构词规则n后缀词素构词规则n重叠字构词规则最大匹配法+规则分词原则:n颗粒度越大越好n切分结果中非词典词越少越好,单字字典词数越少越好n总体词数越少越好双向最大匹配n我们在野生动物园玩,maxLen=5n正向:我们/在野/生动/物/园/玩n逆向:我们/在/野生动物园/玩n选择n非字典词:正向(1)逆向(0)(越少越好)n单字字典词:正向(2)=逆向(2)(越少越好)n总词数:正向(6)逆向(4)(越少越好)?最大匹配法+规则最短路径分词法3.3基于统计方法的分词消岐n基于统计的最短路径分词法 最大概率法分词 基于互信息和t-测试差的歧义切分方法最大概率法分词n基本思想:在词图上选择概率最大的分词路经作为最优结果最大概率法分词最大概率法分词n动态规划算法:最优路径中的第i 个词Wi 的累积概率等于它的左邻词Wi-1的累积概率乘以Wi自身的概率。

n为方便计算,一般把概率转化为路径费用(代价)最大概率分词法的实现:动态规划算法最大概率法分词示例(续)基于互信息和t-测试差的歧义切分方法互信息互信息 对有序字符串xy,汉字x、y之间的互信息定义为:其中p(x,y)是x,y的邻接同现概率,p(x),p(y)分别表示x、y的独立概率若在字容量为N的汉语语料库中,x、y的邻接同现此时为r(x,y),x、y的独立出现次数分别为r(x),r(y),则上式各量下列各式估计:互信息反映了汉字对间结合关系的紧密程度:当I(x,y)0时,则p(x,y)p(x)p(y),此时x、y间有紧密结合关系,I(x,y)值越大,结合度越强当I(x,y)0时,则p(x,y)p(x)p(y),此时x、y间有结合关系不确定当I(x,y)0时,则p(x,y)0时,字y有与后继字z相连的趋势,值越大,相连趋势越强当 =0时,不反映任何趋势当 0,0,x,y之间倾向于连,且趋势比单独使用 或 更显得突出当 0 时,x,y之间相互排斥,必有 0,0时,y吸引x同时w吸引y,产生竞争若 0,则倾向于连,若 0,则倾向于断当 0时,x吸引y同时v吸引x,产生竞争若 0,则倾向于连,若 0,则倾向于断。

算法流程:算法流程:nSEVEVAL词义消歧系统评测。

下载提示
相似文档
正为您匹配相似的精品文档