中文词语分析一体化系统

上传人:自*** 文档编号:48462946 上传时间:2018-07-15 格式:PPT 页数:30 大小:371.13KB
返回 下载 相关 举报
中文词语分析一体化系统_第1页
第1页 / 共30页
中文词语分析一体化系统_第2页
第2页 / 共30页
中文词语分析一体化系统_第3页
第3页 / 共30页
中文词语分析一体化系统_第4页
第4页 / 共30页
中文词语分析一体化系统_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《中文词语分析一体化系统》由会员分享,可在线阅读,更多相关《中文词语分析一体化系统(30页珍藏版)》请在金锄头文库上搜索。

1、张华平 刘 群中科院计算技术研究所 2002-5-282纲要 问题背景与难点分析 主要研究方法与相关系统 我们的研究思路基于多层HMM的一体 化方法 基于N-最短路径的词语粗分 基于角色标注的未登录词识别 计算所中文词语一体化分析系统 ICTCLAS 结论3问题背景与难点分析 问题背景v汉语的书面语是按句分开的,词与词之间没有 明确的分隔标记。 v词是最小的能够独立活动的有意义的语言成分 。 v中文信息处理只要涉及句法、语义(如检索、 翻译、文摘、校对等应用),就需要以词为基本 单位。句法分析、语句理解、自动文摘、自动 分类和机器翻译等,更是少不了词的详细信息 。4问题背景与难点分析 II 分

2、词的必要性物理学physicsproductspriceimage bodytheorybarberscienceunderstandreasonschoolstudycreditstudentsubject 物理学physicsphysicistevidence6 5 5 = 150 : 25问题背景与难点分析 III 中文词语分析的主要难点 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣;我们缺人手 全局歧义与局部歧义:乒乓球拍/卖/完了;乒乓球/拍卖/完了;我很/难过 6问题背景与难点分析 IV 未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导

3、最终识别 多样性 复杂性 上下文干扰7主要研究方法与相关系统 当前主要的研究方法 基于规则的方法 最大匹配法(Maximum Matching)正向、逆向 、双向 最优路径(+词频选择)法(最少分词法) 基于统计的方法 (N元语法,HMM) 基于规则和基于统计相结合 其他的一些方法 (压缩,自监督,基于转移的错误 驱动方法等) 8主要研究方法与相关系统II 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交 叉歧义的切之,否则全切分。 “动态规划“和“全切分搜索+

4、叶子评价“9主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin 中的中文词语分析词系统 双向的Chart Parsing,使用了语法规则并以概率模 型作导向 切词-句法分析一体化 北大计算语言所分词和词类标注系统 分词和词类标注结合起来 基于规则的标注排歧与基于语料库统计模型的排歧 结合 处理过程包括了自动切分和初始词性标记、切分歧 义字段识别、组词和标注预处理、词性标记排歧、 切分和词性标注后处理10主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨): 规则与统计的结合,更大意义上是一种组合,两种处理 出现在系统中相对独立的两个不同阶段。

5、 排歧、识别未登录词更多的是利用规则,难以量化。即 使量化,也很难和普通词实现真正量值上的比较。 歧义字段、未登录词作为特殊情况处理,后期处理中没 有与普通词统一。 没有相对统一的处理模型和评估体系。 最终导致:准确率、召回率在开放测试的条件下并不像宣 称的那样理想,尤其是在未登录词、歧义字段存在的情 况里。11我们的研究思路 基于多层HMM的一体化方法 目标:分词、词性标注的一体化;未登录词与普通词处理的 一体化;评估体系一体化。 基本思想:采取HMM模型,建立切分词图。词语粗分阶段,先得出N 个概率最大的切分结果。然后,利用角色标注方法识别未登 录词,并计算其概率,将未登录词加入到切分词图

6、中,之后 视它为普通词处理,最终进行动态规划优选出N个最大概率 切分标注结果。12基于多层HMM的一体化方法II 利用噪声-信道模型,建立目标评估函数其中 C:原始字串;W:切分的词串;T:词性标注序列 P(C|W)=1P(CW)=P(W) P(W,T)|C)=P(T|CW)P(W|C)=P(T|W)P(W|C)=P(T)P(W|T)/P(W) P(W)/P(C)= P(T)P(W|T)/P(C) (字串C出现的概率P(C)为一常数,不影响结果,可以忽略)(W,T)*= .(0)13基于多层HMM的一体化方法III 利用隐马模型展开P(T)P(W|T),并引入共现概率P(W,T)|C) =P(

7、ti|ti-1)P(wi|ti).(1)P*(W,T)=lnP(W,T) =ln P(wi|ti) = ln P(ti|ti-1) + ln P(wi|ti) .(2) 评价函数或者决策函数如下:(W,T)*= ln P(ti|ti-1) + ln P(wi|ti)14基于多层HMM的一体化方法IV 一体化需要解决的主要问题 排歧问题 未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)?15基于N-最短路径的词语粗分 基本思想根据词典,建立字串词语切分有向无环图。 每个词对应图中的一条有向边,并赋给相应的边 长(权值)。然后针对该切分图

8、,在起点到终点 的所有路径中,求出长度值按严格升序排列(任 何两个不同位置上的值一定不等,下同)依次为 第1, 第2,第i,第N的路径集合作为 相应的粗分结果集。如果两条或两条以上路径长 度相等,那么他们的长度并列第i,都要列入粗 分结果集,而且不影响其他路径的排列序号,最 后的粗分结果集合大小大于或等于N。16基于N-最短路径的词语粗分II 出发点 实际上是最短路径方法和全切分的有机结合 。一方面避免了最短路径分词方法大量舍弃 正确结果的可能,另一方面又大大解决了全 切分搜索空间过大,运行效率差的弊端。 “求同存异,保留争端”。即:解决在切词 阶段能解决的大部分问题;而对歧义、未登 录词等问

9、题尽量保留下来,留给后续过程处 理。 统计与非统计方法17基于N-最短路径的词语粗分III 测试结果 说明: 统计N-最短 路径 句子总数为 : 185,192 N 句子召回率 193.50% 298.42% 399.26% 499.61% 599.76% 699.83% 899.89% 1099.94%18基于N-最短路径的词语粗分IV -对比测试实验召回率/结果数19基于角色标注的未登录词识别 现有未登录词识别方法的不足 大部分只针对切分碎片进行识别。 “单点激活”: 必须遇到具明显特征的上下文或 者未登录词用字时,才会触发未登录词的识别过 程。 对识别出来的很难给出实际意义上的概率值 歧

10、义排除乏力 吕梁的特点是贫困人口占全省的左右。 格威特等高水准的竞争对手也是促使李宁牌不断创新突 破的一个诱因 周鹏和同学 20未登录词识别II 基于角色的未登录词识别方法采用Viterbi算法,确定句子概率最大的角色序 列,在角色序列的基础上,进行模式匹配。 未登录词的角色 内部组成:首部、中部、尾部、内部成词 上下文 上下文与内部组成交叉成词 句子中其他成分21未登录词识别 III编码编码意义义例子B姓氏张华平先生;欧阳修C双名的首字张华平先生G后缀王总、刘老、肖氏K人名的上文又来到于洪洋的家。U人名的上文和姓成词现任主席为何鲁丽Y姓与单名成词高峰、汪洋Z双名本身成词 张朝阳 A以上之外其

11、他的角色全军 和 武警 官兵 汉族人名的角色表(示例,有省略)22未登录词识别 IV 具体实现 R# 角色标注过程类似于词性标注,也是一层 HMM 示例: 馆内陈列周恩来和邓颖超生前使用过的物品 馆/内/陈列/周/恩/来/和/邓/颖/超生/前/使用/过/ 的/物品/ 馆/A内/A 陈列/K周/B恩/C来/D和/M邓/B颖/C超生/V 前/A使用/A过/A的/A物品/A V需要拆分,最终匹配人名模板,得到“周恩来”“ 邓颖超”23未登录词识别 V 未登录词概率的计算 P(wi|ti) wi= c1 c2 cn 角色序列 Ri= r1 r2 rn P(wi|ti)=P(wi|Ri) P(ti|Ri

12、)= P(ti|Ri)P(ti|Ri)可以由语料统计得到;例如单姓+单 名生成姓名的概率等于单姓单名除以总 的人名数目;其结果大约为12%24未登录词识别 VI 汉族人名测试结果类别封闭测试 语料1封闭测试语 料2开放测试语 料来源98年1月2月1日-20日2月20日-28日语料库大小8,621K6,185K2,605K实际人名数1372275343149识别出的人名数17167106464130正确数1337674892886准确率77.92%70.35%69.88%召回率97.48%99.29%91.65%F值 86.61%82.35%79.30%25计算所中文词语一体化分析系 统ICTC

13、LAS Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) 设计的基本原则 一体化 结果不唯一 “当断则断,不留后患” “求同存异,保留争端”26ICTCLAS系统处理流程语料库原始字串切分词图概率词典识别词典语料库 训练粗切分未登录 词识别切分标注 选择N优输出结果原子切分27ICTCLAS功能模块ICTCLASN-最短路径切分 (概率统计)未登录词 识别隐马标注人名地名译名其他结果生成重叠词规范其他28ICTCLAS初评结果 评测语料库为人民日报1998年1月1 日-1月15日(12000行)的新

14、闻语料 总共词数:601646 切分正确率(按词统 计)98.38%;按句子统计93.15% 一级标注正确率(按词统计):97.16% ;按句子统计78.44%29结论 汉语词语分析是中文信息处理的基础,无论是理论 上,还是实际应用上都极其重要。 其难点主要在于 排歧和未登录词的识别。 目前常用的研究方法及相关系统,存在着一些不足 :不统一;量化困难,缺乏可比性。 N-最短路径方法进行词语粗分,可以尽可能的解决 词语切分问题,同时将未登录词与歧义问题保留到 下一过程。 基于角色标注的未登录词识别方法,可以克服触发 与候选字段选取的盲目性,并能计算出候选词的概 率。最终效果能满足实际要求。 基于HMM的一体化方法能够将未登录词、歧义排除 和普通词的处理统一起来,我们在ICTCLAS中进行 了实际的应用。30敬请指导!谢谢!敬请指导!谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号