中文词语分析一体化系统

资源描述

《中文词语分析一体化系统》由会员分享，可在线阅读，更多相关《中文词语分析一体化系统（30页珍藏版）》请在金锄头文库上搜索。

1、张华平刘群中科院计算技术研究所 2002-5-282纲要问题背景与难点分析主要研究方法与相关系统我们的研究思路基于多层HMM的一体化方法基于N-最短路径的词语粗分基于角色标注的未登录词识别计算所中文词语一体化分析系统 ICTCLAS 结论3问题背景与难点分析问题背景v汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 v词是最小的能够独立活动的有意义的语言成分。 v中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等，更是少不了词的详细信息。4问题背景与难点分析 II 分

2、词的必要性物理学physicsproductspriceimage bodytheorybarberscienceunderstandreasonschoolstudycreditstudentsubject 物理学physicsphysicistevidence6 5 5 = 150 : 25问题背景与难点分析 III 中文词语分析的主要难点歧义交叉歧义(86%): 结合成分子时组合歧义(14%): 这个人手上有痣；我们缺人手全局歧义与局部歧义:乒乓球拍/卖/完了；乒乓球/拍卖/完了；我很/难过 6问题背景与难点分析 IV 未登录词问题干扰作用克林顿对内塔尼亚胡说龚学平等领导

3、最终识别多样性复杂性上下文干扰7主要研究方法与相关系统当前主要的研究方法基于规则的方法最大匹配法（Maximum Matching）正向、逆向、双向最优路径（+词频选择）法（最少分词法）基于统计的方法 (N元语法，HMM) 基于规则和基于统计相结合其他的一些方法 (压缩，自监督，基于转移的错误驱动方法等) 8主要研究方法与相关系统II 当前主要的中文词语分析系统哈工大统计分词系统自动化所三元统计模型清华大学SEGTAG系统词典中的每一个重要的词都加上了切分标志无条件切出qk类词；完全切分ck类词；其他无交叉歧义的切之，否则全切分。 “动态规划“和“全切分搜索+

4、叶子评价“9主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin 中的中文词语分析词系统双向的Chart Parsing，使用了语法规则并以概率模型作导向切词-句法分析一体化北大计算语言所分词和词类标注系统分词和词类标注结合起来基于规则的标注排歧与基于语料库统计模型的排歧结合处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理10主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨)：规则与统计的结合，更大意义上是一种组合，两种处理出现在系统中相对独立的两个不同阶段。

5、排歧、识别未登录词更多的是利用规则，难以量化。即使量化，也很难和普通词实现真正量值上的比较。歧义字段、未登录词作为特殊情况处理，后期处理中没有与普通词统一。没有相对统一的处理模型和评估体系。最终导致：准确率、召回率在开放测试的条件下并不像宣称的那样理想，尤其是在未登录词、歧义字段存在的情况里。11我们的研究思路基于多层HMM的一体化方法目标：分词、词性标注的一体化；未登录词与普通词处理的一体化；评估体系一体化。基本思想：采取HMM模型，建立切分词图。词语粗分阶段，先得出N 个概率最大的切分结果。然后，利用角色标注方法识别未登录词，并计算其概率，将未登录词加入到切分词图

8、，在起点到终点的所有路径中，求出长度值按严格升序排列（任何两个不同位置上的值一定不等，下同）依次为第1，第2，第i，第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等，那么他们的长度并列第i，都要列入粗分结果集，而且不影响其他路径的排列序号，最后的粗分结果集合大小大于或等于N。16基于N-最短路径的词语粗分II 出发点实际上是最短路径方法和全切分的有机结合。一方面避免了最短路径分词方法大量舍弃正确结果的可能，另一方面又大大解决了全切分搜索空间过大，运行效率差的弊端。 “求同存异，保留争端”。即：解决在切词阶段能解决的大部分问题；而对歧义、未登录词等问

9、题尽量保留下来，留给后续过程处理。统计与非统计方法17基于N-最短路径的词语粗分III 测试结果说明：统计N-最短路径句子总数为： 185,192 N 句子召回率 193.50% 298.42% 399.26% 499.61% 599.76% 699.83% 899.89% 1099.94%18基于N-最短路径的词语粗分IV -对比测试实验召回率/结果数19基于角色标注的未登录词识别现有未登录词识别方法的不足大部分只针对切分碎片进行识别。 “单点激活”：必须遇到具明显特征的上下文或者未登录词用字时，才会触发未登录词的识别过程。对识别出来的很难给出实际意义上的概率值歧

10、义排除乏力吕梁的特点是贫困人口占全省的左右。格威特等高水准的竞争对手也是促使李宁牌不断创新突破的一个诱因周鹏和同学 20未登录词识别II 基于角色的未登录词识别方法采用Viterbi算法，确定句子概率最大的角色序列，在角色序列的基础上，进行模式匹配。未登录词的角色内部组成：首部、中部、尾部、内部成词上下文上下文与内部组成交叉成词句子中其他成分21未登录词识别 III编码编码意义义例子B姓氏张华平先生；欧阳修C双名的首字张华平先生G后缀王总、刘老、肖氏K人名的上文又来到于洪洋的家。U人名的上文和姓成词现任主席为何鲁丽Y姓与单名成词高峰、汪洋Z双名本身成词张朝阳 A以上之外其

11、他的角色全军和武警官兵汉族人名的角色表（示例，有省略）22未登录词识别 IV 具体实现 R# 角色标注过程类似于词性标注，也是一层 HMM 示例：馆内陈列周恩来和邓颖超生前使用过的物品馆/内/陈列/周/恩/来/和/邓/颖/超生/前/使用/过/ 的/物品/ 馆/A内/A 陈列/K周/B恩/C来/D和/M邓/B颖/C超生/V 前/A使用/A过/A的/A物品/A V需要拆分，最终匹配人名模板，得到“周恩来”“ 邓颖超”23未登录词识别 V 未登录词概率的计算 P(wi|ti) wi= c1 c2 cn 角色序列 Ri= r1 r2 rn P(wi|ti)=P(wi|Ri) P(ti|Ri

12、)= P(ti|Ri)P(ti|Ri)可以由语料统计得到；例如单姓+单名生成姓名的概率等于单姓单名除以总的人名数目；其结果大约为12%24未登录词识别 VI 汉族人名测试结果类别封闭测试语料1封闭测试语料2开放测试语料来源98年1月2月1日-20日2月20日-28日语料库大小8,621K6,185K2,605K实际人名数1372275343149识别出的人名数17167106464130正确数1337674892886准确率77.92%70.35%69.88%召回率97.48%99.29%91.65%F值 86.61%82.35%79.30%25计算所中文词语一体化分析系统ICTC

13、LAS Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) 设计的基本原则一体化结果不唯一 “当断则断，不留后患” “求同存异，保留争端”26ICTCLAS系统处理流程语料库原始字串切分词图概率词典识别词典语料库训练粗切分未登录词识别切分标注选择N优输出结果原子切分27ICTCLAS功能模块ICTCLASN-最短路径切分（概率统计）未登录词识别隐马标注人名地名译名其他结果生成重叠词规范其他28ICTCLAS初评结果评测语料库为人民日报1998年1月1 日-1月15日（12000行）的新

14、闻语料总共词数：601646 切分正确率（按词统计）98.38%；按句子统计93.15% 一级标注正确率（按词统计）：97.16% ；按句子统计78.44%29结论汉语词语分析是中文信息处理的基础，无论是理论上，还是实际应用上都极其重要。其难点主要在于排歧和未登录词的识别。目前常用的研究方法及相关系统，存在着一些不足：不统一；量化困难，缺乏可比性。 N-最短路径方法进行词语粗分，可以尽可能的解决词语切分问题，同时将未登录词与歧义问题保留到下一过程。基于角色标注的未登录词识别方法，可以克服触发与候选字段选取的盲目性，并能计算出候选词的概率。最终效果能满足实际要求。基于HMM的一体化方法能够将未登录词、歧义排除和普通词的处理统一起来，我们在ICTCLAS中进行了实际的应用。30敬请指导！谢谢！敬请指导！谢谢！

展开阅读全文

中文词语分析一体化系统

最新文档