中文分词研究现状

上传人:自*** 文档编号:25905558 上传时间:2017-12-19 格式:PPT 页数:54 大小:825.07KB
返回 下载 相关 举报
中文分词研究现状_第1页
第1页 / 共54页
中文分词研究现状_第2页
第2页 / 共54页
中文分词研究现状_第3页
第3页 / 共54页
中文分词研究现状_第4页
第4页 / 共54页
中文分词研究现状_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《中文分词研究现状》由会员分享,可在线阅读,更多相关《中文分词研究现状(54页珍藏版)》请在金锄头文库上搜索。

1、1,目录,引言关键问题ICTCLAS评测由字构词总结,2,目录,引言关键问题ICTCLAS评测由字构词总结,3,Everything is made of particles, so Physics is very important.The World-Wide-Web is made of Language, so Computational Linguistics is very important. ACL2007执行委员会主席 Mark Steedman,4,中文分词做什么?,中文以字为基本书写单位,词语之间没有明显的区分标记。通俗的说,中文分词就是要由机器在中文文本中词与词之间加上

2、标记。输入:我是学生。输出:我/是/学生/。,5,英语有词语切分问题吗?,英语中不是完全没有词语切分问题,不能仅凭借空格和标点符号解决切分问题。缩写词N.A.T.O i.e. m.p.h Mr. AT&T连写形式以及所有格结尾Im Hed dont Toms数字、日期、编号128,236 +32.56 -40.23 02/02/94 02-02-94带连字符的词text-to-speech text-based e-mail co-operate英语中的切分通常被叫做Tokenization。和中文相比,英语切分问题较为容易。,6,目录,引言关键问题ICTCLAS评测由字构词总结,7,中文分词

3、的关键问题,切分歧义消解未登录词识别,8,切分歧义(1),交集型歧义对于汉字串AJB,AJ、JB同时成词例:结合/成,结/合成组合型歧义对于汉字串AB,A、B、AB同时成词例:门/把手/坏/了,请/把/手/拿/开 将来,现在,学生会混合型歧义同时包含交集型歧义和组合型歧义例: 这样的/人/才能/经受住考验 这样的/人才/能/经受住考验 这样的/人/才/能/经受住考验中文文本中,交集型歧义与组合型歧义出现的比例约为1:22。,9,切分歧义(2),真歧义歧义字段在不同的语境中确实有多种切分形式例:地面积 这块/地/面积/还真不小地面/积/了厚厚的雪伪歧义歧义字段单独拿出来看有歧义,但在所有真实语境

4、中,仅有一种切分形式可接受例:挨批评挨/批评()挨批/评()对于交集型歧义字段,真实文本中伪歧义现象远多于真歧义现象,10,歧义的发现(1),歧义消解的前提是歧义的发现。切分算法应该有能力检测到输入文本中何时出现了歧义切分现象。MM和RMM只能给出一种切分结果,不能检测出歧义。双向最大匹配法(MM+RMM)MM企业用工的/自主/权RMM企业用工的/自/主权存在歧义检测盲点MM、RMM 他/从/马上/下来对中文句子进行统计分析的实验表明:,歧义检测成功,11,歧义的发现(2),MM+逆向最小匹配法全切分方法依据词表,给出输入文本的所有可能的切分结果。输入:提高人民生活水平输出:提/高/人/民/生

5、/活/水/平提高/人/民/生/活/水/平提高/人民/生/活/水/平提高/人民/生活/水/平提高/人民/生活/水平依据一定的原则,选择一种结果作为最终切分结果,如:选择次数最少的切分结果(最短路径)选择概率最大的切分结果,12,歧义切分的表示词图,13,歧义消解(1),基于记忆的歧义消解伪歧义所占比例很大。从一亿字真实汉语语料库中抽取交集型歧义切分字段。高频的前4619个字段,覆盖了该语料库中全部交集型歧义切分字段的59.20%。其中4279个属伪歧义,覆盖率达53.35%。鉴于伪歧义的消解与上下文无关,可以把它们的正确(唯一)的切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。基于规

6、则的歧义消解“一起”+V 一+起我们/一起/去实验室一/起/恶性交通事故,14,歧义消解(2),基于统计的歧义消解在词图上寻找统计意义上的最佳路径。如何评价最佳路径?例如:基于一元模型进行评价统计词表中每个词的词频,并将其转化为路径代价C=-log(f/N)切分路径的代价为路径上所有词的代价之和寻求代价最小的路径,15,未登录词,实体名词和专有名词中国人名:李素丽 老张 李四 王二麻子中国地名:定福庄 白沟 三义庙 韩村 河马甸翻译人名:乔治布什 叶利钦 包法利夫人 酒井法子翻译地名:阿尔卑斯山 新奥尔良 约克郡机构名:方正公司 联想集团 国际卫生组织 外贸部商标字号:非常可乐 乐凯 波导 杉

7、杉 同仁堂专业术语和新词语专业术语:万维网 主机板 模态 逻辑 贝叶斯算法缩略语:三个代表 五讲四美 打假 扫黄打非 计生办新词语:卡拉OK 波波族 美刀 港刀,16,未登录词识别,未登录词识别困难未登录词没有明确边界,缺少英语中的分隔符、大小写、词的形态、冠词等语法信息例:张掖市民乐县许多未登录词的构成单元本身可以独立成词例:张建国与普通词相似例:爱子面容俨然是父亲的“女性版”呈现一定的句法结构例:好又多、我爱我家房地产经纪公司通常每一类未登录词都要构造专门的识别算法识别依据内部构成规律(用字规律)外部环境(上下文),17,理解和分词孰先孰后?,Andi Wu主张把分词的决定放在句法分析的过

8、程中去解决,而不是在句法分析前就做出决定。他的系统使用基于句法-语义规则的句法分析器NLPwin。2003年,他的系统参加第一届Bakeoff评测,取得了很好的成绩。但面对Bakeoff的实验数据,他承认句法分析器对分词性能的影响十分有限。在CTB语料的封闭测试中,采用句法分析器的分词精度甚至低于没有句法分析器的情况。在2005、2006、2007年的Bakeoff上,已经很难找到这种基于手工规则的系统的身影了。取而代之的是基于词,尤其是基于字的统计学习方法。,18,目录,引言关键问题评测由字构词总结,19,目录,引言关键问题ICTCLAS评测由字构词总结,20,什么是词?,最小的能够独立运用

9、的语言单位。 信息处理用现代汉语分词规范对词的定义二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位。信息处理用现代汉语分词规范缺乏操作标准。汉语中,语素、词和词组的界限模糊。象牙 兔牙吃饭 吃鱼毁坏 打坏,21,Bakeoff 2003(2),Feature Templetes,22,Bakeoff 2003(3),特征生成举例我 / 爱 / 北京 / 天安门 / 。C0生成的特征为:我, LR爱, LR北, LL京, RR天, LL安, MM门, RR。, LR,C-1C0生成的特征为:我爱, LR爱北, LL北京, RR京天, LL天安, MM安门, RR门。, LR,

10、23,Bakeoff 2003(4),Maximum Entropy ModelJoint probability of a history h and a tag t is defined as:,Given (h, t), feature function is calculated as, is a normalization constant, ,1, k are the model parameters and f1,fn are feature functions. Each feature has a corresponding parameter i, that effecti

11、vely serves as a “weight” of this feature.,24,Bakeoff 2003(5),In the tagging process, given a sequence of characters c1,cn, the tagger searches for the tag sequence t1,tn with the highest probability,In the training process, given a sequence of characters c1,cn and their POC tags t1,tn as training d

12、ata, the purpose is determine the parameters ,1, k that maximize the likelihood of the training data.,25,Bakeoff 2005(1),Low and Ng(代表新加坡国立大学)采用最大熵模型,在四项开放测试中夺得3项第一和1项第二。Boundary Tagss, b, m, eBasic FeaturesExternal FeaturesHuihsin Tseng(代表Stanford NLP Group)采用条件随机场模型,在四项封闭测试中取得2项第一、1项第二和1项第三。以上两队,采

13、用的都是基于字标注的分词系统。,26,Bakeoff 2005(2),GATE的中文分词评测取得的名次为3、5、5、6、8、9、13、14。GATE中文分词的插件名为Chinese Segmenter PR,基于GATE研究人员参加Bakeoff 2005中文分词任务的工作。采用PAUM算法,从Bakeoff 2005训练语料(北大和台湾中研院提供)学习得到的PAUM模型,可以直接从网上下载。无论是训练语料还是生成的切分好的文本,以空格表示切分。注意训练语料与被切分文本的字符编码要保持一致。运行时参数:,27,Bakeoff 2006,黄昌宁,赵海等代表微软亚洲研究院(MSRA)参加6项赛事(

14、没有参加MSRA提供语料的2项赛事),取得4个第一,2个第三。其余4个第一,各被一家夺走。至少获得一个第一名的系统,共有5个,称这5家单位为top-5 。下表为top-5的情况:,s,28,Bakeoff 2007 概况,以上CRF模型都采用免费工具CRF+实现,29,Bakeoff 2007 香港城市大学,“Character tagging becomes a prevailing technique for this kind of labeling task for Chinese language processing, following the current trend of

15、applying machine learning as a core technology in the field of natural language processing.”赵海标注集分词:沿用MSRA在Bakeoff 2006的6词位标注(B, B1, B2, M, E, S)对于命名实体识别的标注集,举例如下:特征模板集对于分词和命名实体识别封闭测试,采用同样的特征模板集:除以上特征模板,还包括“无监督切词器的输出”,30,Bakeoff 2007 香港城市大学,在Bakeoff 2006数据上的实验,展示了CRF模型计算的开销:,CRF的计算负载一般要比ME高一个数量级 赵海,赵海的博客http:/http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号