中文信息处理chapter10-词性标注

资源描述

《中文信息处理chapter10-词性标注》由会员分享，可在线阅读，更多相关《中文信息处理chapter10-词性标注（44页珍藏版）》请在金锄头文库上搜索。

1、词性标注词性标注刘秉权哈工大智能技术与自然语言处理研究室 2016年3月词性标注 2 重要内容简介词性分类体系标注中的信息源主要标注方法中文未登录词标注的词语特征词性标注 3 词性标注(POS(Part-of-Speech) Tagging )简介任务：为句子中的每个词标上一个合适的词性词性指作为划分词类的根据的词的特点。标注是一种有限语法消歧问题目前最高准确率：96%-98% 应用信息抽取名词短语识别浅层句法分析问题回答词性标注 4 应用示例：单纯依赖频率的搭配发现词性标注 5 应用示例：搭配过滤器的词性标记模式词性标注 6 应用示例：加词性过滤

2、器的搭配发现词性标注 7 中文词性标注实例词性标注 8 词性分类体系依据形态标准意义标准分布标准-根据词在句法结构里所担当的语法功能分类，适合汉语的分类确定原则标准性：尽量采纳当前已经成为或正在成为词性标准的分类体系和标记符号兼容性：尽量使标注集的表示与已经存在的标注集可以相互进行转化扩展性：对未解决的遗留问题或是未来可能的技术发展方向充分加以考虑，以便加以扩充和修改词性标注 9 语言学界的分类名词、时间词、处所词、方位词、动词、形容词、状态词、区别词、数词、量词、代词、介词、副词、连词、助词、语气词、象声词、叹词、前缀、后缀、成语、简称、习用语等词性

3、标注 10 北京大学的汉语词性标注集词性标记词性词性标记词性词性标记词性 n 名词 z 状态词 h 前接成分 t 时间词 b 区别词 k 后接成分 s 处所词 d 副词 g 语素 f 方位词 p 介词 x 非语素字 m 数词 c 连词 i 成语 q 量词 u 助词 l 习用语 r 代词 y 语气词 j 简称略语 v 动词 o 拟声词 w 标点符号 a 形容词 e 叹词词性标注 11 英语标注中常用的一些词性词性标注 12 问题：词性由什么来确定？词性标注 13 标注中的信息源邻近上下文中的其他词的标注很多词性序列很常见某些词性序列基本不可能词本身提供的信息 Dumb标

4、注器：简单地把最常用的标注分配给每个词，达90%准确率-基准性能现代标注器都结合使用了结构语段信息和词汇信息词性标注 14 主要方法马尔可夫模型标注器隐马尔可夫模型标注器基于转换的标注词性标注 15 马尔可夫模型标注器将文本中的标记序列看成一条马尔可夫链词性标注 16 符号标记词性标注 17 问题求解词性标注 18 表达式简化两个假设词语之间独立词语的出现只依赖于它本身的标注词性标注 19 确定一个句子的最优标注词性标注 20 模型训练算法词性标注 21 Brown语料库中一些标记转移的计数词性标注 22 Brown语料库中一些词和标记共现的计数词性标注

5、 23 标注算法(Viterbi算法) 词性标注 24 与隐马尔可夫模型区别训练时构造了“显”马尔可夫模型标注时当作了隐马尔可夫模型词性标注 25 其他问题未登录词三元语法标注器插值和可变记忆平滑词性标注 26 隐马尔可夫标注器 HMM标注过程与VMM相同差别在于怎样训练模型 HMM的初始化是关键所在词性标注 27 HMM的初始化随机地初始化HMM的所有参数：使得标注难以约束使用词典信息限制模型参数：如果对应的词语-标记对未在词典中列出，则将词语生成概率设为0 将词语聚集到词语等价类中，使得所有同一类的词语允许同样的标注词性标注 28 基于转换的标注学习利用

6、更大范围的词汇和语法结构规则标注器需要的决策量比估计大量的马尔可夫模型参数要少一个数量级词性标注 29 主要思想给定一个标注好的语料库和词典用最常用的标记标注训练语料中的每个词构建一个转换的序列表，它将初始标注转化为接近正确的标注使用转换序列表标注新的文本：初始化新的文本，用最常用的标记来标注应用转换词性标注 30 基于转换的标注器中的触发环境词性标注 31 学习到的一些转换例子词性标注 32 触发条件词语触发标记触发联合触发形态触发：处理未登录词词性标注 33 基于转换的标注学习示意图未标注的语料库正确标注的语料库标注过的语料库初始标注学习过程

7、获取的规则词性标注 34 基于转换的标注学习算法词性标注 35 分析准确率：95%-96% 能将标注决策建立在更丰富的事件集合上转换比概率标注中的转移和词语生成更容易修改基于转换的学习也被应用于句法分析、介词短语附着、语义消歧上词性标注 36 其他标注方法神经元网络决策树 K近邻方法最大熵模型词性标注 37 标注准确率影响标注性能的因素可以获得的训练数据量：通常越多越好标记集：标记集越大，潜在歧义越多，标注越困难训练语料库及词典与应用语料库的差别未登录词词性标注 38 概率标注器中常见的错误例子词性标注 39 词性标注混乱矩阵的一部分词性标注 40

8、中文未登录词标注的词语特征后缀特征部首特征重叠特征词性标注 41 中文词语后缀特征主要被用于识别地名、机构名或其他专有名词后缀为“市”,如北京市(地名,ns),多为名词; 后级为“化”,如市场化(动词,v),多为动词; 后缀的组合为“部门”,如政府部门(名词,n), 多为名词; 后缀的组合为“委会”,如奥委会(简称,j)、特委会(简称,j)、村委会(简称,j),多为简称。词性标注 42 部首特征某一部首下所列的一系列具体汉字几乎都与该部首有着意义上的联系列在“木”部的字如杨、柳、森、林等,都与“木”相关; 列入“车”部的字如轮、轻、辑、轩等,都与“车”有关; 列入“示

9、”部的字如神、祖、禅、祀等,都与祭祀有关。利用部首初步猜测词性言字旁说、记、论等,一般为动词; 立刀旁剁、刮、判等,一般为动词; 提土旁地、场、城等,一般为名词。特征提取与组合通过Unicode编码提取当知道一个汉字的部首时,可以初步猜测该字的词性; 但是当由该字组成一个词时,则不能简单地通过一个字来猜测该词的词性,需要一个词所含字的部首的组合。词性标注 43 重叠特征去重后判断词性,原词语与去重后的词在词性上一般是相同的高高兴兴可以通过“高兴”来判断词性轻轻的可以根据“轻”来判断词性等重叠词的提取当重叠词是类似于“高高兴兴”这种形式时,提取 “高兴” 当它是“轻轻地/的”这种形式时,则提取“轻” 当它是“湛蓝湛蓝”这种形式时,则提取“湛蓝” 谢谢！

展开阅读全文