中文信息处理chapter10-词性标注

上传人:f****u 文档编号:111877022 上传时间:2019-11-04 格式:PDF 页数:44 大小:660.79KB
返回 下载 相关 举报
中文信息处理chapter10-词性标注_第1页
第1页 / 共44页
中文信息处理chapter10-词性标注_第2页
第2页 / 共44页
中文信息处理chapter10-词性标注_第3页
第3页 / 共44页
中文信息处理chapter10-词性标注_第4页
第4页 / 共44页
中文信息处理chapter10-词性标注_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《中文信息处理chapter10-词性标注》由会员分享,可在线阅读,更多相关《中文信息处理chapter10-词性标注(44页珍藏版)》请在金锄头文库上搜索。

1、词性标注词性标注 刘秉权 哈工大智能技术与自然语言处理研究室 2016年3月 词性标注 2 重要内容 简介 词性分类体系 标注中的信息源 主要标注方法 中文未登录词标注的词语特征 词性标注 3 词性标注(POS(Part-of-Speech) Tagging )简介 任务:为句子中的每个词标上一个合适的词性 词性指作为划分词类的根据的词的特点。 标注是一种有限语法消歧问题 目前最高准确率:96%-98% 应用 信息抽取 名词短语识别 浅层句法分析 问题回答 词性标注 4 应用示例: 单纯依赖频率的搭配发现 词性标注 5 应用示例: 搭配过滤器的词性标记模式 词性标注 6 应用示例: 加词性过滤

2、器的搭配发现 词性标注 7 中文词性标注实例 词性标注 8 词性分类体系 依据 形态标准 意义标准 分布标准-根据词在句法结构里所担当的语法功能分类,适合 汉语的分类 确定原则 标准性:尽量采纳当前已经成为或正在成为词性标准的分类 体系和标记符号 兼容性:尽量使标注集的表示与已经存在的标注集可以相互 进行转化 扩展性:对未解决的遗留问题或是未来可能的技术发展方向 充分加以考虑,以便加以扩充和修改 词性标注 9 语言学界的分类 名词、时间词、处所词、方位词、动词、 形容词、状态词、区别词、数词、量词、 代词、介词、副词、连词、助词、语气 词、象声词、叹词、前缀、后缀、成语、 简称、习用语等 词性

3、标注 10 北京大学的汉语词性标注集 词性标记 词性 词性标记 词性 词性标记 词性 n 名词 z 状态词 h 前接成分 t 时间词 b 区别词 k 后接成分 s 处所词 d 副词 g 语素 f 方位词 p 介词 x 非语素字 m 数词 c 连词 i 成语 q 量词 u 助词 l 习用语 r 代词 y 语气词 j 简称略语 v 动词 o 拟声词 w 标点符号 a 形容词 e 叹词 词性标注 11 英语标注中常用的一些词性 词性标注 12 问题:词性由什么来确定? 词性标注 13 标注中的信息源 邻近上下文中的其他词的标注 很多词性序列很常见 某些词性序列基本不可能 词本身提供的信息 Dumb标

4、注器:简单地把最常用的标注分配给 每个词,达90%准确率-基准性能 现代标注器都结合使用了结构语段信息 和词汇信息 词性标注 14 主要方法 马尔可夫模型标注器 隐马尔可夫模型标注器 基于转换的标注 词性标注 15 马尔可夫模型标注器 将文本中的标记序列看成一条马尔可夫链 词性标注 16 符号标记 词性标注 17 问题求解 词性标注 18 表达式简化 两个假设 词语之间独立 词语的出现只依赖于它本身的标注 词性标注 19 确定一个句子的最优标注 词性标注 20 模型训练算法 词性标注 21 Brown语料库中一些标记转移的计数 词性标注 22 Brown语料库中一些词和标记共现的计数 词性标注

5、 23 标注算法(Viterbi算法) 词性标注 24 与隐马尔可夫模型区别 训练时构造了“显”马尔可夫模型 标注时当作了隐马尔可夫模型 词性标注 25 其他问题 未登录词 三元语法标注器 插值和可变记忆 平滑 词性标注 26 隐马尔可夫标注器 HMM标注过程与VMM相同 差别在于怎样训练模型 HMM的初始化是关键所在 词性标注 27 HMM的初始化 随机地初始化HMM的所有参数:使得标 注难以约束 使用词典信息限制模型参数:如果对应 的词语-标记对未在词典中列出,则将词 语生成概率设为0 将词语聚集到词语等价类中,使得所有 同一类的词语允许同样的标注 词性标注 28 基于转换的标注学习 利用

6、更大范围的词汇和语法结构规则 标注器需要的决策量比估计大量的马尔 可夫模型参数要少一个数量级 词性标注 29 主要思想 给定一个标注好的语料库和词典 用最常用的标记标注训练语料中的每个 词 构建一个转换的序列表,它将初始标注 转化为接近正确的标注 使用转换序列表标注新的文本: 初始化新的文本,用最常用的标记来标注 应用转换 词性标注 30 基于转换的标注器中的触发环境 词性标注 31 学习到的一些转换例子 词性标注 32 触发条件 词语触发 标记触发 联合触发 形态触发:处理未登录词 词性标注 33 基于转换的标注学习示意图 未标注的语料库 正确标注的语料库 标注过的语料库 初始标注 学习过程

7、 获取的规则 词性标注 34 基于转换的标注学习算法 词性标注 35 分析 准确率:95%-96% 能将标注决策建立在更丰富的事件集合 上 转换比概率标注中的转移和词语生成更 容易修改 基于转换的学习也被应用于句法分析、 介词短语附着、语义消歧上 词性标注 36 其他标注方法 神经元网络 决策树 K近邻方法 最大熵模型 词性标注 37 标注准确率 影响标注性能的因素 可以获得的训练数据量:通常越多越好 标记集:标记集越大,潜在歧义越多,标注 越困难 训练语料库及词典与应用语料库的差别 未登录词 词性标注 38 概率标注器中常见的错误例子 词性标注 39 词性标注混乱矩阵的一部分 词性标注 40

8、 中文未登录词标注的词语特征 后缀特征 部首特征 重叠特征 词性标注 41 中文词语后缀特征 主要被用于识别地名、机构名或其他专 有名词 后缀为“市”,如北京市(地名,ns),多为名词; 后级为“化”,如市场化(动词,v),多为动词; 后缀的组合为“部门”,如政府部门(名词,n), 多为名词; 后缀的组合为“委会”,如奥委会(简称,j)、 特委会(简称,j)、村委会(简称,j),多为简称。 词性标注 42 部首特征 某一部首下所列的一系列具体汉字几乎都与该部首有 着意义上的联系 列在“木”部的字如杨、柳、森、林等,都与“木”相关; 列入“车”部的字如轮、轻、辑、轩等,都与“车”有关; 列入“示

9、”部的字如神、祖、禅、祀等,都与祭祀有关。 利用部首初步猜测词性 言字旁说、记、论等,一般为动词; 立刀旁剁、刮、判等,一般为动词; 提土旁地、场、城等,一般为名词。 特征提取与组合 通过Unicode编码提取 当知道一个汉字的部首时,可以初步猜测该字的词性; 但是当由该字组成一个词时,则不能简单地通过一个字来猜测 该词的词性,需要一个词所含字的部首的组合。 词性标注 43 重叠特征 去重后判断词性,原词语与去重后的词在词性上 一般是相同的 高高兴兴可以通过“高兴”来判断词性 轻轻的可以根据“轻”来判断词性等 重叠词的提取 当重叠词是类似于“高高兴兴”这种形式时,提取 “高兴” 当它是“轻轻地/的”这种形式时,则提取“轻” 当它是“湛蓝湛蓝”这种形式时,则提取“湛蓝” 谢谢!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号