标注适应:以中文分词和依存分析为例

上传人:我*** 文档编号:133289658 上传时间:2020-05-26 格式:PDF 页数:46 大小:1,018.99KB
返回 下载 相关 举报
标注适应:以中文分词和依存分析为例_第1页
第1页 / 共46页
标注适应:以中文分词和依存分析为例_第2页
第2页 / 共46页
标注适应:以中文分词和依存分析为例_第3页
第3页 / 共46页
标注适应:以中文分词和依存分析为例_第4页
第4页 / 共46页
标注适应:以中文分词和依存分析为例_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《标注适应:以中文分词和依存分析为例》由会员分享,可在线阅读,更多相关《标注适应:以中文分词和依存分析为例(46页珍藏版)》请在金锄头文库上搜索。

1、标 注 适 应 以词法分析和句法分析为例 姜文斌 中国科学院计算技术研究所 2014年6月 背景 对于同一个自然语言处理任务 往往存在多个不同风格的人工 标注语料库 背景 对于同一个自然语言处理任务 往往存在多个不同风格的人工 标注语料库 汉语分词 句法分析 宾州树库 人民日报 语义依存树库 宾州树库 提纲 问题定义 示例任务 解决方案 实验 4 标注适应 自动适应不同的标注标准 实现语料库知识的融合或转换 标注适应 自动适应不同的标注标准 实现语料库知识的融合或转换 两种视角 融合 将不同标注标准的语料库中所含的知识融合起来 转换 将一种标注标准的语料库的知识转换为另一标准 标注适应 标注适

2、应可视为一种特定的迁移学习任务 源任务和目标任务相似但不相同 源任务和目标任务的标注机制相同 依存分析 都是标注依存边 但是两个任务的预测函数不同 依存vs语义依存 标注风格不同 将源标注标准的预测函数适应到目标标注标准的数据 大致归类于关系知识适应问题的范畴 标注适应 vs 领域适应 两者都可以视为迁移学习类问题 一个概率化的解释 设X是数据 Y是标注 标注适应 P X 因领域变化而变化 而P Y 是假定不变的 领域适应 P Y 因标注标准变化而变化 而P X 假定不变 标注适应和领域适应都广泛存在 标注适应 不同的知识来源 领域适应 不同的应用场景 联合标注与领域适应 知识来源 应用场景

3、例 新闻领域的依存树库 用以改进口语领域的语义分析 提纲 问题定义 示例任务 解决方案 实验 9 词语切分 词语切分是没有显式词语边界的亚洲语言的基础任务 汉语 日语 泰语 藏语 给定由n个字符组成的句子 词语切分任务是将这n个字符构成 的序列切分为m个子序列 汉语词语切分示例 美 副 总 统 访 华美副总统访华 字符分类方法 词语切分可以建模为字符分类问题 Xue and Shen 2003 每个字符被分类为以下四个标签之一 B 该字是词的开始字符 M 该字是词的中间字符 E 该字是词的结尾字符 S 该字本身独立成词 从标签序列到分词结果 美 S 副 B 总 M 统 E 访 S 华 S美副总

4、统访华 解码 给字符序列构成的语句 解码器将搜索是如下评分函数最高的 输出 动态规划Viterbi搜索用以寻找最优路径 features weights x 语句 y 切分结果 xi 字符 yi 标签 特征 类型类型模板模板实例实例 N元组 C 2C 2 美 C 1C 1 副 C0C0 总 C1C1 统 C2C2 访 C 2C 1C 2C 1 美副 C 1C0C 1C0 副总 C0C1C0C1 总统 C1C2C1C2 统访 C 1C1C 1C1 副统 函数 Pu C0 Pu C0 true T C 2 2 T C 2 2 4444 仅考虑局部特征 1 当前字符周围 特定窗口内的 字符元组 2

5、定义字符属性 的函数 美 副 总 统 访 华 C0 依存分析 依存分析意在将句子中的每个词连接到其中心词 并将整个句 子构成一棵依存树 每个词仅依存于一个中心词 所有词都找到其中心词 依存树通常都假设是投射性 projective 的 将树中的词语以线性排列 则所有依存边可以无交叉的排放在词语上面 依存分析示例 中国 对 外 开放 成绩 斐然 生成树方法 基于依存边的因子化方法 Collins 1996 Eisner 1996 依存树的分数可以因子化到树中的每一条边 生成树方法 McDonald Crammer and Pereira 2005 依存树的分数为树中边的分数之和 依存分析意在寻找

6、具有最高分数的生成树 假设句子中任意两个词均可能存在依存关系 只是概率不同 全联通依存图 权重为依存边的概率 有向图的最大生成树问题 解码 给定词 词性标记序列构成的句子 解码过程寻找使得如下得 分函数最高的候选生成树 用生成树算法寻找得分最高的依存树 weights features x 句子 y 分析结果 i j 树中依存边 特征 17 类型类型模板模板类型类型模板模板 一元组 WiPi 上下文 PiPi 1Pj 1Pj WiPi 1PiPj 1Pj PiPiPi 1PjPj 1 WjPjPi 1PiPjPj 1 WjPi 1PiPj 1 PjPi 1PiPj 1 二元组 WiPiWjPj

7、PiPi 1Pj 1 WiWjPjPiPi 1Pj 1 PiWjPjPi 1Pj 1Pj WiPiWjPi 1PjPj 1 WiPiPjPi 1Pj 1Pj WiWjPi 1PjPj 1 WiPjPiPj 1Pj PiWjPiPjPj 1 PiPjPi 1PiPj PiPi 1Pj 仅使用局部特征 1 中心词 修饰符的 词 词性元组 2 中心词 修饰符的 上下文词性元组 中国 对 外 开放 成绩 斐然 WiWj 提纲 问题定义 示例任务 解决方案 实验 18 转换分类器 转换分类器用以将一种标注转换为另一种标注 转换分类器在平行标注语料上训练 平行标注语料是一个语料带有两套平行的标注 转换分类

8、器的训练 以目标标注作为学习目标 以源标注作为指导信息 P target annotation input source annotation 转换分类器 不幸的是 带有正确标注的平行标注语料通常是不存在的 标注代价高昂 自动地构建一个有噪声的平行标注语料 在一个语料库上训练分类器 用此分类器处理另一个语料库 转换分类器 不幸的是 带有正确标注的平行标注语料通常是不存在的 标注代价高昂 自动地构建一个有噪声的平行标注语料 在一个语料库上训练分类器 用此分类器处理另一个语料库 source corpus train with normal features source classifier 转

9、换分类器 不幸的是 带有正确标注的平行标注语料通常是不存在的 标注代价高昂 自动地构建一个有噪声的平行标注语料 在一个语料库上训练分类器 用此分类器处理另一个语料库 source corpus train with normal features source classifier target corpus transformed target corpus 转换分类器 不幸的是 带有正确标注的平行标注语料通常是不存在的 标注代价高昂 自动地构建一个有噪声的平行标注语料 在一个语料库上训练分类器 用此分类器处理另一个语料库 source corpus train with normal fe

10、atures source classifier target corpus transformed target corpus train with guiding features transfer classifier 转换分类器 不幸的是 带有正确标注的平行标注语料通常是不存在的 标注代价高昂 自动地构建一个有噪声的平行标注语料 在一个语料库上训练分类器 用此分类器处理另一个语料库 source corpus train with normal features source classifier target corpus transformed target corpus trai

11、n with guiding features transfer classifier 围绕数据降噪 提出一系列递进的模型 模型1 标注整合 转换分类器和基线分类器以级联的方式工作 模型1 标注整合 转换分类器和基线分类器以级联的方式工作 raw sentence result with source guideline source classifier 模型1 标注整合 转换分类器和基线分类器以级联的方式工作 transfer classifier raw sentence result with source guideline source classifier result with

12、 target guideline 模型1 标注整合 转换分类器和基线分类器以级联的方式工作 transfer classifier raw sentence result with source guideline source classifier result with target guideline 在线知识整合 优点 简单有效 源分类器可以是未知的黑箱 缺点缺点 需要两遍扫描 难以整合多余两个的语料库 模型2 标注转换 转换分类器以目标语料库标注标准重新标注源语料库 模型2 标注转换 转换分类器以目标语料库标注标准重新标注源语料库 source corpus transfer cl

13、assifier transformed source corpus 模型2 标注转换 转换分类器以目标语料库标注标准重新标注源语料库 source corpus transfer classifier transformed source corpus target corpus train with normal features final classifier 模型2 标注转换 转换分类器以目标语料库标注标准重新标注源语料库 source corpus transfer classifier transformed source corpus target corpus train w

14、ith normal features final classifier 离线知识融合 优点优点 仅需一遍解码 易于整合多个语料库 缺点缺点 必须有源语料库 模型3 优化标注转换 在模型2基础上引入两项优化策略 迭代训练 在每轮训练过程中 源到目标的转换和目标到源的转换都将 进行 转换后的语料库为下一轮训练提供更好地平行标注语料库 模型3 优化标注转换 在模型2基础上引入两项优化策略 迭代训练 在每轮训练过程中 源到目标的转换和目标到源的转换都将 进行 转换后的语料库为下一轮训练提供更好地平行标注语料库 target corpus transformed target corpus train

15、 with guiding features transfer classifier transformed source corpus source corpus train with guiding features transfer classifier 模型3 优化标注转换 在模型2基础上引入两项优化策略 迭代训练 在每轮训练过程中 源到目标的转换和目标到源的转换都将 进行 转换后的语料库为下一轮训练提供更好地平行标注语料库 target corpus transformed target corpus train with guiding features transfer clas

16、sifier transformed source corpus source corpus train with guiding features transfer classifiersource corpustarget corpus 模型3 优化标注转换 在模型2基础上引入两项优化策略 自预测 如果一个预测结果能够 较容易地反向转换为原始的输入 那么该预测结果将是一个较好的 结果 1 xMyS xMyS xMMyS st ts stts 模型3 优化标注转换 在模型2基础上引入两项优化策略 自预测 如果一个预测结果能够 较容易地反向转换为原始的输入 那么该预测结果将是一个较好的 结果 有着广泛应用的假设 无参考译文的翻译质量评估 如果一个译文能更好地反向 翻译为原始输入 它更可能 是一个较好的译文 学习词语表示向量 1 xMyS xMyS xMMyS st ts stts e g 学习词表示向量 提纲 问题定义 示例任务 解决方案 实验 38 汉语分词实验设置 目标语料库 宾州树库5 0 源语料库 人民日报语料库 分类器 平均感知机 评价指标 平衡F值 F measure 2P

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号