构造汉语的统计计算语言模型 - 哈尔滨工业大学

上传人:我*** 文档编号:133288415 上传时间:2020-05-25 格式:PDF 页数:85 大小:381.64KB
返回 下载 相关 举报
构造汉语的统计计算语言模型 - 哈尔滨工业大学_第1页
第1页 / 共85页
构造汉语的统计计算语言模型 - 哈尔滨工业大学_第2页
第2页 / 共85页
构造汉语的统计计算语言模型 - 哈尔滨工业大学_第3页
第3页 / 共85页
构造汉语的统计计算语言模型 - 哈尔滨工业大学_第4页
第4页 / 共85页
构造汉语的统计计算语言模型 - 哈尔滨工业大学_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《构造汉语的统计计算语言模型 - 哈尔滨工业大学》由会员分享,可在线阅读,更多相关《构造汉语的统计计算语言模型 - 哈尔滨工业大学(85页珍藏版)》请在金锄头文库上搜索。

1、汉语语言模型研究汉语语言模型研究 及其在音字转换中的应用及其在音字转换中的应用 计算机科学与技术学院 语言技术研究中心 刘秉权 2003年5月28日 1 绪论 本文研究的目的和意义 计算语言学概述 相关领域研究与发展综述 统计语言建模技术 基于统计的计算语言模型 给定所有可能的句子 统计语言模型就 是一个概率分布 条件概率形式 N gram模型 sp n i iin def hwpwwpsp 1 1 n i iNii wwwpsp 11 1 统计语言模型的作用 信源 信道模型 I 语言文本 O 声音信号 字符图像信 号 拼音输入等 语言模型 maxarg maxarg maxarg IOpIp

2、 Op IOpIp OIpI III Ip 统计语言模型建模方法 极大似然方法语言建模 贝叶斯方法 maxarg MXPM M maxarg XMPM M maxarg XP MPMXP M M maxarg MPMXPM M 统计语言模型的评价标准 熵 Entropy 交叉熵 Cross Entropy 复杂度 Perplexity log 1 1lim n n xp n LH x MTMT xPxPPPH log 2 MT PPH M TPP 参数学习和数据平滑 参数学习 有指导学习 基于完全数据的最大可能性估 计 无指导学习 针对不完全数据的 具有隐含 变量的参数训练过程 EM算法 数据

3、平滑 Good Turing估计 回退平滑 和线性插值技术 变长N gram模型 网 格方法 压缩模型 当前主要语言模型 N gram模型 决策树模型 指数模型 最大熵模型 整句模型 文法模型 概率上下文无关文法 链文法 概率依存文法 自适应模型 统计语言模型存在的不足之处 最成功的统计语言建模技术很少使用真 实的语言知识 跨领域的适应能力差 不能有效处理长距离语言约束 为保证 可行性 所有现有的语言模型都在文本 的不同部分之间作了独立假设 汉语语言模型的独特问题 本文的目标 针 对 汉 语 统 计 模 型 的 参 数 训 练 问 题 进 行 研 究 应 用 于 手 机 类 信 息 设 备 的

4、 智 能 拼 音 汉 字 输 入 改 进 音 字 转 换 引 入 语 言 知 识 提 高 统 计 模 型 的 描 述 能 力 研 究 汉 语 模 型 的 自 适 应 和 机 器 学 习 方 法 本文主要工作 汉语统计语言模型参数训练的优化 基于语言元素的汉语统计模型 汉语语言模型的自适应方法 面向手机类设备的智能拼音汉字输入方 法 2 汉语统计语言模型参数训练 的优化 i w iNi iNi iNii wwc wwc wwwp 1 1 11 语料 库 分词 语料 参数 估计 语言 模型 分词 系统 词表 问题的分析 汉语统计模型的准确构建和优化涉及到以下几 个问题 词表的确定 生词识别 分词

5、参数估计 三者存在因果关系 词表 分词 分词 参数估计 模型 参数估计 模型 词表优化 分词 生词识别 参数估计迭代算法的提出 非迭代过程的缺点 几个过程不能相互作用 相互促进 迭代过程的优点 对分词的影响 更好地解决分词歧义问题 提高分 词精度 对生词识别的影响 减少不合理的候选生词 排除伪生词 生词自动消歧 减少后处理过程 对模型的影响 逐步优化词表 提高参数估计精 度 提高音字转换正确率 基于N gram信息的生词获取 基本思想 N元对 词频过滤 互信息过 滤 校正 生词获取 词频 互信息 Mutual Information 词频与互信息的关系 候选生词的校正 log 21 21 21

6、 wpwp wwp wwI 基于N gram信息的生词获取 结果分析 MI因素 准确率随着互信息值的升高而升高 但抽 取出的元组的数量也随之减少 WF因素 准确率随着词频值的升高而降低 抽取出 的元组数量也随之减少 影响结果的其他因素 分词错误 不容 易 和服 务 量词 个百分点 集电视连续剧 届世乒赛 姓氏 新华社记者刘 新华社记者王 基于统计和规则方法的中文人 名识别 问题的提出 主要方法 规则方法 准确 规则库冲突 复杂 庞大 统计方法 资源少 效率高 准确率低 混合方法 取长补短 本文方法 先规则 后统计 充分利用各种 资源 采用分词预处理 基于统计和规则方法的中文人 名识别 中文姓名

7、用字特点 82年人口普查结 果 729个姓氏用字 姓氏分布很不均匀 但相对集中 有些姓氏可用作单字词 名字用字分布较姓氏要平缓 分散 名字用字涉及范围广 某些汉字既可用作姓氏 又可用作名字用字 人名识别系统知识库 姓氏用字频率库和名字用字频率库 653 个单姓氏 15个复姓 1894个名字用字 的总出现次数 用作姓氏的次数 作为姓氏 c c cp 的总出现次数 用作名字用字的次数 作为名字用字 c c cp 人名识别系统知识库 名字常用词表 朝阳劲松爱国 建国立新黎明 宏伟朝晖向阳 海燕爱民凤山 雪松新民剑峰 建军红旗光明 人名识别系统知识库 称谓库 三种类型 只能用于姓名之前 如 战士 歌星

8、 演员等 只能用于姓名之后 如 阁下 之流等 姓名前后皆可 如 先生 主席 市长等 称谓前缀表 副 总 代 代理 助理 常务 名誉 荣誉 等 人名识别系统知识库 简单上下文 指界词表 约110个词 动词 说 是 指出 认为 表示 参加等 介词 在 之 的 被 以等 正在 今天 本人 先后等 标点符号集 人名出现在句首或句尾 包括分句 的机会比较大 标点 符号可用来帮助判断人名的边界 顿号一边是人名时 另一边的候选人名的可靠性高 人名识别系统知识库 非名字用词表 有些双字词 如 时 间 奖励 纬度等不作名字用词 但因 为组成它们的单字可作为名字用字 如 果跟在姓氏后面 往往会将其与可作姓 氏的字

9、一起误判为姓名 例 做 这 件 事 花 了 我们 一 段 时间 中文人名识别过程 待处理 文本 潜在姓 名表 切分预 处理 校 正 识别 结果 系统资源表 知识库 中文人 名识别 人名识别的具体实现 姓氏判别 名字识别 概率判断 候选字符串为人名的概率为 P 姓氏部分为姓氏的概率P1 余下部分的汉字作名字用字 的概率P2 P3 单名时 为P2 校正 对潜在人名的后处理 自动校正 如果两个潜在人名相似 考 察它们的权值 一高一低时 将低权的 潜在人名清除 都为高权时 两者都认 为是人名 都是低权时 则各自通过第 三个字作名字用字的概率大小来判断 概率够高 识别为人名 否则将第三个 字去掉 人工校

10、正 人名识别结果与分析 实验结果 8个测试样本 共22000多 字 共有中文人名270个 系统共识别出 中文人名330个 其中267个为真正人 名 召回率 267 270 100 98 89 准确率 267 330 100 80 91 准确率和召回率是互相制约的 可通 过概率阈值的调整来调节二者的关系 人名识别结果与分析 产生错误的主要原因 被未识别的地名干扰 湖北 英 山 县 詹 家 河 乡 陶 家 河 村 受非中式人名的干扰 司 马 义 艾 买 提 分词结果不理想 为 迎接 香港 回 归 送 贺 礼 规则不准确 南 宋 大 诗人 杨 万 里 惊 如 汉 殿 三 千 女 其他 全世界 每年

11、影片 产量 高 达 两 三 千 部 汉语N gram模型参数训练的迭 代算法 语料 库 分词 语料 参数 估计 语言 模型 新词 识别 词典 优化 分词 初始 词典 新词 表 优化 词典 汉语N gram模型构建的迭代算 法 算法描述 1 利用初始词典 0 V对未分词语料库进行首次分词处理 构造初始语言 模型 0 P 2 利用词典 i V和语言模型 i P对语料库重新分词 3 在分词语料基础上进行新词识别 4 对词典进行优化 生成优化词典 1 i V 5 针对优化词典进行参数估计 获得优化语言模型 1 i P 6 反复执行 2 5 的过程 直到分词结果无明显变化或执行完某一限定 的迭代次数 实

12、验结果和分析 本文针对 Bi gram 模型进行了实验 初始词典规模为 24686 实 验文本为 2000 万字的 人民日报 语料 实验表明 大部分的新词在第一次迭代过程中即已识别出来 后面的迭代过程只进行较小的调整并很快趋于收敛 经过三次迭代 过程 共接受新词 911 个 其中中文人名 359 个 分别采用 FMM 方法 不带新词识别的优化语言模型和带新词 识别的优化语言模型进行分词实验 通过对测试语料的抽样检查 分词准确率分别达到 96 4 97 3 和 97 9 针对拼音汉字转换问题对优化模型进行了测试 音字转换错误 率降低了 3 4 个百分点 3基于语言元素的汉语统计模型 已有实验结论

13、 基于词的语言模型性能 要明显优于同阶的基于字的模型 高阶 模型优于低阶模型 提高语言模型描述能力的途径 提高模型阶数 扩展语言单位 目标 在保持模型阶数不变的条件下 有效提高模型的描述能力 当前主要处理方法 此方向的探索 基于短语和基于分词模式的语 言模型 目前短语选取和概率计算方法存在缺陷 短语的选取标准只考虑了降低模型复杂度的因素 并没有考虑短语构成的内在语言规律 短语集的规模通常十分巨大 导致模型空间增长 同时相对减少了训练数据量 训练数据的重新分割使得短语成为不可分割的语言 单位 将导致构成短语的单个词的概率估计不准确 当前主要处理方法 规则统计相结合的模型 将模型的单位延伸至语言分

14、析的结 果 统称为语言元素 元素间概率计算 利用已有词模型的参数近似估计 本课 题组前人工作 特点 避免概率模型的大幅度增加 提高语言单位获取的灵活性 能够处理 长距离语言关系和递归问题 本文方法 基于语言元素的汉 语N gram语言模型 引入元素数量约束 根据语言规则层次特点对概率值进行加 权 利用规则可信度 词可信度加权 特点 保持原有特点 进一步提高模型 精度 多种语言约束为机器学习提供灵 活机制 基于语言元素的汉语N gram语 言模型 n i iNiin eeepeeepsp 1 1121 n i ii eepepsp 2 11 1 11 2 1 1 1 i i tii t j ji

15、jiiii wwpwwpwpeep 当N 2时 权值向量 定 义 ji 为 权 值 向 量 0 0 为 度 量 元 素 数 量 因 素 的 权 值 当n 0 0 时 表 示 语 言 元 素 越 少 汉 字 串 的 可 信 度 越 高 当n 0 0 时 表 示 元 素 数 量 因 素 不 起 作 用 1 0 i i 为 第i个 元 素 的 可 信 度 权 值 1 1 ji ji 为 第i个 元 素 的 第j个 构 成 词 的 可 信 度 权 值 当 概 率 模 型 初 步 建 立 时 1 ji 基于语言元素的汉语N gram语 言模型 基于元素的Bi gram模型 n i iiiii eeper

16、epernsp 2 10 1110 10 0 1 11 1 2 1 1 1 1 i i tiii t j jijijiiiii wwpwwpwpeep 考虑到概率归一化 n i iiiii eeperepernsp 2 10 1110 10 0 1 s sp 词类及其组织方法 词类 按语法体系划分 按语义分类 混合方式 词类的组织 类似语义网知识表达结构 用很小的时间代价节省大量的存储空间 规则的表示 产生式系统 词法规则 短语规则 句法规则 S S 规则的组织 统一表达形式 按索引分类 索引选择标准 含词数最少的词类 概率最小 的词类 例 S S 以 作为分类索引更合理 BAAA t 21 BAAAA tm 21 低层推理优先原则 如果存在规则 X Y Z Y 和 W ISA Y 则首先匹配规则 X W Z W X 和 Z 可以为空 元素的语言学分析 基于最少元素的状态空间化简方法 对 状 态 空 间 的 生 成 过 程 进 行 分 解 1 词 元 素 筛 选 此 步 骤 实 际 上 是 对 音 节 流 进 行 分 词 的 过 程 词 的 产 生 分 两 个 过 程 首 先 根 据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号