构造汉语的统计计算语言模型 - 哈尔滨工业大学

资源描述

《构造汉语的统计计算语言模型 - 哈尔滨工业大学》由会员分享，可在线阅读，更多相关《构造汉语的统计计算语言模型 - 哈尔滨工业大学（85页珍藏版）》请在金锄头文库上搜索。

1、汉语语言模型研究汉语语言模型研究及其在音字转换中的应用及其在音字转换中的应用计算机科学与技术学院语言技术研究中心刘秉权 2003年5月28日 1 绪论本文研究的目的和意义计算语言学概述相关领域研究与发展综述统计语言建模技术基于统计的计算语言模型给定所有可能的句子统计语言模型就是一个概率分布条件概率形式 N gram模型 sp n i iin def hwpwwpsp 1 1 n i iNii wwwpsp 11 1 统计语言模型的作用信源信道模型 I 语言文本 O 声音信号字符图像信号拼音输入等语言模型 maxarg maxarg maxarg IOpIp

2、 Op IOpIp OIpI III Ip 统计语言模型建模方法极大似然方法语言建模贝叶斯方法 maxarg MXPM M maxarg XMPM M maxarg XP MPMXP M M maxarg MPMXPM M 统计语言模型的评价标准熵 Entropy 交叉熵 Cross Entropy 复杂度 Perplexity log 1 1lim n n xp n LH x MTMT xPxPPPH log 2 MT PPH M TPP 参数学习和数据平滑参数学习有指导学习基于完全数据的最大可能性估计无指导学习针对不完全数据的具有隐含变量的参数训练过程 EM算法数据

3、平滑 Good Turing估计回退平滑和线性插值技术变长N gram模型网格方法压缩模型当前主要语言模型 N gram模型决策树模型指数模型最大熵模型整句模型文法模型概率上下文无关文法链文法概率依存文法自适应模型统计语言模型存在的不足之处最成功的统计语言建模技术很少使用真实的语言知识跨领域的适应能力差不能有效处理长距离语言约束为保证可行性所有现有的语言模型都在文本的不同部分之间作了独立假设汉语语言模型的独特问题本文的目标针对汉语统计模型的参数训练问题进行研究应用于手机类信息设备的

4、智能拼音汉字输入改进音字转换引入语言知识提高统计模型的描述能力研究汉语模型的自适应和机器学习方法本文主要工作汉语统计语言模型参数训练的优化基于语言元素的汉语统计模型汉语语言模型的自适应方法面向手机类设备的智能拼音汉字输入方法 2 汉语统计语言模型参数训练的优化 i w iNi iNi iNii wwc wwc wwwp 1 1 11 语料库分词语料参数估计语言模型分词系统词表问题的分析汉语统计模型的准确构建和优化涉及到以下几个问题词表的确定生词识别分词

5、参数估计三者存在因果关系词表分词分词参数估计模型参数估计模型词表优化分词生词识别参数估计迭代算法的提出非迭代过程的缺点几个过程不能相互作用相互促进迭代过程的优点对分词的影响更好地解决分词歧义问题提高分词精度对生词识别的影响减少不合理的候选生词排除伪生词生词自动消歧减少后处理过程对模型的影响逐步优化词表提高参数估计精度提高音字转换正确率基于N gram信息的生词获取基本思想 N元对词频过滤互信息过滤校正生词获取词频互信息 Mutual Information 词频与互信息的关系候选生词的校正 log 21 21 21

6、 wpwp wwp wwI 基于N gram信息的生词获取结果分析 MI因素准确率随着互信息值的升高而升高但抽取出的元组的数量也随之减少 WF因素准确率随着词频值的升高而降低抽取出的元组数量也随之减少影响结果的其他因素分词错误不容易和服务量词个百分点集电视连续剧届世乒赛姓氏新华社记者刘新华社记者王基于统计和规则方法的中文人名识别问题的提出主要方法规则方法准确规则库冲突复杂庞大统计方法资源少效率高准确率低混合方法取长补短本文方法先规则后统计充分利用各种资源采用分词预处理基于统计和规则方法的中文人名识别中文姓名

7、用字特点 82年人口普查结果 729个姓氏用字姓氏分布很不均匀但相对集中有些姓氏可用作单字词名字用字分布较姓氏要平缓分散名字用字涉及范围广某些汉字既可用作姓氏又可用作名字用字人名识别系统知识库姓氏用字频率库和名字用字频率库 653 个单姓氏 15个复姓 1894个名字用字的总出现次数用作姓氏的次数作为姓氏 c c cp 的总出现次数用作名字用字的次数作为名字用字 c c cp 人名识别系统知识库名字常用词表朝阳劲松爱国建国立新黎明宏伟朝晖向阳海燕爱民凤山雪松新民剑峰建军红旗光明人名识别系统知识库称谓库三种类型只能用于姓名之前如战士歌星

8、演员等只能用于姓名之后如阁下之流等姓名前后皆可如先生主席市长等称谓前缀表副总代代理助理常务名誉荣誉等人名识别系统知识库简单上下文指界词表约110个词动词说是指出认为表示参加等介词在之的被以等正在今天本人先后等标点符号集人名出现在句首或句尾包括分句的机会比较大标点符号可用来帮助判断人名的边界顿号一边是人名时另一边的候选人名的可靠性高人名识别系统知识库非名字用词表有些双字词如时间奖励纬度等不作名字用词但因为组成它们的单字可作为名字用字如果跟在姓氏后面往往会将其与可作姓氏的字

9、一起误判为姓名例做这件事花了我们一段时间中文人名识别过程待处理文本潜在姓名表切分预处理校正识别结果系统资源表知识库中文人名识别人名识别的具体实现姓氏判别名字识别概率判断候选字符串为人名的概率为 P 姓氏部分为姓氏的概率P1 余下部分的汉字作名字用字的概率P2 P3 单名时为P2 校正对潜在人名的后处理自动校正如果两个潜在人名相似考察它们的权值一高一低时将低权的潜在人名清除都为高权时两者都认为是人名都是低权时则各自通过第三个字作名字用字的概率大小来判断概率够高识别为人名否则将第三个字去掉人工校

10、正人名识别结果与分析实验结果 8个测试样本共22000多字共有中文人名270个系统共识别出中文人名330个其中267个为真正人名召回率 267 270 100 98 89 准确率 267 330 100 80 91 准确率和召回率是互相制约的可通过概率阈值的调整来调节二者的关系人名识别结果与分析产生错误的主要原因被未识别的地名干扰湖北英山县詹家河乡陶家河村受非中式人名的干扰司马义艾买提分词结果不理想为迎接香港回归送贺礼规则不准确南宋大诗人杨万里惊如汉殿三千女其他全世界每年

11、影片产量高达两三千部汉语N gram模型参数训练的迭代算法语料库分词语料参数估计语言模型新词识别词典优化分词初始词典新词表优化词典汉语N gram模型构建的迭代算法算法描述 1 利用初始词典 0 V对未分词语料库进行首次分词处理构造初始语言模型 0 P 2 利用词典 i V和语言模型 i P对语料库重新分词 3 在分词语料基础上进行新词识别 4 对词典进行优化生成优化词典 1 i V 5 针对优化词典进行参数估计获得优化语言模型 1 i P 6 反复执行 2 5 的过程直到分词结果无明显变化或执行完某一限定的迭代次数实

12、验结果和分析本文针对 Bi gram 模型进行了实验初始词典规模为 24686 实验文本为 2000 万字的人民日报语料实验表明大部分的新词在第一次迭代过程中即已识别出来后面的迭代过程只进行较小的调整并很快趋于收敛经过三次迭代过程共接受新词 911 个其中中文人名 359 个分别采用 FMM 方法不带新词识别的优化语言模型和带新词识别的优化语言模型进行分词实验通过对测试语料的抽样检查分词准确率分别达到 96 4 97 3 和 97 9 针对拼音汉字转换问题对优化模型进行了测试音字转换错误率降低了 3 4 个百分点 3基于语言元素的汉语统计模型已有实验结论

13、基于词的语言模型性能要明显优于同阶的基于字的模型高阶模型优于低阶模型提高语言模型描述能力的途径提高模型阶数扩展语言单位目标在保持模型阶数不变的条件下有效提高模型的描述能力当前主要处理方法此方向的探索基于短语和基于分词模式的语言模型目前短语选取和概率计算方法存在缺陷短语的选取标准只考虑了降低模型复杂度的因素并没有考虑短语构成的内在语言规律短语集的规模通常十分巨大导致模型空间增长同时相对减少了训练数据量训练数据的重新分割使得短语成为不可分割的语言单位将导致构成短语的单个词的概率估计不准确当前主要处理方法规则统计相结合的模型将模型的单位延伸至语言分

14、析的结果统称为语言元素元素间概率计算利用已有词模型的参数近似估计本课题组前人工作特点避免概率模型的大幅度增加提高语言单位获取的灵活性能够处理长距离语言关系和递归问题本文方法基于语言元素的汉语N gram语言模型引入元素数量约束根据语言规则层次特点对概率值进行加权利用规则可信度词可信度加权特点保持原有特点进一步提高模型精度多种语言约束为机器学习提供灵活机制基于语言元素的汉语N gram语言模型 n i iNiin eeepeeepsp 1 1121 n i ii eepepsp 2 11 1 11 2 1 1 1 i i tii t j ji

15、jiiii wwpwwpwpeep 当N 2时权值向量定义 ji 为权值向量 0 0 为度量元素数量因素的权值当n 0 0 时表示语言元素越少汉字串的可信度越高当n 0 0 时表示元素数量因素不起作用 1 0 i i 为第i个元素的可信度权值 1 1 ji ji 为第i个元素的第j个构成词的可信度权值当概率模型初步建立时 1 ji 基于语言元素的汉语N gram语言模型基于元素的Bi gram模型 n i iiiii eeper

16、epernsp 2 10 1110 10 0 1 11 1 2 1 1 1 1 i i tiii t j jijijiiiii wwpwwpwpeep 考虑到概率归一化 n i iiiii eeperepernsp 2 10 1110 10 0 1 s sp 词类及其组织方法词类按语法体系划分按语义分类混合方式词类的组织类似语义网知识表达结构用很小的时间代价节省大量的存储空间规则的表示产生式系统词法规则短语规则句法规则 S S 规则的组织统一表达形式按索引分类索引选择标准含词数最少的词类概率最小的词类例 S S 以作为分类索引更合理 BAAA t 21 BAAAA tm 21 低层推理优先原则如果存在规则 X Y Z Y 和 W ISA Y 则首先匹配规则 X W Z W X 和 Z 可以为空元素的语言学分析基于最少元素的状态空间化简方法对状态空间的生成过程进行分解 1 词元素筛选此步骤实际上是对音节流进行分词的过程词的产生分两个过程首先根据

展开阅读全文