中文分词词性标注系统.ppt

上传人:pu****.1 文档编号:571108632 上传时间:2024-08-08 格式:PPT 页数:29 大小:397.50KB
返回 下载 相关 举报
中文分词词性标注系统.ppt_第1页
第1页 / 共29页
中文分词词性标注系统.ppt_第2页
第2页 / 共29页
中文分词词性标注系统.ppt_第3页
第3页 / 共29页
中文分词词性标注系统.ppt_第4页
第4页 / 共29页
中文分词词性标注系统.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《中文分词词性标注系统.ppt》由会员分享,可在线阅读,更多相关《中文分词词性标注系统.ppt(29页珍藏版)》请在金锄头文库上搜索。

1、中文自动分词系统IRSEG设计与实现高立琦 王卓然2004.9.20大纲v中文分词的意义和用途vIRSEG系统框架设计v数学模型与原理分析v“N最短路径”的算法设计v基于局部Bigram模型的未登录词识别模块v系统评测大纲v中文分词的意义和用途vIRSEG系统框架设计v数学模型与原理分析v“N最短路径”的算法设计v基于局部Bigram模型的未登录词识别模块v系统评测中文分词的意义和用途v汉语的特点最小书写单位为字最小表意单位为词词与词之间没有书写边界v分词系统的用途各种中文信息处理系统的基础模块v自然语言处理v信息检索v大纲v中文分词的意义和用途vIRSEG系统框架设计v数学模型与原理分析v“

2、N最短路径”的算法设计v基于局部Bigram模型的未登录词识别模块v系统评测IRSEG系统框架设计文本断句文本断句资源资源: 词典资源,未登录词知识库等词典资源,未登录词知识库等 汉字原子汉字原子切分切分构建分词构建分词有向图有向图重叠词识别重叠词识别 未登录词未登录词识别识别歧义字段歧义字段处理处理搜索最优搜索最优结果结果保留保留N个个最优结果最优结果输出输出大纲v中文分词的意义和用途vIRSEG系统框架设计v数学模型与原理分析v“N最短路径”的算法设计v基于局部Bigram模型的未登录词识别模块v系统评测数学模型与原理分析v信道噪声模型设S=c1c2cn为输入汉字序列,W=w1w2wm为切

3、分词序列。分词系统的任务是,找到一种切分结果W*,满足:根据贝叶斯公式:假设:一个词wi的出现概率以它前面的词的出现没有关系(Unigram模型)则:为了实现上的方便,我们对上述公式取负对数,得到:数学模型与原理分析(续)v构建分词有向图v通过最短路径搜索,即得最优(概率最大)结果:结合结合 / 成成/ 分子分子结结 合合 成成 分分 子子大纲v中文分词的意义和用途vIRSEG系统框架设计v数学模型与原理分析v“N最短路径”的算法设计v基于局部Bigram模型的未登录词识别模块v系统评测“N最短路径”算法设计vN最短路径的思想中科院张华平博士提出”N最短路径“粗分模型vIRSEG系统的背景哈工

4、大信息检索研究室CUP自然语言理解平台vIRSEG中”N最短路径”模块的特点追求最短路径的准确率和召回率在CUP平台中利用高层语言信息的反馈纠正分词结果v算法设计利用分词有向图的特点(有向无环图)明显减小了时间复杂度和空间复杂度“N最短路径”算法设计(续)结结 合合 成成 分分 子子valuepre00000000valuePre0 0 0 0valuepre0 0 0 0valuepre00 0 0valuepre000 0valuepre0000“N最短路径”算法设计(续) 结结 合合 成成 分分 子子valuepre00000000valuePre10.10 0 0 0valuepre0

5、 0 0 0valuepre00 0 0valuepre000 0valuepre0000“N最短路径”算法设计(续)结结 合合 成成 分分 子子valuepre00000000valuePre10.10 0 0 0valuepre7.760 0 0 0valuepre00 0 0valuepre000 0valuepre0000“N最短路径”算法设计(续) 结结 合合 成成 分分 子子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre00 0 0valuepre000 0valuepre0000“N最短路径”算法

6、设计(续) 结结 合合 成成 分分 子子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre21.510 0 0valuepre000 0valuepre0000“N最短路径”算法设计(续) 结结 合合 成成 分分 子子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.6 2 0valuepre000 0valuepre0000“N最短路径”算法设计(续)结结 合合 成成 分分 子子valuepre0000000

7、0valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2230.520 0valuepre0000“N最短路径”算法设计(续)结结 合合 成成 分分 子子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2223.4330.0330.52valuepre0000“N最短路径”算法设计(续) 结结 合合 成成 分分 子子valuepre00000000value

8、Pre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2223.4330.0330.52valuepre25.2331.2300“N最短路径”算法设计(续)结结 合合 成成 分分 子子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.01 0 0valuepre14.4221.5127.62 0valuepre18.2223.4330.0330.52valuepre25.2329.1431.2333.94“N最短路径”算法设计(续)结结 合合 成成 分分

9、 子子valuepre00000000valuePre10.10 0 0 0valuepre7.76020.0 1 0 0valuepre14.4221.5127.6 2 0valuepre18.2223.4330.0330.5 2valuepre25.2329.1431.2333.94“N最短路径”算法设计(续)v回溯得到N最优结果:结合结合 / 成成 / 分子分子结合结合 / 成分成分 / 子子结结 / 合成合成 / 分子分子结合结合 / 成成 / 分分 / 子子v时间复杂度:搜索过程时间复杂度为O(k),K为图中边的总数;保留结果过程插入排序时间复杂度O(N2);总时间复度为O(k*N2

10、)。大纲v中文分词的意义和用途vIRSEG系统框架设计v数学模型与原理分析v“N最短路径”的算法设计v基于局部Bigram模型的未登录词识别模块v系统评测未登录词识别模块vUnigram的困境很有效的解决歧义字段切分问题v绝大多数歧义现象为交集型歧义对未登录词识别力不从心v未登录词构成极其复杂v与上下文形成各种歧义v自身构成形成各种歧义v很多情况下需借助上下文信息Bigram性价比很低v90%以上的问题Unigram可以解决得很好vBigram需要很大规模的训练语料和更复杂的词典结构vBigram解码过程复杂度高,产生N最短路径开销是可观的 未登录词识别模块(续)v局部Bigram模型思想v在

11、必要的范围应用Bigram模型v全局以Unigram模型为主v借助平滑的思想用插值将不同维数概率结合起来v用聚类的方法处理数据稀疏问题优点v时间复杂度小(几乎与Unigram的相同)v不需要大规模的训练语料v可以通过方便的调节上下文信息对未登录词识别的影响v在原有数据结构上稍作修改即可输出N最短路径v达到和整体Bigram模型相当的效果大纲v中文分词的意义和用途vIRSEG系统框架设计v数学模型与原理分析v“N最短路径”的算法设计v基于局部Bigram模型的未登录词识别模块v系统评测系统评测词典资源:85000多词条评测语料:人工标注的人民日报1998年上半年新闻语料中抽取的12000句。词类数量比例词典词24399792.1%人名27571.0%地名1220.05%时间词47371.6%数词68792.6%总词数258492100%各项评测指标:准确率 召回率 F-Score分词系统总体95.5%96.2%95.8%人名识别82.1%87.0%84.5%地名识别80.6%71.3%75.7%时间词识别95.5%93.7%94.6%数词识别91.7%90.6%91.1%所有未登录词90.3%65.6%76.0%N最短路径整句完全匹配率:NRPM163.4%271.4%373.3%474.4%575.1%Thanks a lot!Any Questions?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号