分词系统介绍新ppt课件备课讲稿

上传人:yuzo****123 文档编号:137445460 上传时间:2020-07-08 格式:PPTX 页数:25 大小:1.05MB
返回 下载 相关 举报
分词系统介绍新ppt课件备课讲稿_第1页
第1页 / 共25页
分词系统介绍新ppt课件备课讲稿_第2页
第2页 / 共25页
分词系统介绍新ppt课件备课讲稿_第3页
第3页 / 共25页
分词系统介绍新ppt课件备课讲稿_第4页
第4页 / 共25页
分词系统介绍新ppt课件备课讲稿_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《分词系统介绍新ppt课件备课讲稿》由会员分享,可在线阅读,更多相关《分词系统介绍新ppt课件备课讲稿(25页珍藏版)》请在金锄头文库上搜索。

1、分词系统介绍,大纲,分词框架 各模块算法介绍,2,盛大搜索院分词系统(架构),Chunker,Process chain,Normalizer,Atomic Reco,Fined Segment,Core Segment,Error Correct,Sink Executor,Dictionary,Error Correct Dict,Unigram Dict,Bigram Dict,SenitiveWord,Uni,Bi,盛大搜索院分词系统(字符归一化),Chunker 根据特殊字符和限制长度切分句子 Normalizer 全角半角、大小写归一化 Atomic Recognition 针对英

2、文、数字、日期等非字典词做原子识别(比如2012年3月2日) Fined Atomic Recoginition 在原子识别基础上进行细粒度识别(可识别出2012)为索引提供丰富词汇 Core Segment 核心分词组件包括:一元分词(Unigram)和二元分词(Bigram) Error Correction 通过纠错词典对分词结果纠错 Sink Executor 组装、定制最终分词结果(是否返回词频、是否组装细粒度结果) Dictionary 基于Trie树的词典组件,提供基本的词管理、查询功能 Sensitive Word 基于字典的敏感词组件,提供个其他系统使用,盛大搜索院分词系统(

3、原子词识别),原子词 简单命名实体 500万 2012年6月11日 识别 正则表达式 有限状态自动机 使用 基于类的语言模型 未#串 500万 未#数 2012年6月11日未#时,盛大搜索院分词系统(原子词识别),规则整理 先验知识 系统实现 正则表达式库 手动构造DFA 自动生成DFA,两点十五分零三秒 三点十五 三点差五分 三点差一刻 三点钟 三点半 3:15,盛大搜索院分词系统(原子词识别),DFA的自动生成 正则表达式 NFA DFA 正则表达式生成NFA 空字符,字母表,字符a是字母表中字符,N(a),N(),盛大搜索院分词系统(原子词识别),正则表达式生成NFA 正规表达式s和t的

4、NFA分别为N(s)和N(t),N(s*),N(st),N(s|t),盛大搜索院分词系统(原子词识别),NFA生成DFA(确定化) 令 Dstates 中仅包含-closure(s), 并设置状态为未标记; while Dstates中包含未标记的状态T do begin 标记T; for 各输入记号a do begin U := -closure(move(T, a); if U不在Dstates中 then 将 U 追加到 Dstates 中,设置状态为未标记; DtransT, a := U; end end,盛大搜索院分词系统(字典匹配),从第一个字符开始找出字典中能匹配到的所有词 以

5、 【中华人民共和国】为例: 中华人民共和国 中,中华,中华人民,中华人民共和国 中华人民共和国 华,华人 要注意的是单字必须成词!,盛大搜索院分词系统(分词算法),基于语言模型的切分 对于每一个切分结果,采用n元语法模型计算其概率,并输出概率最大的切分结果,盛大搜索院分词系统(分词算法),Unigram bigram,盛大搜索院分词系统(分词算法),组合爆炸 动态规划 Viterbi算法,盛大搜索院分词系统(分词算法),盛大搜索院分词系统(分词算法),盛大搜索院分词系统(分词算法),盛大搜索院分词系统(分词算法),盛大搜索院分词系统(分词算法),盛大搜索院分词系统(分词算法),盛大搜索院分词系

6、统(分词算法),盛大搜索院分词系统(平滑计算),当某个词词频为0时会给计算带来一定的困难,为了避免这种情况使用了+1平滑和回退平滑 +1平滑 为了解决某个词词频为0的情况,比如单字,无论词频是否为0都对其加1 回退平滑 为了解决二元分词中,bigram词典词频为0的情况,盛大搜索院分词系统(纠错模块),基于纠错词典纠错 对于短时间内无法通过算法解决的bad case,通过纠错后处理来解决 核心思想 通过上下文来纠错 例如: 松原市 长 春节 致辞 纠错词典规则:松原市 长 = 松原市长 算法实现 按照纠错词典中的规则对分词结果进行最长匹配纠错,盛大搜索院分词系统(词典结构),核心辞典(Unigram词典、Bigram词典) 用户词典 纠错词典 词典数据结构 双数组Trie树,Thanks,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号