基于隐马尔科夫的词性标注讲稿_by于江德

上传人:wm****3 文档编号:51703900 上传时间:2018-08-16 格式:PPT 页数:28 大小:735.50KB
返回 下载 相关 举报
基于隐马尔科夫的词性标注讲稿_by于江德_第1页
第1页 / 共28页
基于隐马尔科夫的词性标注讲稿_by于江德_第2页
第2页 / 共28页
基于隐马尔科夫的词性标注讲稿_by于江德_第3页
第3页 / 共28页
基于隐马尔科夫的词性标注讲稿_by于江德_第4页
第4页 / 共28页
基于隐马尔科夫的词性标注讲稿_by于江德_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《基于隐马尔科夫的词性标注讲稿_by于江德》由会员分享,可在线阅读,更多相关《基于隐马尔科夫的词性标注讲稿_by于江德(28页珍藏版)》请在金锄头文库上搜索。

1、基于隐马尔科夫模型的词性标注于江德 安阳师范学院自然语言处理小组 2009年4月7日内容提要n词性标注基于HMM的词性标注基于规则的词性标注后面经常用到的公式二元一元词性标注的任务n自然语言中一词多类的现象n把这篇报道编辑一下把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-vnTime flies like an arrowTime/n-v flies/v-n like/p-v an/Det arrow/nn所谓词性标注就是用计算机来自动地给文本中 的词标注词类(如:名词、动词)。n意义n为更高层次的自然语言文本加工提供素材n为语言学的研究,提供翔实的资

2、料n从加工过的文本中获取词类及频度的词性标注 知识词性标注的实质:寻找最优路径411222396种可能性,哪种可能性最大?隐马尔可夫模型简要回顾n隐马尔可夫模型是在马尔可夫链的基础之上发展起来的 。由于实际问题比马尔可夫模型所描述的更为复杂,观 察到的事件并不是与状态一一对应,而是通过一组概率 分布相联系,这样的模型就称为隐马尔可夫模型(HMM )。nHMM是一个双重随机过程,其中之一是马尔可夫链,这 是基本随机过程,它描述状态的转移。另一个随机过程 描述状态和观察值之间的统计对应关系。这样,站在观 察者的角度,只能看到观察值,不像马尔可夫链模型中 的观察值和状态一一对应,因此不能直接看到状态

3、,而 是通过一个随机过程去感知状态的存在及其特性。因而 称之为“隐”马尔可夫模型。HMM的形式描述n对于一个随机事件,有一个观察值序列: O1,.,OT 该事件隐含着一个状态序列: X1,.,XTn一个隐马尔可夫模型 (HMM) 是一个五元组:(X , O, A, B, ) 其中:X = q1,.qN:状态的有限集合O = v1,.,vM:观察值的有限集合A = aij,aij = p(Xt+1 = qj |Xt = qi):转移概 率B = bik,bik = p(Ot = vk | Xt = qi):输出概 率 = i, i = p(X1 = qi):初始状态分布(初始概 率)HMM的三个

4、基本问题令 = A,B, 为给定HMM的参数,令 = O1,.,OT 为观察值序列, 隐马尔可夫模型(HMM)的三个基本问题: w评估问题:对于给定模型,求某个观察值序列 的概率p(|) ;w解码问题:对于给定模型和观察值序列,求可 能性最大的状态序列;(对应词性标注问题)w学习问题:对于给定的一个观察值序列,调整 参数,使得观察值出现的概率p(|)最大。词性标注和HMMn如何建模?n单词序列、词性序 列?n三个概率如何得到 ?n两个随机过程?n问题的实质?基于HMM进行词性标注(1)n两个随机过程 1、选择罐子:上帝按照一定的转移概率随机地选择 罐子 2、选择彩球:上帝按照一定的概率随机地从

5、一个罐 子中选择一个彩球输出n人只能看到彩球序列(词序列,记作Ww1w2wn ),需要去猜测罐子序列(隐藏在幕后的词性标注 序列,记作T=t1t2tn)n已知词序列W(观测序列)和模型的情况下,求使 得条件概率p(T|W,)值最大的那个T,一般记作:T= arg max P(T|W, ) 基于HMM进行词性标注(2)n首先,构造如下的统计计 算模型: 令W=w1w2wn为一多词类词 串,C=c1c2cn为可能的词 类标注结果串。P(C|W)为给定条件下出现的概 率。如果不考虑更大的上下文,我们可以认为使得 P(C|W)的值取得最大时的出现的可能性最大。这 样就把词类标 注问题转 化为寻找一组标

6、记 串 ,使得:= arg max P(C|W) (1)基于HMM进行词性标注(3)根据贝叶斯定律,可以得到:(2)其中P(W)为常量,不需要考虑,关键在于对P(C)和 P(W|C)的计算。由于两者的参数估计极为复杂,在 实际应用中,往往需进行简化。对于P(C),我们使 用了二元语法Bigram近似,得到: (3)基于HMM进行词性标注(4)而对P(W|C),只考虑每个词依赖于它本身的词类的情 况,可以得到:(4) 综合(1), (2), (3), (4),最终得到:(5) 其中 此模型的两组参数可以从对正确标注词类的语料的参 数训练中得到基于HMM进行词性标注(5)其中最简单的参数估计法为最

7、大似然估计 MLE(Maximum Likelihood Estimation),即令:(6)(7)其中f(ci,cj)是语料库中ci和cj相邻出现的频度, f(w,c)是语料库中词取词类的频度,f(c)为语 料库中词类标记出现的次数,为语料库词总 数。基于HMM进行词性标注(6)n词性之间的转移概率可以从语料库中统计得到:n已知词性标注下输出词义的概率可以从语料库中统计得到:计算所分词系统 基本思想nInstitute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS)中科院计算所词语分析系统n特点:此分词系统实现了分

8、词和词性标注一体化,未 登录词与普通词处理的一体化;评估体系一体化n基本思想:采取HMM(隐式马尔可夫模型),建立切分 词图。词语粗分阶段(N最短路径法),先得出N个概 率最大的切分结果。然后,利用角色标注方法识别未 登录词,并计算其概率,将未登录词加入到切分词图 中,之后视它为普通词处理,最终进行动态规划优选 出N个最大概率切分标注结果。计算所分词系统 功能模块图ICTCLAS结果生成HMM词性 标注未登录词 识别N最短路径 切分人名识 别其他译名识 别地名识 别其他规范重叠 词计算所分词系统 程序流程原始字串原子切分粗切分 切分词 图语料库语料库训练概率词典未登录词识 别识别词典切分标注选

9、择N优输出结果基于规则的词性标注 基本思想nEric Brill (1995)Transformation-based error- driven part of speech taggingn基本思想: (1)正确结果是通过不断修正错误得到的 (2)修正错误的过程是有迹可循的 (3)让计算机学习修正错误的过程,这个过程 可以用转换规则(transformation)形式记录 下来,然后用学习得到转换规则进行词性标 注基于规则的词性标注 转换规则的形式n转换规则由两部分组成n改写规则(rewriting rule)n激活环境(triggering environment)n一个例子:转换规则T

10、1 改写规则:将一个词的词性从动词(v)改为名词(n ); 激活环境:该词左边第一个紧邻词的词性是量词(q ),第二个词的词性是数词(m)S0: 他/r 做/v 了/u 一/m 个/q 报告/vS1: 他/r 做/v 了/u 一/m 个/q 报告/n参考文献n翁富良,王野翊.计算语言学导论.北京:中国社会科学出版社 ,1998n苑春法等(译).统计自然语言处理基础.北京:电子工业出版 社,2005n冯志伟.计算语言学基础.北京:商务印书馆,2001n姚天顺.自然语言理解.北京:清华大学出版社,1995n王小捷,常宝宝.自若语言处理技术基础.北京:北京邮电大学 出版社,2002n林红,苑春法.基于最大熵方法的汉语词性标注J.计算机应 用.2004,24(1):14-16n詹卫东的计算语言学概论讲义n宗成庆的隐马模型讲义谢谢!问题或讨论 jiangde_

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号