自然语言处理中的最大熵方法

上传人:宝路 文档编号:47823600 上传时间:2018-07-05 格式:PPT 页数:38 大小:319.15KB
返回 下载 相关 举报
自然语言处理中的最大熵方法_第1页
第1页 / 共38页
自然语言处理中的最大熵方法_第2页
第2页 / 共38页
自然语言处理中的最大熵方法_第3页
第3页 / 共38页
自然语言处理中的最大熵方法_第4页
第4页 / 共38页
自然语言处理中的最大熵方法_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《自然语言处理中的最大熵方法》由会员分享,可在线阅读,更多相关《自然语言处理中的最大熵方法(38页珍藏版)》请在金锄头文库上搜索。

1、自然语言处理中的 最大熵方法马金山 信息检索研究室http:/纲纲 要要熵理论的发展熵理论的发展信息熵信息熵最大熵理论最大熵理论最大熵理论的应用最大熵理论的应用什么是熵什么是熵? 没有什么问题在科学史的 进程中曾被更为频繁地讨论过普里高津熵定律是自然界一切定律中的最高定律里夫金&霍华德熵的提出熵的提出德国物理学家克劳修斯(Rudolph J.E clausius)于1865提出熵的概念其经典意义定义为:R表示可逆过程,即体系的熵变等于可逆过程吸收或耗散的热量除以它的绝对温度。 熵原理的形象比喻一滴墨水滴入一杯清水中,墨水扩散后 均匀地分布在清水中比喻热力体系的自发过程总是趋于温度 均匀分布,

2、反之不行。微观世界中熵的含义微观世界中熵的含义热力学定律都是对物质宏观性质进行考察得到热力学定律都是对物质宏观性质进行考察得到 的经验定律的经验定律宏观物体是大量微观粒子构成的宏观物体是大量微观粒子构成的18721872年,波尔兹曼(年,波尔兹曼(L LBoltzmannBoltzmann)指出熵指出熵是大量微观粒子的位置和速度的分布概率的函是大量微观粒子的位置和速度的分布概率的函 数,是描述系统中大量微观粒子的无序性的宏数,是描述系统中大量微观粒子的无序性的宏 观参数观参数熵值高意味着无序性强熵值高意味着无序性强 ! !熵增原理一个孤立系统的熵,自发性地趋于极大,随 着熵的增加,有序状态逐步

3、变为混沌状态, 不可能自发地产生新的有序结构。当熵处于最小值当熵处于最小值, , 即能量集中程度最高、有效即能量集中程度最高、有效能量处于最大值时能量处于最大值时, , 那么整个系统也处于最有那么整个系统也处于最有 序的状态序的状态, ,相反为最无序状态。相反为最无序状态。熵增原理预示着自然界越变越无序熵增原理预示着自然界越变越无序熵的普遍性熵概念的泛化 熵理论是存在问题的, 需要发展和完善熵与信息1948年电气工程师香农( Shannon)创立了信 息论,将信息量与熵联系起来。他用非常简洁的数学公式定义了信息时代的 基本概念:熵H(p) = -p(x)logp(x)单位:bits通信中的熵表

4、示“是” 和 “否”1 = 是 0 =否表示“是” 、“否”和“可能是”11 =是 00 = 否 10(01) = 可能是一条消息的熵就是编码这条消息所需二 进制位即比特的个数。随机事件的熵熵定量的描述事件的不确定性 设随机变量 ,它有A1,A2,An共n个 可能的结局,每个结局出现的机率分别为 p1,p2 ,.,pn,则 的不确定程度,即信 息熵为: 熵越大,越不确定 熵等于0,事件是确定的例子抛硬币掷色子(32个面)不公平的硬币熵的图形信息熵的意义信息熵概念为测试信息的多少找到了一 个统一的科学定量计量方法,是信息论 的基础。信息熵将数学方法和语言学相结合最大熵理论熵增原理在无外力作用下,

5、事物总是朝着最混乱 的方向发展事物是约束和自由的统一体事物总是在约束下争取最大的自由权, 这其实也是自然界的根本原则。在已知条件下,熵最大的事物,最可能 接近它的真实状态最大熵原则下点的分布对一随机过程,如果没有任何观测量, 既没有任何约束,则解为均匀分布最大熵原则下点的分布最大熵原则下点的分布最大熵原则下点的分布选择最好的模型研究某个随机事件,根据已知信息,预 测其未来行为。当无法获得随机事件的真实分布时,构 造统计模型对随机事件进行模拟。满足已知信息要求的模型可能有多个。基于最大熵原理选择模型选择熵最大的模型Jaynes证明:对随机事件的所有相容 的预测中,熵最大的预测出现的概率占 绝对优

6、势Tribus证明,正态分布、伽玛分布、指 数分布等,都是最大熵原理的特殊情况基于最大熵的统计建模特征空间的确定特征选择 建立统计模型 基于最大熵的统计建模即发现满足已知条 件的熵最大的模型基于最大熵的统计建模已有特征 f1(x,y), f2(x,y), fn(x,y)特征的经验概率:特征的期望概率:如果样本足够多,可信度高的特征的经验概率与真实 概率一致的由训练样本习得的模型,对可信度高的特征的估计应 满足约束等式:基于最大熵的统计建模事件的熵计算模型的最大熵得其中最大熵模型求解 参数估计GIS算法(Generalized Iterative scaling) Darroch and Rat

7、cliff,1972 IIS算法(Improved Iterative Scaling) Della Pietra 1995Input: 特征函数特征分布Output: 最优参数值最优模型 IIS算法1 Start with for all 2 Do for each a Let be the solution to b Update the value of 3 Go to step 2 if not all have converged 词义消歧的例子词义消歧 确定多义词在一个句子中所表达的词义“打”的语义:S1,S2,S3,S4S1打人S2打酱油S3打球S4打电话他打完篮球后给我打了个电

8、话 ? ?确定“打”的语义没有任何先验知识概率分布: P(S1)= 0.25 P(S2)= 0.25 P(S3)= 0.25 P(S4)= 0.25 H(p)= -4 X (0.25 log20.25)=2熵值最大,最合理确定“打”的语义先验知识: 取S1或S3的概率:0.6 取S2或S4的概率:0.4概率分布: P(S1)= 0.3 P(S2)= 0.2 P(S3)= 0.3 P(S4)= 0.2 H(p)= -2 X (0.2 log20.2) -2 X (0.3 log20.3)符合约束的分布中,该分布熵值最大,最合 理不存在没有约束的自由他了那个坏人 打=S1他打了二两酒 打=S2他喜

9、欢打篮球 打=S3他喜欢打电话 打=S4他用手机打我 打=S1他酒后打人 打=S1一些人在打球 打=S3知识的获取统计这些先验知识(约束)(人,S1) (狗,S1)(酱油,S2) (酒,S2) (篮球,S3) (冰球,S3)(电话,S4) (手机,S4) (手机,S1) (酒,S1) (人,S3)知识的形式化表示在这些约束下,计算P(打= Si),并满足 模型的熵最大引入特征函数1 if y=S3 and x=篮球0 otherwise模型的建立特征选择 在所有的特征中,选择最有代表性的特征 ,构造约束集合参数估计 应用IIS算法,计算出每个特征对应的参数 值特征选择(1)最简单的方法: 选择

10、出现次数大于n的特征For example:(Adwait Ratnaparkhi 1999) Discard features that occur less than 5 times代价最小特征选择(2)原子特征算法(Basic Feature Selection )1 特征集合S=02 任取一特征 加入集合中3 调用IIS,确定4 在该约束集合下,计算熵的增量5 选择使熵值增加最大的特征加到S中6 调用IIS,计算在此特征集下的7 执行2特征选择(3)近似增益算法(Approximate Gains) 已有特征 对应参数 增加特征 对应的参数 则增加的特征只影响当前参数 , 不变模型的形

11、式:ReferenceA.Berger S.D.Pietra V.D.Pietra A maximum entropy approach to natural language processing Computational linguistics 1996,V22(1):39-71S.D.Pietra, V.D.Pietra and J.Lafferty Inducing features of random fields IEEE Transactions on Pattern Analysis and Machine Intelligence 1997,V19(4): 380-393 R. Rosenfeld Adaptive statistical language modeling: A Maximum Entropy Approach Phd thesis CMU-CS-94,1994Thanks

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号