统计自然语言处理基本概念

上传人:宝路 文档编号:48020860 上传时间:2018-07-08 格式:PPT 页数:73 大小:659.62KB
返回 下载 相关 举报
统计自然语言处理基本概念_第1页
第1页 / 共73页
统计自然语言处理基本概念_第2页
第2页 / 共73页
统计自然语言处理基本概念_第3页
第3页 / 共73页
统计自然语言处理基本概念_第4页
第4页 / 共73页
统计自然语言处理基本概念_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《统计自然语言处理基本概念》由会员分享,可在线阅读,更多相关《统计自然语言处理基本概念(73页珍藏版)》请在金锄头文库上搜索。

1、统计自然语言处理基本概念模型真实世界中 的系统模型1InputOutput模型2Output1Output2如果Output1总是和Ouput接近,Output2总是 和Output偏离,我们就认为模型1比模型2好真实系统模型1模型2InputOutput 模型由体系结构和参数两部分构成 举例:住宅楼 多层板楼 高层板楼 高层塔楼 参数 层数: 户型:三室一厅,两室一厅, 举架高度: 供热方式:地热?暖气片?目录 样本空间(Sample Space) 估计器(Estimator)和随机过程(Stochastic Process) 信息论(Information Theory) 数据集分类(Da

2、ta Set Classification) 性能评价(Performance Measure)样本空间 (Sample Space)试验(Experiment) 试验 一个可观察结果的人工或自然的过程,其产生的 结果可能不止一个,且不能事先确定会产生什么 结果 例如 连掷两次硬币 样本空间 是一个试验的全部可能出现的结果的集合 举例 连掷两次硬币 =HH, HT, TH, TT, H:面朝上; T:面朝下事件(Event) 事件 一个试验的一些可能结果的集合,是样本 空间的一个子集 举例:连掷两次硬币 A: 至少一次面朝上 B: 第二次面朝下 A=HT, TH, HH, B=HT, TT事件

3、的概率 事件的概率 重复m试验,如果事件A出现的次数为n,则事件A 的概率为P(A)=n/m,这称为概率的频率解释,或 称统计解释 频率的稳定性又称为经验大数定理 举例:连掷两次硬币 A: 至少一次面朝上 B: 第二次面朝下 P(A)=3/4, P(B)=1/2 当试验不能重复时,概率失去其频率解释的含义 ,此时概率还有其他解释:贝叶斯学派和信念学 派 一个人出生时的体重,一个人只能出生一次举例 举例:连续三次掷硬币 样本空间 =HHH,HHT,HTH,HTT,THH,THT,TTH,TTT 事件A:恰好两次面朝下 A=HTT,THT,TTH 做1000次试验,计数得386次为两次面朝下 估计

4、:P(A)=386/1000=0.386 继续做7组试验,得:373,399,382,355,372 ,406,359,共8组试验 计算平均值:P(A)=(0.386+0.373+)/8=0.379,或 累计:P(A)=(386+373+)/8000=3032/8000=0.379 统一的分布假设为:3/8=0.375概率空间 概率空间的三个公理 P(A)0 P()=1 P(AB)=P(A)+P(B) if AB= 这三条公理也是概率的原始定义 推论: P()=0; A BP(A)0正相关,0:x和y关联强度大 I(x,y)=0:x和y无关 I(x,y)0:x和y具有互补的分布熵(Entrop

5、y) 熵(Entropy) Chaos(混沌),无序 物理学:除非施加能量,否则熵不会降低 举例:把房间弄乱很容易,整理干净不容易 是不确定性(Uncertainty)的衡量 不确定性越高,熵越高,我们从一次实验中得 到的信息量越大熵的公式 熵H(X)=-xp(x)logxp(x) 假设PX(x)是随机变量X的分布 基本输出字母表是 单位:bits 熵是X的平均信息量,是自信息量的期望 E(X)=x p(x) x I(X)=-logp(x),取2为底,I(X)=-log2p(x) E(I(X)=E(-log2p(x)= x p(x)(-log2p(x) = H(X) H(X)=H(p)=Hp(

6、X)=HX(p)=H(pX)熵的例子 掷均匀硬币,=H,T p(H)=.5, p(T)=.5 H(p)=-0.5log20.5+(-0.5log20.5)=1 32面的均匀骰子,掷骰子 H(p)=-32(1/32)log2(1/32)=5 事实上,21=2, 25=32(perplexity) 掷不均匀硬币 p(H)=0.2, p(T)=0.8, H(p)=0.722 p(H)=0.01, p(T)=0.99, H(p)=0.081好书店,差书店 什么时候H(p)=0? 试验结果事先已经知道 即:x, p(x)=1; y, p(y)=0 if yx 熵有没有上限? 没有一般的上限 对于|=n,

7、H(p)log2n 均衡分布的熵是最大的 等概率分布 2个输出的等概率分布,H(p)=1bit 32个输出的等概率分布,H(p)=5bits 43亿输出的等概率分布,H(p)=32bits 非等概率分布 32个输出,2个0.5,其余为0,H(p)=1bit 怎样比较具有不同数量输出的“熵”混乱度Perplexity 混乱度 G(p)=2H(p) 平均每次试验有多少种可能的结果 在NLP中,如果词表中的词具有统一的 分布概率,则最难预测,熵最大,混乱 度最高 反之,分布越不均衡,熵越小,混乱度 越小联合熵和条件熵 两个随机变量:X(空间是),Y() 联合熵(Joint Entropy) (X,Y

8、)被视为一个事件 H(X,Y)=-x yp(x,y)log2p(x,y) 条件熵(Conditional Entropy) H(Y|X)=-x yp(x,y)log2p(y|x) p(x,y)是加权,权值是没有条件的条件熵 H(Y|X)=xp(x)H(Y|X=x) = xp(x)(- yp(y|x)log2p(y|x) =-x yp(y|x)p(x)log2p(y|x) = -x yp(x,y)log2p(y|x)熵的性质 熵的非负的 H(X)0 Chain Rule H(X,Y)=H(Y|X)+H(X) H(X,Y)=H(X|Y)+H(Y) H(X,Y)H(X)+H(Y),X和Y独立时相等

9、H(Y|X)H(Y),条件熵比熵小熵的编码意义 如果一个符号序列是满足概率分布p的 随机过程产生的,那么对这个序列进行 编码至少需要的bit数是H(p) 压缩问题 如果数据中有很多重复的模式,则易于压 缩,因为熵小 否则,熵大,不容易压缩编码实例 怎样给ISO Latin 1编码? 通常用8位 经验表明:有的字符经常出现,有的字符很 少出现 我们可以给经常出现的字用较少的bit来表示,给 很少出现的字符用较多的bit来表示 假设:p(a)=0.3, p(b)=0.3, p(c)=0.3, 其余p(x)=0.0004 编码:a:00, b:01, c:10, 其余:11b1b2b8 对于符号串:

10、acbbcbaac,编码为: a c b b c b a a c 0010010111000011111001000010 如果每个符号用8位编码,需要80位,现在需要28位语言的熵 p(cn+1|c1cn) ci是语言中的一个字符 c1cn是历史h 举例:汉语,n=3 p(赵|围魏救):高 p(去|我曾经):低 计算语言的条件熵 -hH cp(c,h)log2p(c|h)各种语言的熵 按字母计算的零阶熵 法文:3.98 bits意大利文:4.00 bits 西班牙文:4.01 bits英文:4.03 bits 德文:4.10 bits俄问:4.35 bits 中文(按汉字计算):9.65 b

11、its 中文(按笔画计算):3.43 bits 按词汇计算的零阶熵 英语:10.0 bits汉语:11.46 bits 说明汉语的词汇丰富 语言的冗余度 英语:73%; 俄语:70%;汉语:63%;古文更低Kullback-Leibler距离 假设通过一组试验估计得到的概率分布 为p,样本空间,随机变量X 真实的分布为q,相同的和X 现在的问题是:p和q相比,误差多大? Kullback-Leibler距离给出的答案是: D(q|p)=xq(x)log2q(x)/p(x)=Eplog(q(x)/p(x)KL距离(相对熵) 习惯上 0log0=0 plog(p/0)= Distance or D

12、ivergence(分歧) 不对称D(q|p)D(p|q) 也不满足三角不等式 事实上,D(q|p)不是距离,而是分歧 H(q)+D(q|p):根据q分布,对p进行编码需要 的bit数(交叉熵)平均互信息 随机变量:X;Y;pXY(X,Y);pX(x);pY(y) 两个离散集之间的平均互信息 I(X,Y)=D(p(x,y)|p(x)p(y)= x y p(x,y)log2(p(x,y)/p(x)p(y) 这里说的是两个离散集的平均互信息 互信息衡量已知Y的分布时,对X的预测有 多大的帮助,或者说Y的知识降低了H(X) 或者说p(x,y)和p(x)p(y)之间的距离互信息的性质 I(X,Y)=H

13、(X)-H(X|Y) =H(Y)-H(Y|X) I(X,Y)=H(X)+H(Y)-H(X,Y) 因为:H(X,Y)=H(X|Y)+H(Y) I(X,X)=H(X)(因为H(X,X)=0) I(X,Y)=I(Y,X) I(X,Y)0交叉熵 Cross-Entropy 典型情况: 我们得到一个观察序列 T=t1,t2,tn, ti 估计: y : p(y)=c(y)/|T|, 定义:c(y)=|tT, t=y| 但是,真实的q不知道,再大的数据也不够 问题:用p对q进行估计是否准确? 方法:用一个不同的观察序列T估计实际 的q交叉熵 Hp(p)=H(p)+D(p|p) Hp(p)=-xp(x)lo

14、g2p(x) p当然也不是真实的分布,但是我们视 为真实世界的分布,以便测试p 交叉混乱度:Gp(p)=2Hp(p)条件交叉熵 实践中计算的往往是条件交叉熵 两个样本空间 样本空间:,随机变量Y,yY 上下文样本空间:,随机变量X,xX 实验得到的分布p(y|x), “真实”分布 p(y|x) Hp(p)=-y, x p(y,x)log2p(y|x) 条件交叉熵中的权值是p(y,x),不是p(y|x) 在实际应用中,在全部两个样本空间上 做累加通常不是很方便,因此常常简化 使用如下公式: Hp(p)=-y, x p(y,x)log2p(y|x)=-1/|T|i=1|T|log2p(yi|xi) 事实上,就是在T上进行累加,然后归一 化= -1/|T|log2 i=1|T|p(yi|xi)举例 =a,b,z,概率分布(估计值) p(a)=0.25, p(b)=0.5, p()=1/64, c,r, p()=0, s,z 测试数据为:barb,p(a)=p(r)=0.25, p(b)=0.5 在上做累加

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号