统计自然语言处理基本概念

资源描述

《统计自然语言处理基本概念》由会员分享，可在线阅读，更多相关《统计自然语言处理基本概念（73页珍藏版）》请在金锄头文库上搜索。

1、统计自然语言处理基本概念模型真实世界中的系统模型1InputOutput模型2Output1Output2如果Output1总是和Ouput接近，Output2总是和Output偏离，我们就认为模型1比模型2好真实系统模型1模型2InputOutput 模型由体系结构和参数两部分构成举例：住宅楼多层板楼高层板楼高层塔楼参数层数：户型：三室一厅，两室一厅，举架高度：供热方式：地热？暖气片？目录样本空间(Sample Space) 估计器(Estimator)和随机过程(Stochastic Process) 信息论(Information Theory) 数据集分类(Da

2、ta Set Classification) 性能评价(Performance Measure)样本空间 (Sample Space)试验(Experiment) 试验一个可观察结果的人工或自然的过程，其产生的结果可能不止一个，且不能事先确定会产生什么结果例如连掷两次硬币样本空间是一个试验的全部可能出现的结果的集合举例连掷两次硬币 =HH, HT, TH, TT, H:面朝上; T:面朝下事件(Event) 事件一个试验的一些可能结果的集合，是样本空间的一个子集举例：连掷两次硬币 A: 至少一次面朝上 B: 第二次面朝下 A=HT, TH, HH, B=HT, TT事件

3、的概率事件的概率重复m试验，如果事件A出现的次数为n，则事件A 的概率为P(A)=n/m，这称为概率的频率解释，或称统计解释频率的稳定性又称为经验大数定理举例：连掷两次硬币 A: 至少一次面朝上 B: 第二次面朝下 P(A)=3/4, P(B)=1/2 当试验不能重复时，概率失去其频率解释的含义，此时概率还有其他解释：贝叶斯学派和信念学派一个人出生时的体重，一个人只能出生一次举例举例：连续三次掷硬币样本空间 =HHH,HHT,HTH,HTT,THH,THT,TTH,TTT 事件A：恰好两次面朝下 A=HTT,THT,TTH 做1000次试验，计数得386次为两次面朝下估计

4、：P(A)=386/1000=0.386 继续做7组试验，得：373，399，382，355，372 ，406，359，共8组试验计算平均值：P(A)=(0.386+0.373+)/8=0.379，或累计：P(A)=(386+373+)/8000=3032/8000=0.379 统一的分布假设为：3/8=0.375概率空间概率空间的三个公理 P(A)0 P()=1 P(AB)=P(A)+P(B) if AB= 这三条公理也是概率的原始定义推论： P()=0; A BP(A)0正相关，0：x和y关联强度大 I(x,y)=0：x和y无关 I(x,y)0：x和y具有互补的分布熵(Entrop

5、y) 熵(Entropy) Chaos（混沌），无序物理学：除非施加能量，否则熵不会降低举例：把房间弄乱很容易，整理干净不容易是不确定性(Uncertainty)的衡量不确定性越高，熵越高，我们从一次实验中得到的信息量越大熵的公式熵H(X)=-xp(x)logxp(x) 假设PX(x)是随机变量X的分布基本输出字母表是单位：bits 熵是X的平均信息量，是自信息量的期望 E(X)=x p(x) x I(X)=-logp(x)，取2为底，I(X)=-log2p(x) E(I(X)=E(-log2p(x)= x p(x)(-log2p(x) = H(X) H(X)=H(p)=Hp(

6、X)=HX(p)=H(pX)熵的例子掷均匀硬币，=H,T p(H)=.5, p(T)=.5 H(p)=-0.5log20.5+(-0.5log20.5)=1 32面的均匀骰子，掷骰子 H(p)=-32(1/32)log2(1/32)=5 事实上，21=2, 25=32(perplexity) 掷不均匀硬币 p(H)=0.2, p(T)=0.8, H(p)=0.722 p(H)=0.01, p(T)=0.99, H(p)=0.081好书店，差书店什么时候H(p)=0? 试验结果事先已经知道即：x, p(x)=1; y, p(y)=0 if yx 熵有没有上限？没有一般的上限对于|=n，

7、H(p)log2n 均衡分布的熵是最大的等概率分布 2个输出的等概率分布，H(p)=1bit 32个输出的等概率分布，H(p)=5bits 43亿输出的等概率分布，H(p)=32bits 非等概率分布 32个输出，2个0.5，其余为0，H(p)=1bit 怎样比较具有不同数量输出的“熵”混乱度Perplexity 混乱度 G(p)=2H(p) 平均每次试验有多少种可能的结果在NLP中，如果词表中的词具有统一的分布概率，则最难预测，熵最大，混乱度最高反之，分布越不均衡，熵越小，混乱度越小联合熵和条件熵两个随机变量：X(空间是)，Y() 联合熵(Joint Entropy) (X,Y

9、H(Y|X)H(Y)，条件熵比熵小熵的编码意义如果一个符号序列是满足概率分布p的随机过程产生的，那么对这个序列进行编码至少需要的bit数是H(p) 压缩问题如果数据中有很多重复的模式，则易于压缩，因为熵小否则，熵大，不容易压缩编码实例怎样给ISO Latin 1编码？通常用8位经验表明：有的字符经常出现，有的字符很少出现我们可以给经常出现的字用较少的bit来表示，给很少出现的字符用较多的bit来表示假设：p(a)=0.3, p(b)=0.3, p(c)=0.3, 其余p(x)=0.0004 编码：a:00, b:01, c:10, 其余：11b1b2b8 对于符号串：

10、acbbcbaac，编码为： a c b b c b a a c 0010010111000011111001000010 如果每个符号用8位编码，需要80位，现在需要28位语言的熵 p(cn+1|c1cn) ci是语言中的一个字符 c1cn是历史h 举例：汉语，n=3 p(赵|围魏救)：高 p(去|我曾经)：低计算语言的条件熵 -hH cp(c,h)log2p(c|h)各种语言的熵按字母计算的零阶熵法文：3.98 bits意大利文：4.00 bits 西班牙文：4.01 bits英文：4.03 bits 德文：4.10 bits俄问：4.35 bits 中文（按汉字计算）：9.65 b

11、its 中文（按笔画计算）：3.43 bits 按词汇计算的零阶熵英语：10.0 bits汉语：11.46 bits 说明汉语的词汇丰富语言的冗余度英语：73%；俄语：70%；汉语：63%；古文更低Kullback-Leibler距离假设通过一组试验估计得到的概率分布为p，样本空间，随机变量X 真实的分布为q，相同的和X 现在的问题是：p和q相比，误差多大？ Kullback-Leibler距离给出的答案是： D(q|p)=xq(x)log2q(x)/p(x)=Eplog(q(x)/p(x)KL距离（相对熵）习惯上 0log0=0 plog(p/0)= Distance or D

12、ivergence（分歧）不对称D(q|p)D(p|q) 也不满足三角不等式事实上，D(q|p)不是距离，而是分歧 H(q)+D(q|p)：根据q分布，对p进行编码需要的bit数（交叉熵）平均互信息随机变量：X;Y;pXY(X,Y);pX(x);pY(y) 两个离散集之间的平均互信息 I(X,Y)=D(p(x,y)|p(x)p(y)= x y p(x,y)log2(p(x,y)/p(x)p(y) 这里说的是两个离散集的平均互信息互信息衡量已知Y的分布时，对X的预测有多大的帮助，或者说Y的知识降低了H(X) 或者说p(x,y)和p(x)p(y)之间的距离互信息的性质 I(X,Y)=H

14、g2p(x) p当然也不是真实的分布，但是我们视为真实世界的分布，以便测试p 交叉混乱度：Gp(p)=2Hp(p)条件交叉熵实践中计算的往往是条件交叉熵两个样本空间样本空间：，随机变量Y，yY 上下文样本空间：，随机变量X，xX 实验得到的分布p(y|x)， “真实”分布 p(y|x) Hp(p)=-y, x p(y,x)log2p(y|x) 条件交叉熵中的权值是p(y,x)，不是p(y|x) 在实际应用中，在全部两个样本空间上做累加通常不是很方便，因此常常简化使用如下公式： Hp(p)=-y, x p(y,x)log2p(y|x)=-1/|T|i=1|T|log2p(yi|xi) 事实上，就是在T上进行累加，然后归一化= -1/|T|log2 i=1|T|p(yi|xi)举例 =a,b,z，概率分布（估计值） p(a)=0.25, p(b)=0.5, p()=1/64, c,r, p()=0, s,z 测试数据为：barb，p(a)=p(r)=0.25, p(b)=0.5 在上做累加

展开阅读全文

统计自然语言处理基本概念

最新文档