lda工作原理

上传人:xzh****18 文档编号:56617947 上传时间:2018-10-14 格式:PPT 页数:24 大小:983KB
返回 下载 相关 举报
lda工作原理_第1页
第1页 / 共24页
lda工作原理_第2页
第2页 / 共24页
lda工作原理_第3页
第3页 / 共24页
lda工作原理_第4页
第4页 / 共24页
lda工作原理_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《lda工作原理》由会员分享,可在线阅读,更多相关《lda工作原理(24页珍藏版)》请在金锄头文库上搜索。

1、LDA工作原理,1.与LDA有关的分布2.LDA的产生过程3.LDA的工作原理4.期望最大化与参数估计,1.与LDA有关的分布,贝努利分布Bern(x|u)=ux(1-u)1-x贝塔分布概率密度函数满足以下条件的 为贝塔分布。,1.与LDA有关的分布,多项式分布狄利克雷分布以上四种分布的详细推导过程在doc文档中。,2.LDA的产生过程,Unigram模型 每篇文档都是独立的多项式分布 存储空间很大,D(文档数)N(词项数)隐形语义检索 增加主题变量,维度降低 文档选择一个主题,与现实不符,2.LDA的产生过程,概率隐形语义检索 增加概率,使一篇文档产生多个主题 训练参数扩展性差,随文档数线性

2、增长 对包含词项不在训练集中的新文档准确率很低,2.LDA的产生过程,LDA的产生 引入Dirichlet分布,主题概率分布随机产生,主题词项分布随机产生,解决了以上问题 Simplex图:4个主题3个词项,3.LDA工作原理,参数的意义为主题概率的概率分布,Dirichlet参数 d为文档d下的主题概率分布 Zd,n为第n个词项文档d产生的主题 Wd,n为主题产生的词项,实际变量 为主题词项概率分布,为使 满足Dirichlet分布的参数,3.LDA工作原理,参数的意义 为K维向量, p(|)表示选择某个文档概率分布的概率为KV矩阵,i,j=p(wj=1|zi=1),3.LDA工作原理,LD

3、A的连续性 给定和,词项分布w依赖(3.1),概率随机化给定和下,Z,W的联合概率(3.2)给定和,W的概率分布(3.3)联合(3.1)和(3.3),3.LDA工作原理,LDA的连续性 联合(3.1)和(3.3),可得单篇文档的概率分布假设语料库中每篇文档相互独立可交换,3.LDA工作原理,充分统计 LDA是基于贝叶斯充分统计的工作原理 LDA中多项式分布和Dirichlet分布属于指数家族 指数家族的贝叶斯统分统计g()是确保分布密度函数积分为1的因数(3.5)式两边同时对求导,令p(x|)=0,3.LDA工作原理,充分统计 结合(3.6)式,整理得考虑训练多个x样本,X=x1,x2xn(3

4、.10)式两边对求导,p(X|)=0,极大似然ML仅依赖于充分统计的数(x) ,N趋于无穷大比较(3.12)和(3.9),并结合(3.11),可得ML=(真实的参数变量),3.LDA工作原理,工作流程 对主题采样:kDir() k1,K 对语料库中的第d个文档 d1,D 采样主题概率分布dDir() 采样文档长度Nd 对文档d中的第n个单词 n1,Nd 选择隐含主题zd,nMult(d) 生成一个词项wd,nMult(zd,n) 步骤 训练,进行参数估计 测试,计算隐藏变量后验概率分布,4.期望最大化与参数估计,期望最大化 EM描述如下 已知一个概率模型,包括: 隐变量集Z; 观测集X; 参数

5、集S. 目标:得到p(X|S)最大化的S. EM算法如下(初始化S) E步骤:以当前的Sold估计p(Z|X,S); M步骤:利用前一步的结果,对S最大化如下式子:p(Z|X,Sold)lnp(Z,X|S),4.期望最大化与参数估计,期望最大化 EM描述如下 已知一个概率模型,包括: 隐变量集Z; 观测集X; 参数集S. 目标:得到p(X|S)最大化的S. EM算法如下(初始化S) E步骤:以当前的Sold估计p(Z|X,S); M步骤:利用前一步的结果,对S最大化如下式子:p(Z|X,Sold)lnp(Z,X|S),4.期望最大化与参数估计,变分推理 根据(3.4)式可知由于和存在耦合, (

6、3.13)的计算困难 解决办法是近似求解,采用变分推理 去掉与Z、Z与W之间的边,以及W节点,4.期望最大化与参数估计,变分推理 p(,z|w,)可近似为q(,z|,),为狄利克雷参数,为多项式参数,变分推理求解信息增益最小时, 结合EM算法,需要估计q(,z|,),最大化q(,z|,)*logp(,z,w|,),得到使p(w|,)最大化的,,具体如下,4.期望最大化与参数估计,变分推理 Jensen不等式确定边界,进行近似求解L(,;,)表示边界值,D(q(,z|,)|p(,z,w|,)表示两者的信息增益:log(w|,)=L+D 边界越大,信息增益越小,越真实,4.期望最大化与参数估计,变

7、分推理 对,和,进行展开,是的一阶导数 E(log(i|)=(i)-(jj),4.期望最大化与参数估计,变分推理 多项式分布的计算 满足约束ni=1,引入拉格朗日常数,(3.16)对相关上式iv表示p(wnv=1|zi=1), 对求导令导数为0,多项式参数ni的极大值,4.期望最大化与参数估计,变分推理 Dirichlet分布参数的计算 无约束, (3.16)对相关上式对求导令导数为0, i的极大值(3.17)和(3.18)得L最大化时和,使p(w|,)最大化 和确定q(,z|,),作为p(,z|w,)近似值,4.期望最大化与参数估计,参数估计 EM的使用 E步骤: 变分推理确定和,近似p(,

8、z|w,) M步骤:根据 和极大化E中p(W|,)边界 多项式参数的计算 满足约束jij=1,引入,(3.16)式对相关上式对求导,令导数为0,得极大值,4.期望最大化与参数估计,参数估计 EM的使用 E步骤: 变分推理确定和,近似p(,z|w,) M步骤:根据 和极大化E中p(W|,)边界 Dirichlet参数的计算 无约束, (3.16)式对相关上式对求导i不等于j,令导数为0,迭代求最大,4.期望最大化与参数估计,平滑 为词项的多项式分布,不在训练集中的词项,多项式参数会将其概率设置为0 准确率变低,不能有效处理包含这种词项的文档 引入Dirichlet分布参数,是为随机矩阵 随机化参数和,解决了LSI和pLSI的问题,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 计算机原理

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号