lda工作原理－金锄头文库

资源描述

《lda工作原理》由会员分享，可在线阅读，更多相关《lda工作原理（24页珍藏版）》请在金锄头文库上搜索。

1、LDA工作原理,1.与LDA有关的分布2.LDA的产生过程3.LDA的工作原理4.期望最大化与参数估计,1.与LDA有关的分布,贝努利分布Bern(x|u)=ux(1-u)1-x贝塔分布概率密度函数满足以下条件的为贝塔分布。,1.与LDA有关的分布,多项式分布狄利克雷分布以上四种分布的详细推导过程在doc文档中。,2.LDA的产生过程,Unigram模型每篇文档都是独立的多项式分布存储空间很大，D（文档数）N（词项数）隐形语义检索增加主题变量，维度降低文档选择一个主题，与现实不符,2.LDA的产生过程,概率隐形语义检索增加概率，使一篇文档产生多个主题训练参数扩展性差，随文档数线性

2、增长对包含词项不在训练集中的新文档准确率很低,2.LDA的产生过程,LDA的产生引入Dirichlet分布，主题概率分布随机产生，主题词项分布随机产生，解决了以上问题 Simplex图：4个主题3个词项,3.LDA工作原理,参数的意义为主题概率的概率分布，Dirichlet参数 d为文档d下的主题概率分布 Zd,n为第n个词项文档d产生的主题 Wd,n为主题产生的词项，实际变量为主题词项概率分布，为使满足Dirichlet分布的参数,3.LDA工作原理,参数的意义为K维向量， p(|)表示选择某个文档概率分布的概率为KV矩阵，i,j=p(wj=1|zi=1),3.LDA工作原理,LD

3、A的连续性给定和，词项分布w依赖(3.1)，概率随机化给定和下,Z,W的联合概率(3.2)给定和，W的概率分布(3.3)联合(3.1)和(3.3),3.LDA工作原理,LDA的连续性联合(3.1)和(3.3)，可得单篇文档的概率分布假设语料库中每篇文档相互独立可交换,3.LDA工作原理,充分统计 LDA是基于贝叶斯充分统计的工作原理 LDA中多项式分布和Dirichlet分布属于指数家族指数家族的贝叶斯统分统计g()是确保分布密度函数积分为1的因数(3.5)式两边同时对求导,令p(x|)=0,3.LDA工作原理,充分统计结合(3.6)式，整理得考虑训练多个x样本，X=x1,x2xn(3

4、.10)式两边对求导，p(X|)=0，极大似然ML仅依赖于充分统计的数(x) ，N趋于无穷大比较(3.12)和(3.9)，并结合(3.11)，可得ML=(真实的参数变量),3.LDA工作原理,工作流程对主题采样：kDir() k1,K 对语料库中的第d个文档 d1,D 采样主题概率分布dDir() 采样文档长度Nd 对文档d中的第n个单词 n1,Nd 选择隐含主题zd,nMult(d) 生成一个词项wd,nMult(zd,n) 步骤训练，进行参数估计测试，计算隐藏变量后验概率分布,4.期望最大化与参数估计,期望最大化 EM描述如下已知一个概率模型，包括：隐变量集Z; 观测集X; 参数

7、分推理对,和,进行展开，是的一阶导数 E(log(i|)=(i)-(jj),4.期望最大化与参数估计,变分推理多项式分布的计算满足约束ni=1，引入拉格朗日常数，(3.16)对相关上式iv表示p(wnv=1|zi=1), 对求导令导数为0，多项式参数ni的极大值,4.期望最大化与参数估计,变分推理 Dirichlet分布参数的计算无约束， (3.16)对相关上式对求导令导数为0， i的极大值(3.17)和(3.18)得L最大化时和，使p(w|,)最大化和确定q(,z|,)，作为p(,z|w,)近似值,4.期望最大化与参数估计,参数估计 EM的使用 E步骤：变分推理确定和，近似p(,

8、z|w,) M步骤：根据和极大化E中p(W|,)边界多项式参数的计算满足约束jij=1，引入，(3.16)式对相关上式对求导，令导数为0，得极大值,4.期望最大化与参数估计,参数估计 EM的使用 E步骤：变分推理确定和，近似p(,z|w,) M步骤：根据和极大化E中p(W|,)边界 Dirichlet参数的计算无约束， (3.16)式对相关上式对求导i不等于j，令导数为0，迭代求最大,4.期望最大化与参数估计,平滑为词项的多项式分布，不在训练集中的词项，多项式参数会将其概率设置为0 准确率变低，不能有效处理包含这种词项的文档引入Dirichlet分布参数，是为随机矩阵随机化参数和，解决了LSI和pLSI的问题,

展开阅读全文