概率主题模型－金锄头文库

资源描述

《概率主题模型》由会员分享，可在线阅读，更多相关《概率主题模型（20页珍藏版）》请在金锄头文库上搜索。

1、概率主题模型 Probabilistic Topic Models靳婷目录引言lTF-IDF模型lLSI模型（Latent Semantic Index，潜在语义索引）概率主题模型简介一元混合模型（Mixture of unigrams）PLSI模型（Probabilistic Latent Semantic Index, 概率潜在语义索引）LDA模型（Latent Dirichlet Allocation）模型描述抽取算法TF-IDF模型主要思想：建立一个矩阵|V|*|D|, |V|词典中单词的个数，|D|语料库中文本的TF：对于每一个词，在所有文本中出现的次数IDF：包含这个词的文

2、本数的倒数贡献：不足：不对语义进行识别存储空间、计算量非常大长度不固定的文本长度固定的矩阵LSI模型（Latent Semantic Index，潜在语义索引）奇异值分解：对角矩阵行代表一个词，列代表一个文档概率主题模型主要思想文档是若干主题的混合分布每个主题又是一个关于单词的概率分布一元混合模型（Mixture of unigrams）一元模型：每个文本的词语都是独立地从一个多项式分布产生简单直观的词频概率模型，没有考虑文本的主题一元混合模型（Mixture of unigrams）首先选择一个主题z，然后根据条件多项式独立地生成该文本的N个词语，每个文本的概率为：这个

3、模型只允许一篇文本有一个主题p(z)是z的分布p(w|z)可看作一个k|V| 的矩阵一元混合模型（Mixture of unigrams）V = Film, Music, Tax, Million, Student, Teacher, School，T = Arts, Budgets, Education. k = 3p(w|z)是37矩阵，若p(w|z)的第1行表示主题Education ，这个主题的文本中Student, Teacher, School的词频会高些，该行的行向量所表示的分布 p(w|z)会在Student, Teacher, School附近出现峰值若第2行表示

4、主题Budgets，p(w|z)就会在 TAX,MILLION附近出现峰值在生成一篇文档前先随机选出p(w|z)的第z行（根据分布p(z) ）；再依次随机选出第z行的w1,w2, wN列（每次选取都根据分布p(w|z)）,这就生成了文本中的所有单词PLSI模型（Probabilistic Latent Semantic Index, 概率潜在语义索引）放弃了LSI所用的矩阵转换的方法，采用生成模型引入了“潜在主题”一个随机生成过程当中的潜在变量PLSI模型（续） PLSI 是一个k*|D|矩阵是先验概率：只建立在已见的训练集的基础上，训练集之外的未见文本，没有一个合适的先验概率训练样

5、本增加，矩阵的大小也线性增加，存在过度拟合问题离散，不同主题之间在概率上是相互独立的LDA模型（Latent Dirichlet Allocation）非监督机器学习识别隐含的主题信息Dirichlet概率分布，连续分布，可以给未知文本分配属于某个主题集的概率，产生一个主题的集合LDA模型（续）假设有个主题，所给文本中的第个词汇可以表示如下：，潜在变量，表明第个词汇记号取自该主题，词汇记号属于主题的概率，给出主题属于当前文本的概率LDA模型（续）表示对于主题，个词汇上的多项分布表示对于文本，个主题上的多项分布 LDA模型（续）文本上的主题分布主题主题

6、上的单词分布单词文本LDA模型（续）LDA概率主题模型生成文本的过程：根据泊松分布得到文本的单词数目根据Dirichlet分布得到该文本的一个主题分布概率向量对于该文本个单词中的每一个单词从的多项式分布随机选择一个主题从主题的多项式条件概率分布选择一个单词作为LDA模型（续）Choose parameter p(); For each of the N words w: Choose a topic z p(z|); Choose a word w p(w|z);其中是一个1k的随机行向量，p()是的分布，它的具体函数形式就是Dirichlet分布，这一分布保证的k个分量

7、_1,_2,_k都取连续的非负值，且_1 + _2 + + _k = 1z_n是离散随机变量，在主题T中取k个离散值，p(z|)是给定时z的条件分布，它的具体函数形式很简单，就是把直接拿来作为概率值p(z = i|) = _i,也就是说z取第 1,2,k个主题的概率分别是 _1,_2,_kw_n是离散随机变量,在词汇表V中取|V|个离散值，p(w|z)是给定 z_n时 w的条件分布，看作k|V|的矩阵LDA模型（续）-生成过程先随机生成一个1k的向量（根据Dirichlet分布p()）然后随机选取p(w|z)的第z_1行（根据分布p(z|)）接着随机选取z_1行的w_1列（根据分布p(w|z = z_1)）, 同样的方法依次选出z_2,w_2,z_N,w_NMixture of unigram, PLSI, LDAEM(Expectation Maximization)算法期望最大化算法，分为两步E-Step：estimate the expected valuesM-Step：re-estimate parameters迭代使用EM步骤，直至收敛。EM(Expectation Maximization)算法E-Step：对每一篇文档，计算参数， M-Step：最大化，求出此时的

展开阅读全文