概率主题模型

上传人:ji****72 文档编号:50813029 上传时间:2018-08-11 格式:PPT 页数:20 大小:869.50KB
返回 下载 相关 举报
概率主题模型_第1页
第1页 / 共20页
概率主题模型_第2页
第2页 / 共20页
概率主题模型_第3页
第3页 / 共20页
概率主题模型_第4页
第4页 / 共20页
概率主题模型_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《概率主题模型》由会员分享,可在线阅读,更多相关《概率主题模型(20页珍藏版)》请在金锄头文库上搜索。

1、概率主题模型 Probabilistic Topic Models靳 婷目 录引言lTF-IDF模型lLSI模型(Latent Semantic Index,潜在语义索引)概率主题模型简介一元混合模型(Mixture of unigrams)PLSI模型(Probabilistic Latent Semantic Index, 概率 潜在语义索引)LDA模型(Latent Dirichlet Allocation)模型描述抽取算法TF-IDF模型主要思想:建立一个矩阵|V|*|D|, |V|词典中单词的个数,|D|语料 库中文本的TF:对于每一个词,在所有文本中出现的次数IDF:包含这个词的文

2、本数的倒数贡献:不足: 不对语义进行识别存储空间、计算量非常大长度不固 定的文本长度固定 的矩阵LSI模型(Latent Semantic Index,潜在语义索引 )奇异值分解:对角矩阵 行代表一个词, 列代表一个文档概率主题模型主要思想文档是若干主题的混合分布每个主题又是一个关于单词的概率分布一元混合模型(Mixture of unigrams)一元模型:每个文本的词语都是独立地从一个多项式 分布产生简单直观的词频 概率模型,没有 考虑文本的主题一元混合模型(Mixture of unigrams)首先选择一个主题z,然后根据条件多项式 独 立地生成该文本的N个词语,每个文本的概率为:这个

3、模型只允 许一篇文本有 一个主题p(z)是z的 分布p(w|z)可看作 一个k|V| 的矩阵一元混合模型(Mixture of unigrams)V = Film, Music, Tax, Million, Student, Teacher, School,T = Arts, Budgets, Education. k = 3p(w|z)是37矩阵,若p(w|z)的第1行表示主题Education , 这个主题的文本中Student, Teacher, School的词频会高 些,该行的行向量所表示的分布 p(w|z)会在Student, Teacher, School附近出现峰值若第2行表示

4、主题Budgets,p(w|z)就会在 TAX,MILLION附近出现峰值在生成一篇文档前先随机选出p(w|z)的第z行(根据分布p(z) );再依次随机选出第z行的w1,w2, wN列(每次选取都 根据分布p(w|z)),这就生成了文本中的所有单词PLSI模型(Probabilistic Latent Semantic Index, 概 率潜在语义索引)放弃了LSI所用的矩阵转换的方法,采用生成模型引入了“潜在主题”一个随机生成过程当中的潜在 变量PLSI模型(续) PLSI 是一个k*|D|矩阵 是先验概率:只建立在已见的训练集的基础上 ,训练集之外的未见文本,没有一个合适的先验概率训练样

5、本增加,矩阵的大小也线性增加,存在过度拟 合问题离散,不同主题之间在概率上是相互独立的LDA模型(Latent Dirichlet Allocation)非监督机器学习识别隐含的主题信息Dirichlet概率分布,连续分布,可以给未知文本分配 属于某个主题集的概率,产生一个主题的集合LDA模型(续)假设有 个主题,所给文本中的第 个词汇 可以表 示如下: ,潜在变量,表明第 个词汇记号 取自该主题 ,词汇 记号属于主题 的概率 ,给出主题 属于当前文本的概率LDA模型(续) 表示对于主题 , 个词汇上的多项分布 表示对于文本 , 个主题上的多项分布 LDA模型(续)文本上的 主题分布主 题主题

6、上的单 词分布单 词文 本LDA模型(续)LDA概率主题模型生成文本的过程:根据泊松分布 得到文本的单词数目根据Dirichlet分布 得到该文本的一个主题分布概率 向量对于该文本 个单词中的每一个单词从 的多项式分布随机选择一个主题从主题 的多项式条件概率分布选择一个单词作为LDA模型(续)Choose parameter p(); For each of the N words w: Choose a topic z p(z|); Choose a word w p(w|z);其中是一个1k的随机行向量,p()是的分布,它的具体函数形 式就是Dirichlet分布,这一分布保证的k个分量

7、_1,_2,_k都取 连续的非负值,且_1 + _2 + + _k = 1z_n是离散随机变量,在主题T中取k个离散值,p(z|)是给定时z的 条件分布,它的具体函数形式很简单,就是把直接拿来作为概率 值p(z = i|) = _i,也就是说z取第 1,2,k个主题的概率分别是 _1,_2,_kw_n是离散随机变量,在词汇表V中取|V|个离散值,p(w|z)是给定 z_n时 w的条件分布,看作k|V|的矩阵LDA模型(续)-生成过程先随机生成一个1k的向量(根据Dirichlet分布p())然后随机选取p(w|z)的第z_1行(根据分布p(z|))接着随机选取z_1行的w_1列(根据分布p(w|z = z_1)), 同样的方法依次选出z_2,w_2,z_N,w_NMixture of unigram, PLSI, LDAEM(Expectation Maximization)算法期望最大化算法,分为两步E-Step:estimate the expected valuesM-Step:re-estimate parameters迭代使用EM步骤,直至收敛。EM(Expectation Maximization)算法E-Step:对每一篇文档,计算参数 , M-Step:最大化,求出此时的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号