用于ir的统计语言模型

上传人:j****9 文档编号:54588434 上传时间:2018-09-15 格式:PPT 页数:47 大小:1.85MB
返回 下载 相关 举报
用于ir的统计语言模型_第1页
第1页 / 共47页
用于ir的统计语言模型_第2页
第2页 / 共47页
用于ir的统计语言模型_第3页
第3页 / 共47页
用于ir的统计语言模型_第4页
第4页 / 共47页
用于ir的统计语言模型_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《用于ir的统计语言模型》由会员分享,可在线阅读,更多相关《用于ir的统计语言模型(47页珍藏版)》请在金锄头文库上搜索。

1、统计语言模型,什么是统计语言模型?,词序列的概率分布 p(“Today is Wednesday”) 0.001 p(“Today Wednesday is”) 0.0000000000001 p(“The eigenvalue is positive”) 0.00001 上下文/主题相关 可以被认为是一种“生成”文本的概率机制,因此也被称作“生成(generative)”模型,为什么统计语言模型有用?,提供了对自然语言的不确定性进行定量分析的方法 允许我们回答这样的问题: Given that we see “John” and “feels”, how likely will we see

2、 “happy” as opposed to “habit” as the next word? (speech recognition) Given that we observe “baseball” three times and “game” once in a news article, how likely is it about “sports”? (text categorization, information retrieval) Given that a user is interested in sports news, how likely would the use

3、r use “baseball” in a query? (information retrieval),Source-Channel Framework (Model of Communication System Shannon 48 ),Source,Transmitter (encoder),Destination,Receiver (decoder),Noisy Channel,P(X),P(Y|X),X,Y,X,P(X|Y)=?,When X is text, p(X) is a language model,(Bayes Rule),Many Examples: Speech r

4、ecognition: X=Word sequence Y=Speech signalMachine translation: X=English sentence Y=Chinese sentenceOCR Error Correction: X=Correct word Y= Erroneous wordInformation Retrieval: X=Document Y=QuerySummarization: X=Summary Y=Document,4,最简单的语言模型(unigram model),又被称为bag-of-words model 每个单词是独立的 因此, p(w1 w

5、2 . wn)=p(w1)p(w2)p(wn) 参数: p(wi) p(w1)+p(wN)=1 (N is voc. size) 本质上是词的多项分布( multinomial distribution ) 一个文本可以看做是这个分布的一个实例,更先进的模型,N-gram 语言模型 一般意义上, p(w1 w2 . wn)=p(w1)p(w2|w1)p(wn|w1 wn-1) n-gram: 每个词出现的概率只与它之前的n-1个单词有关 例如, bigram: p(w1 . wn)=p(w1)p(w2|w1) p(w3|w2) p(wn|wn-1) Maximum Entropy model,

6、为什么我们只使用Uni-gram model,很难使用更复杂的模型 它们有更多的参数,因此需要更多的数据来估计(一个文本是很小的样本) 它们在时间和空间上都增加了大量的计算复杂性 对于信息检索而言,词序不能提供很有用的信息 但是,使用更先进的模型可能会提高性能,Query Likelihood Ranking,Document,Text mining paper,Food nutrition paper,Query = “data mining algorithms”,QLR的基本思路,给定一个查询序列Q,我们想知道 根据Bayes rule,我们有 我们可以假设P(D)对所有的文档都一样我们

7、可以简单地用词频来估计以上概率,Smoothing,如果某个查询词在文档中没有出现,最后总的概率将为0,这显然是不合适的 应该给一个未出现的单词什么概率呢? 如果我们希望给未出现的单词一个非0的概率,我们就应该将已出现单词的概率降低,Language Model Smoothing (Illustration),P(w),Word w,Max. Likelihood Estimate,11,Jelinek-Mercer Smoothing,我们可以用单词在整个文档集C中出现的概率来估计未出现单词的概率,并可以用一个系数 来控制这个概率。 文档中出现的单词的概率是最简单的方法是把系数设为一个常数

8、 ,单词在整个文档中出现的概率可以用 来估计,Dirichlet Smoothing,可以将 设为与 成反比,因此,,什么是主题?从词汇的角度讲是一篇文章或者几篇文章的共同隐含语义共同出现词语的一种模式共同出现词语的一种聚类一种弱的分类类表,主题模型(topic model),从概率分布的角度讲每个主题都是对所有词的一个概率分布主题对同时出现的词赋予较高的概率同时出现的词互相之间有某种关联性,主题模型(topic model),从机器学习的角度来讲,主题模型是将层次贝叶斯网络应用到数据(文档或者图像)的典型应用 每篇文档包含多个主题 隐含变量起到表示文档间主题结构的作用 主题模型基于bag-o

9、f-word或者bag-of-feature假设所以,词的顺序是没有意义的,主题模型(topic model),主题模型的例子,每个文档都是所有主题的一个随机混合,每个词都是从一个主题中产生的。现实中观测的数据仅仅是文档,目的是推断潜在的主题结构。,Why Latent?,主题模型:前人工作,tf-idf、 unigram,tf-idf 和unigram model 统计词频 无法捕捉到文档内部和文档间的统计特征,Mixture of unigrams,Mixture of unigrams 每个文档的生成是首先选择一个主题Z,通过P(W|Z)独立生成N个单词,每篇文档只有一个主题,受限。,主

10、题模型:前人工作,tf-idf、 unigram,Mixture of unigrams,主题模型:前人工作,tf-idf、 unigram,LSI: Latent Semantic Indexing 在词与文档(term-by-document)矩阵上使用SVD tf-idf 的线性组合,能捕捉到一些语法特征,LSI 1990,pLSI 1999,pLSI (aka Aspect Model 内容模型) 参数随着语料库的容量增长,容易过拟合 在文档层面没有一个统计模型,无法对文档指定概率,主题模型:前人工作,tf-idf、 unigram,Mixture of unigrams,LSI 19

11、90,LDA 2003,pLSI 1999,LDA bag-of-word假设 同时考虑词和文档交换性的混合模型,主题模型:前人工作,tf-idf、 unigram,Mixture of unigrams,LSI 1990,Graphical Model,结点代表变量,边代表可能的依赖关系 隐含结点为空心,观测结点为实心 盒子表示重复结构,LDA,LDA,对于语料库 中的每个文档 ,LDA是如下的变参数层次贝叶斯网络: 选择单词的个数 选择文档中话题比率 对于每个单词 选择话题 从分布 中选择单词,LDA,在已知超参数 和 的情况下,主题和词的联合概率为,对 和 求积分,可以得到文档的边际概率

12、,进而,对所有的边际概率求积,可得语料库的概率,LDA,在已知超参数 和 的情况下,主题和词的联合概率为,对 和 求积分,可以得到文档的边际概率,进而,对所有的边际概率求积,可得语料库的概率,The “Actual” LDA过程,LDA : Five topics from a 50-topic LDA model fit to Science from 1980 2002,1、将语料库中的每个文档表示成词汇计数 的向量模型 2、建立LDA模型 3、通过逼近方法计算这个模型 4、评价模型 5、模型应用,LDA : Topic,LDA : Five topics from a 50-topic

13、LDA model fit to Science from 1980 2002,Five topics from a 50-topic LDA model fit to Science from 1980 2002,Why?,LDA : Five topics from a 50-topic LDA model fit to Science from 1980 2002,为什么LDA的后验分布可以将属于一个主题的词放在一起了?LDA中,作为先验分布的Dirichlet在一定程度上鼓励话题的“稀疏性”多数文章中,每篇文章的确仅有几个主题由于主题数目词汇数目,所以词汇会产生类似聚类的“共同出现”效

14、应贝叶斯网络模型的条件独立性,如何得到LDA中的参数 - 推断,文档中主题的概率,每个词的主题指定概率,LDA模型中最重要的计算任务是计算隐含变量的后验概率,变分法,抽样法,Variational Inference,Gibbs Sampling,Inference - get important parameters in LDA,Mean field,基本思想 用一个简单可分解的分布 逼近 求KL散度最小的逼近 为何得名? 概率可完全分解,Mean field variational inference,简化模型,Mean field variational inference,LDA中的

15、变分推断,Variational inference in LDA Overview,目标:求出,无法直接计算,LDA中的变分推断,Variational Inference : Beautiful math,Jensen不等式,LDA中的变分推断,Variational Inference : Beautiful math,记,则,因为 都是可分解的,所以有,LDA中的变分推断,Variational Inference : Beautiful math,LDA中的变分推断,Variational Inference : Beautiful math,应用拉格朗日法,得到,总结:LDA中的变分推断,Variational Inference : Review,目标:求出,主题模型的后续改进以及演化,Evolution of Topic Models,LDA可以嵌入到其他复杂的模型中,反应数据间的结构可以根据来源不同,产生数据的概率分布也不同根据应用的不同,后验分布可以应用于各种场合主题的演化与跟踪(Dynamic TM,Temporal TM)相关主题间的发现(Correlated TM)将TM应用于信息检索、分类、推荐等,Topics over time,Topics over time,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号