文档网络中的关联主题模型

资源描述

《文档网络中的关联主题模型》由会员分享，可在线阅读，更多相关《文档网络中的关联主题模型（17页珍藏版）》请在金锄头文库上搜索。

1、文档网络中的关联主题模型文档网络中的关联主题模型Jonathan Chang 普林斯顿大学计算机科学系Princeton UniversityPrinceton, NJ 08544jconeprinceton.eduDavid M. Blei 普林斯顿大学计算机科学系35 Olden St.Princeton, NJ 08544bleics.princeton.edu出现在第12届国际会议人工情报和的统计（AISTATS）2009年，克利尔沃特海滩，佛罗里达州，美国。第5卷JMLR：WCP 5。版权 2009年的作者。摘要摘要我们开发了一个关联主题模型（RTM），模型建立在文档和它的链接

2、之间。对于每个文档，RTM 模型它们作为一个二元随机变量，链接基于它们的内容。该模型可以被用来总结文档的网络，预测它们之间的联系，和预测它们中的词语。我们得到有效的推理和基于变分法的学习算法和评价预测 RTM 的性能对大型网络的科学文摘和 WEB 文档。1 引言引言网络数据，如文档的引用网络，网页的链接网络，朋友的社交网络，在现在机器学习应用中变得越来越普遍。分析网络数据提供了有用的预测模型，对新朋友指出社会网络成员，科学文档相关的参考文献，以及对网页对其它相关联的网页。近年来在该领域的研究主要集中潜变量链接结构模型，模型分解网络根据它的节点间的连接的隐藏模式（Kemp 等人，

3、2004；Hoff 等人， 2002；Hofman and Wiggins 2007；Airoldi 等人，2008）。虽然强大，但是这些模型只统计了网络的结构，忽略了节点观察到的属性。例如，一个网络模型可以寻找占科学文档之间的引用链接的模式，但它不能同时考虑文本。这种类型的信息有关的节点，以及它们之间的联系，应该用于发现，理解和利用的潜结构中的数据。为此，我们开发了一个统计如引用的链接和如文本的属性两者间新的网络数据模型。统计两个来源的数据模式得到一个比那些只考虑链接更强大的模型。一个新的节点和它们间的联系，网络结构的传统模型可以提供一种预测其它节点可能被连接的分布。我们

4、的模型不需要遵守任何链接的一个新的节点，它可以预测仅使用其属性的链接。因此，我们可以建议新写论文的引用情况，动态的预测可能出现的超链接的网页，或暗示一个社交网络的友谊仅仅基于一个新的用户的个人资料的兴趣。此外，由于一个新的节点和链接，模型提供了一个预测分布节点的属性。这种互补的预测机制可以用来预测关键字引用或一个用户的兴趣从他或她的社会关系。这些类型的预测是传统网络模式遥不可及的。我们的模型是关系主题模型（RTM）的分层模型的链路和节点属性。针对网络上的文本数据，在 RTM 明确联系的文件的内容，与它们之间的连接。首先，我们描述统计假设背后的 RTM。然后，我们获得高效的算法近

5、似的后验推断，参数估计和预测。最后，我们研究科学引文网络的性能和超链接的网页。 RTM 提供了显著更好的单词预测和链路预测，比天然替代品，目前最先进的。2 关联主题关联主题关系的主题模型（RTM）是一个模型的数据组成的文件，它是单词的集合，它们之间的联系（见图 1）。它嵌入数据在一个潜在空间，这个空间说明单词、文档以及它们是如何连接的。图1：数据的适当关联主题模式。每个文档被表示为一个袋子的话，及链接到其它通过引用的文件。 RTM定义了一个联合分布的词语，在每个文档中引用它们之间的联系.RTM 是基于对潜在狄利克雷分配（LDA）（Blei 等人，2003）。 LDA 是一个生

6、成的概率模型使用一组“主题” ，分布在一个固定的词汇，来描述一个文档集。在其生成每个文档 TIVE 过程，被赋予与一类狄利克雷主题比例向量，和每个字的假定先绘制一个主题绘制的笔从这些比例分配，然后绘制从相应的主题分布的字。.在 RTM 中，每个文档首先是从 LDA 算法中产生的主题，文件之间的链接然后模拟成二元变量，每个变量对应一个文档。这些都是根据依赖于分布主题用于生成每个的构成文件。以这种方式，在统计学上的文件内容连接到它们之间的链接结构。.到 RTM 的参数是 K 分布的术语 1：K 的 K 维的 Dirichlet 参数，并提供二进制概率函数。（此功能在下面详细解释）

7、。RTM 假定一组观测到的文件 W1：D，1：N 和二进制之间的联系 Y1：D，1：D 都是按下面的方法产生的。1. 对于每个文档 d： (a) 写出主题比例 d | Dir(). (b) 对于每个单词 wd,n ：i. 写出分配 zd,n |d Mult(d ). ii. 写出单词 wd,n |zd,n , 1:K Mult(zd,n ). 2. 对于每个文档对 d, d ： (a) 写出二进制链接指示 y|zd , zd (|zd , zd ).图 2 示出了一个单一的一对文件建立模型的过程。完整的模型包含了从所有 D 文件和 D2链接变量为每个可能的它们之间的连接所观察到的单词

8、，这是很难说明的。图 2：两个文件段的 RTM。变量 y 表示这两个文件是否链接。完整的模型为每个文件对包含此变量。板块指示复制。这个模型捕获的文字和链接在图 1 中所示的数据结构。函数是定义链接概率函数，该函数一个分布在两个文件之间的联系。这个函数依赖主题分配产生它们的单词，Zd和Zd。我们将探讨两种可能性。首先，我们考虑：(1)( = 1)= ( )+ )其中，符号表示 Hadamard（元智）乘积，并且函数 =1 ,是 S 形的。此链接函数模型，每对二进制变量一个逻辑回归与隐藏协变量。它是参数化的系数与截距。协变量构造的 Hadamard 积 Zd和 Zd，它可以捕获隐藏这两

9、个文件主题表示形式之间的相似性。然后，我们考虑：. (2)( = 1)= ( )+ )这里，使用相同的协变量作为，但是有一个指数的是由函数代替的。当和趋近时，而不是渐行渐远。这个函数返回的概率继续呈指数级增长。对于某些代数运算，函数 e 可以被看作是由 Blei 和 Jordan（2003 年）提出的建模方法的近似变种。我们认为这两个函数，响应变量是潜在特征函数的期望值，和。这一提法，灵感来自有监督的 LDA 模型（Blei 和 McAuliffe 2007 年），确保相同的潜在主题分配用于生成的文件的内容还可以生成它们的链接结构。模型不执行该耦合，如 Nallapati 等（2

10、008 年），划分主题成两个独立的子集，一个用于链接和其它的词。这样的分解防止这些模型作出有意义的预测有关给出词链接和给出链接的词。在第四节我们展示了实证上在这些任务上 RTM 优于很多模型。3 推断，估计和预测推断，估计和预测定义了模型，我们转向近似后验推理，参数估计和预测。我们开发的变分推理过程来逼近的后路。我们使用这个程序在一个变期望最大化（EM）算法中做参数估计。最后，我们展示了如何一个模型的参数已估计可以作为预测模型使用的词和链接。推论推论在后验推断，我们试图计算条件的潜变量的后验分布的观测值。精确的后验推断是棘手的（Blei 等人，2003; Blei 和 McA

11、uliffe 2007）。我们提出变分方法。在变分方法中，我们假定一个家族的分布超过潜变量的自由变参数索引这些参数适合逼近真实后验，后验的封闭性来测量相对信息熵见 Jordan 等（1999 年）进行审查。我们使用完全因式分解家族，, (3)(,)= (|)(,|,)这里是一个 Dirichlet 参数集合，它为每个文档，并且是一组多项式参数，一个用于每个文档中的每个单词。需要注意的是：。,= ,相对熵最小化相当于最大化 Jensen 的下限观测的边际概率，即证据下限（ELBO）， =( 1,2)log(1,2|1,2,)+log(,|1:,) +log(,|) +log(|)

12、+ ()， (4)（d1，d2）表示所有文档对。第一项的 ELBO 区分 RTM 从 LDA（Blei 等 2003）。文件之间的连接会影响目标在近似的后验推断（和，以下，在参数估计）。在我们开发的推理过程的假设下，仅观察到的的链接将被建模（即是 1 或不可观察的）1。我们这样做的原因有两个。 1,2首先，当修正=1，无论何时可以观察到一个链接在 d1和 d2之间 1,2及设定=0，否则，这个在语料库方法是不合适没有出现在的一个链 1,2接无法视为证据对于= 0。在这些情况下，把这些链接作为不可观测 1,2的变量是更加忠实于底层语义的数据。例如，在大型社交网络 Facebook 的情况下

13、两个人之间的链接并不必然意味着他们不是朋友；他们可能是真正的朋友，在网络中他们是不知道对方存在的。此链接未观察到更好的方面我们缺乏处理了解他们之间的关系这种状态。其次，把无链接当成隐含链接进行处理，减少了非链接推断的计算开销；因为链接变量在图形化模型的的末端，它们可以被删除，只要他们是不可观测的。因此计算的复杂度捕捉到许多观测的链接而不是文档对。这提供了一个重要的计算的优势。我们现在的目标是计算每个术语的目标函数，公式 4 中给出。第一项依赖于我们选择的链接概率函数。这一条是不容易计算的当逻辑函数方程式选择公式 1 时。我们使用了一阶近似（Braun 2007 和 McAulif

14、fe ）。, 1,2 log( 1,2= 1| 1,2,) 1,2+ + log( 1,2 )(5)其中并且。当是响应函数 1,2= 1 2= =1 ,时，这个公式可以明确计算为：(6)log( 1,2= 1| 1,2,) = 1,2+ 我们使用坐标就参数，上升到优化的 ELBO，, (,) + log|+ log , ,其中被计算根据公式 5 或者是公式 6，及它们选择的。 ,可以被计算通过带入第列的求其对数。是log , ,log|1 1以上文件对序列（d1,d2）可以理解的范围超过对已被观察到的链接。,其中是 Digamma 函数。（一个 digamma 的一个向量是( ) (,)向量 digammas。）更新是完全相等的对于变分推理 LDA(Blei 等人，2003)，。 +,参数估计参数估计对于每个参数，我们要找到它们的极大似然值，多维主题向量和1:链接函数参数。这又是棘手的，所以我们转向一个近似值。我们采用,

展开阅读全文