马尔可夫随机域的线性和并行学习

资源描述

《马尔可夫随机域的线性和并行学习》由会员分享，可在线阅读，更多相关《马尔可夫随机域的线性和并行学习（25页珍藏版）》请在金锄头文库上搜索。

1、马尔可夫随机域的线性和并行学习Yariv Dror MizrahiMisha Denil加国0大津大学伦比亚大学英国大先大的研究所,CIFAR NCAP程序摘要我们引入一个新的令人尴尬的并行参数马尔科夫随机学习算法不附带条件的参数是一种有效的字段为一大类的实用模型。我们的算法并行化自然派系以及为图的有界、其复杂性是程度的线性的在派系数目。与其竞争对手不同我们的算法是完全平行和对数它也是高效的、需要的数据模型只有数据到本地充分统计量估计参数。1. 介绍马尔可夫随机场（集控）也称为无概率图模型、是无处不在的结构有显著影响的概率模型一大批领域、包括计算机视觉（李,200

2、1 年;Szeliski et al., 2008年）、计算摄影和图形（etYARIVMATH.UBC.CA MISHA.DENILCS.OX.AC.UK NANDOCS.OX.AC.UKal.加尔，2004年）、计算神经科学（艾克利et al., 1985年）、生物信息学（诺华et al., 2007年）、传感器网络（刘&伊勒尔，2012年）、社会开辟（-施特劳斯池田，1990 年）、马尔科夫逻辑（-理查森与多明戈斯，2006年）、自然语言处理（拉弗蒂et al., 2001年; 萨顿&麦卡勒姆，2012年）和统计物理（Kindermann & Snell, 1980年）。正如

3、指出在温赖特和Jordan（2008年）也有很多应用程序在统计中、约束满足与组合优化、纠错码和流行病学。不出意料、这许多的综合治疗手段重要的话题似乎在过去的四年（Kindermann-斯内尔, 1980 年;；;劳里岑,1996 年;；; 布雷莫，2001年;科勒和弗里德曼，2009 年；;墨菲，2012 年）. 尽管巨大的成功，这些模型拟合的影响他们的数据仍然是一个艰巨的挑战。虽然对数似然是通常凸的参数，这些模型的梯度是棘手的。在许多情况下，在这些模式中的最大似然是数据高效在渐变中的数据一词可以的的感觉可以轻松地预计算，使其评价期间琐碎优化。使用最大似然的主要困

4、难就是不高效的模型因为评估梯度涉及到在模型计算的期望分布。这就要求指数评价与一笔许多条款，其中是的顽固性甚至适度中型的模型。确切的最大似然难治性已促使许多近似的介绍参数估计的方法（Besag, 1975年; 辛顿，2000 年；Hyvarinen, 2005 年；; 马林 et al., 2010年；瓦兰 et al.,2011年；马林和德弗雷塔斯, 2011 年；斯沃 et al., 2011 年）. 一类重要的这一问题的近似解法近似的随机逼近方法从分布模型，利用样本模型术语通常通过 mcmc方法。这种模拟是昂贵的和许多样品往往需要准确的估计。此外，在设置位置的参数或数

5、据必须被分布到许多机器这种仿真造成更多困难。另一种方法是对近似极大似然目的构造的替代方案。领先在这一领域的方法是伪的可能性。在这种方法磁流变液中的所有变量的联合分布被取代按条件分布为每个产品变量。替换产品的联合分布条件句的消除模型期限从渐变拟似然目标，绕过最大似然估计模型效率低下。然而，伪似然不是高效的因为数据条件分布往往取决于实际的数据和参数的当前值。我们回到这个在一节中详细的问题2.3. 采用伪似然在分布式环境中的也是很难，因为条件分布共享参数。几位研究者有解决这一问题建议disjointly近似的拟似然优化每个条件和参数相结合使用某种形式的平均（Rav

6、ikumar et al., 2010年;威塞尔与英雄三， 2012年；刘 & 伊勒尔，2012 年）.在本文中，我们介绍一参数估计新方法在集控不附带条件的参数，避免了模型效率低下的一个重要的最大似然类模型，同时保留其数据的效率。此外，我们的算法是令人尴尬的平行可以在未经修改的分布式环境中实现。我们的算法取代联合最大似然问题与很多规模较小的辅助的最多的集合能独立解决的可能性问题。我们证明，如果辅助问题满足一定的条件，中的辅助问题的相关参数收敛到关节中的真实参数值模型。我们的实验结果表明良好的性能在这种情况下取得和那良好的性能仍然是当不满足这些条件实现。违反牺牲理

7、论收敛条件换取，甚至进一步计算的储蓄同时实证性能良好。下一个较强的假设，我们证明我们的算法是全面联合分布的正好等于最大可能性。虽然不直接适用，提供了这一结果额外洞察为什么我们的方法是有效的。最近，和独立，介绍一类似的方法在下高斯的图形化模型由孟et al.（2013年）。在那张纸，作者认为本地居民区的节点，而我们认为邻里派系，他们依靠凸松弛通过Schur补从中他们逆的算法协方差估计。在修订这时间纸，同一批作者已经表明，收敛性对与它们的方法参数真值率是可比性以集中最大似然估计（孟et al.,2014）.虽然我们的工作和孟et al.到达分布通过不同的路径，

8、而是他们的学习限于（成对）高斯图形模式，均它是能够利用图形结构的作品展示超越低树宽到设计算法数据和模型高效和展览好实证性能。2。模型规范和目标我们有兴趣评估的参数向量积极的分布p(x j) 0,满足马尔可夫属性的无向图g .这是建造 -的构造，可以表示为一个产品因素,每一个最大的集团，昨1 Wf误(心日) 在C组最大派系的G、C(xc j C) 0是势函数或因素相关变量的小团体c、Z()分区功能：如=&岳祥地闵.、在我们学院的搜索模型一个使用指数函数代表的潜力-. = -被称为能源，我们将假设选择这样参数是可识别的。结果联合 distribu -或X fl： = -reKp.-V当能

9、量是一个线性函数的参数，即tor源自我的值变量，我们有一个最大熵或对数线性模型(瓦瑟曼,2004;布赫曼et al .,2012;墨菲,2012)。在这些特点模型也被称为地方足够的统计数据。符号:我们用x来指代所有变量的向量(节点)。当需要时,我们增加的精度符号用S来表示所有变量的设置和使用xS theMRF所有变量的向量。我们限制符号n和c,开方 xn指的是观察磁流变液中所有的变量，我指的子集与集团有关的变量c。最后厦门指节点的形式观察。可以写成一个吉布斯分布2.1。最大似然(总的来说)没有马克斯-封闭形式的解决方案imum似然(ML)估计的参数基于磁流变液，因此梯度

10、优化是必要的。考虑遵守最大熵模型ta JH - EJ7C虾: 武为Mai11 , ac索引最大派系的地方。按比例缩小的日志，可能是由炽g耻u L.% 。5 L亡I iX78- fiJIOf A这是一个凸函数。参数的导数的一个特定的小团体是由捋q ，、I fl -当写生项相心:八：叫方程(4)的预期功能问(x)模型分布。对于许多感兴趣的模型数量是棘手的。的导数log-likelihood对比模型期望对特性的预期值数据，既 I X囱=工如仪莉一 E.禅x ,号n = 1在优化这两个词将平等和em - pirical分布特性将匹配模型的预处理措辞。2.2。最大 Pseudo-Likelihood克

11、服的棘手问题计算expec -界定模型分布,pseudo-likelihood con -横梁简单factorised目标函数，N M尹L=标工典忒定顽牧一超伍) n = l m = 1当对表示所有的组件形式的数据向量，除了组件。(与稀疏模型连通性，我们只需要邻居的情况节点。)在二进制,对数线性情况下,梯度目标可以以对比的形式来表达，2.3。模型和数据效率有两个条款的梯度方程5。第一个词是一个实证的期望三M 派对之前可以预先计算参数优化这学期开始，使梯度非常便宜在优化评估。ML梯度数据来看是与期望模型分布，一。X r 这是一个许多配置求和成倍增长。对于大型这学期模型是棘手的。

12、我们描述这种情况说,ML估计数据有效,因为只涉及数据条款计算效率。然而,ML不是有效率模型字母系数，因为梯度是棘手的模型来看,和评估的困难是主要动机像伪另类的发展目标可能性。Pseudo-likelihood 地址模型效率低下的从梯度ML通过消除模型来看，这使 pseudo-likelihood 模型有效。然而,pseudoTikelihood 不是数据有效,因为计算梯度需要访问完整的条件分布-因为这个外求和数据。必须为每个梯度评价计算例子。（请注意，对于二进制模式充分条件之-spond物流回归，所以任何扩展的进步逻辑回归模型和数据集将非常大在这里使用）。在接

13、下来的部分中，我们介绍一个线性和并行（圈）算法,它使用一个特定的分解避免成本指数的图形在 ML,pseudo-likelihood 圈完全并行和维护数据ML估计的效率。重叠上都因此模型和数据有效。3。算法描述圈算法操作通过分裂联合pa -参数估计问题分成几个独立的子任务并行可以解决的问题。一旦子- 问题已经解决，它结合了解决方案每个子问题成完整的问题提出的解决方案。我们定义其1-neighbourhood固定小团体问-%= U C己 flgH包含的所有变量问本身以及变化可以在问至少有一个邻居。重叠上创建一个为每个最大小团体的子问题。最初的问题，定义了一个辅助的MRF变

14、量水乳型细节如何构造辅助磁流变液将讨论后，现在我们假设一个辅助在水基磁流变液,它包含一个小团体。算法1圈输入:磁流变液与最大派系C 构造辅助变量水基磁流变液。估计参数AML的辅助MRFSet &(i 结束参数化的变量在问一样问原来的问题。圈派生参数向量问的问题估计参数在auxiliaryMRF基地使用最大似然参数和阅读集团直接问。算法的步骤总结-算法1的存有。在对数线性模型估计参数向量的最大似然一特的辅助磁流变液的相关衍生品云一 =v E eg描-E 耳n=l这种方法是数据有效，因为足够的统计数字-I =.很容易的预先计算。更多的，结束，数据向量xn可以存储在一个分布式烦

15、恼离子，节点估计auxiliaryMRF只需要- 荷兰国际集团(ing)访问 sub-vector xAqn。此外，重叠上自期望E模型有效的。水乳型的变量数量时很容易计算小。为了说明这一点，考虑所示的模型如图1所示。密集的图形，如限制博尔茨-曼机器,列举了成本的指数所有的变量Aq是禁止的。然而，对于其他感兴趣的实际磁流变液,包括晶格和嵌合体。(2011 年 Denil & de Freitas),这个成本是可以接受的。3.1。建设辅助MRF重叠上的有效性来自于适当的构造-辅助的MRF。如前所述，辅助 -iliary MRF必须包含小团体问, 必须支持的联合模型中相同的方式。这从上一小节中需求是明确的，否则算法1的最后一步将是无效的。分析部分中我们将会看到, 这是可取的auxiliaryMRF那样接近边缘分布xAq越好。这意味着我们必须包括所有派系从最初的MRF Aq子集。-盟友, 边缘化可能会引入额外的派系呈现在原始的联合分布。很明显，这些在Aqnq派系可以只涉及变量,但决定他们的确切结构一般是很困难的图1所示。左列显示了几种流行

展开阅读全文