马尔可夫随机域的线性和并行学习

上传人:s9****2 文档编号:512442858 上传时间:2023-03-10 格式:DOCX 页数:25 大小:168.72KB
返回 下载 相关 举报
马尔可夫随机域的线性和并行学习_第1页
第1页 / 共25页
马尔可夫随机域的线性和并行学习_第2页
第2页 / 共25页
马尔可夫随机域的线性和并行学习_第3页
第3页 / 共25页
马尔可夫随机域的线性和并行学习_第4页
第4页 / 共25页
马尔可夫随机域的线性和并行学习_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《马尔可夫随机域的线性和并行学习》由会员分享,可在线阅读,更多相关《马尔可夫随机域的线性和并行学习(25页珍藏版)》请在金锄头文库上搜索。

1、马尔可夫随机域的线性和并行学习Yariv Dror MizrahiMisha Denil加国0大津大学伦比亚大学英国大先大的研究所,CIFAR NCAP程序 摘要我们引入一个新的令人尴尬的并 行参数马尔科夫随机学习算法不 附带条件的参数是一种有效的字 段为一大类的实用模型。我们的 算法并行化自然派系以及为图的 有界、其复杂性是程度的线性的 在派系数目。与其竞争对手不同 我们的算法是完全平行和对数它 也是高效的、需要的数据模型只 有数据到本地充分统计量估计参 数。1. 介绍马尔可夫随机场(集控)也称为 无概率图模型、是无处不在的结 构有显著影响的概率模型一大批 领域、包括计算机视觉 (李,200

2、1 年;Szeliski et al., 2008年)、计算摄影和图形(etYARIVMATH.UBC.CA MISHA.DENILCS.OX.AC.UK NANDOCS.OX.AC.UKal.加尔,2004年)、计算神经科 学(艾克利et al., 1985年)、生物 信息学(诺华et al., 2007年)、传感器网络 (刘&伊勒尔,2012年)、社会 开辟(-施特劳斯池田,1990 年)、马尔科夫逻辑(-理查森与 多明戈斯,2006年)、自然语言 处理(拉弗蒂et al., 2001年; 萨顿&麦卡勒姆,2012年)和统 计物理(Kindermann & Snell, 1980年)。正如

3、指出在温赖特和Jordan(2008年)也 有很多应用程序在统计中、约束 满足与组合优化、纠错码和流行 病学。不出意料、这许多的综合 治疗手段重要的话题似乎在过去 的四年(Kindermann-斯内尔, 1980 年;;;劳里岑,1996 年;;; 布雷莫,2001年;科勒和弗里德 曼,2009 年;;墨菲,2012 年). 尽管巨大的成功,这些模型拟合 的影响他们的数据仍然是一个艰 巨的挑战。虽然对数似然是通常 凸的参数,这些模型的梯度是棘 手的。在许多情况下,在这些模 式中的最大似然是数据高效在渐 变中的数据一词可以的的感觉可 以轻松地预计算,使其评价期间 琐碎优化。使用最大似然的主要 困

4、难就是不高效的模型因为评估 梯度涉及到在模型计算的期望分 布。这就要求指数评价与一笔许 多条款,其中是的顽固性甚至适 度中型的模型。确切的最大似然 难治性已促使许多近似的介绍参 数估计的方法(Besag, 1975年; 辛顿,2000 年;Hyvarinen, 2005 年;; 马林 et al., 2010年;瓦兰 et al.,2011年;马林和德弗雷塔斯, 2011 年;斯沃 et al., 2011 年). 一类重要的这一问题的近似解法 近似的随机逼近方法从分布模 型,利用样本模型术语通常通过 mcmc方法。这种模拟是昂贵的 和许多样品往往需要准确的估 计。此外,在设置位置的参数或 数

5、据必须被分布到许多机器这种 仿真造成更多困难。另一种方法 是对近似极大似然目的构造的替 代方案。领先在这一领域的方法 是伪的可能性。在这种方法磁流 变液中的所有变量的联合分布被 取代按条件分布为每个产品变 量。替换产品的联合分布条件句 的消除模型期限从渐变拟似然目 标,绕过最大似然估计模型效率 低下。然而,伪似然不是高效的 因为数据条件分布往往取决于实 际的数据和参数的当前值。我们 回到这个在一节中详细的问题2.3. 采用伪似然在分布式环境中 的也是很难,因为条件分布共享 参数。几位研究者有解决这一问 题建议disjointly近似的拟似然 优化每个条件和参数相结合使用 某种形式的平均(Rav

6、ikumar et al., 2010年;威塞尔与英雄三, 2012年;刘 & 伊勒尔,2012 年).在本文中,我们介绍一参数 估计新方法在集控不附带条件的 参数,避免了模型效率低下的一 个重要的最大似然类模型,同时 保留其数据的效率。此外,我们 的算法是令人尴尬的平行可以在 未经修改的分布式环境中实现。 我们的算法取代联合最大似然问 题与很多规模较小的辅助的最多 的集合能独立解决的可能性问 题。我们证明,如果辅助问题满 足一定的条件,中的辅助问题的 相关参数收敛到关节中的真实参 数值模型。我们的实验结果表明 良好的性能在这种情况下取得和 那良好的性能仍然是当不满足这 些条件实现。违反牺牲理

7、论收敛 条件换取,甚至进一步计算的储 蓄同时实证性能良好。下一个较 强的假设,我们证明我们的算法 是全面联合分布的正好等于最大 可能性。虽然不直接适用,提供 了这一结果额外洞察为什么我们 的方法是有效的。最近,和独立, 介绍一类似的方法在下高斯的图 形化模型由孟et al.(2013年)。在 那张纸,作者认为本地居民区的 节点,而我们认为邻里派系,他 们依靠凸松弛通过Schur补从中 他们逆的算法协方差估计。在修 订这时间纸,同一批作者已经表 明,收敛性对与它们的方法参数 真值率是可比性以集中最大似然 估计(孟et al.,2014).虽然我们 的工作和孟et al.到达分布通过 不同的路径,

8、而是他们的学习限 于(成对)高斯图形模式,均它是能够利用图形结构的作品展示 超越低树宽到设计算法数据和模 型高效和展览好实证性能。2。模型规范和目标我们有兴趣评估的参数向量积极的分布p(x j) 0,满足马尔 可夫属性的无向图g .这是建造 -的构造,可以表示为一个产品因 素,每一个最大的集团,昨1 Wf误(心日) 在C组最大派系的G、C(xc j C) 0是势函数或因素相关变量的小团体c、Z()分区功能:如=&岳祥地闵.、在我们学院的搜索模型一个使用指数函数代表的潜力-. = -被称为能源,我们将假设选择这样参数是可识别的。结果联合 distribu -或X fl: = -reKp.-V当能

9、量是一个线性函数的参数, 即tor源自我的值变量,我们有一 个最大熵或对数线性模型(瓦瑟曼,2004;布赫曼et al .,2012;墨 菲,2012)。在这些特点 模型也被称为地方足够的统计数 据。符号:我们用x来指代所有变量 的向量(节点)。当需要时,我们增加的精 度符号用S来表示所有变量的设 置和使用xS theMRF所有变量的 向量。我们限制符号n和c,开方 xn指的是观察磁流变液中所有 的变量,我指的子集与集团有关 的变量c。最后厦门指节点的形 式观察。可以写成一个吉布斯分布2.1。最大似然(总的来说)没有马克斯-封闭形式的解决方案imum似然(ML)估计的参数基于磁流变液,因此梯度

10、优化是必要的。考虑遵守最大熵模型ta JH - EJ7C虾: 武为Mai11 , ac索引最大派系的地方。按比例缩小的日志,可能是由炽g耻u L.% 。5 L亡I iX78- fiJIOf A这是一个凸函数。参数的导数的一个特定的小团体是由捋q ,、I fl -当写生项相心:八:叫方程(4)的预期功能问(x)模型分布。对于许多感兴趣的模型数量是棘手的。的导数log-likelihood对比模型期望对特性的预期值数据,既 I X囱=工如仪莉一 E.禅x ,号n = 1在优化这两个词将平等和em - pirical分布特性将匹配模型的 预处理措辞。2.2。最大 Pseudo-Likelihood克

11、服的棘手问题计算expec -界定模型分布,pseudo-likelihood con -横梁简单factorised目标函数,N M尹L=标工典忒定顽牧一超 伍) n = l m = 1当对表示所有的组件形式的数 据向量,除了组件。(与稀疏模型 连通性,我们只需要邻居的情况 节点。)在二进制,对数线性情况下,梯度目标可以以对比的形式来表达,2.3。模型和数据效率有两个条款的梯度方程5。第一个词是一个实证的期望三M 派对之前可以预 先计算参数优化这学期开始,使梯度非常便宜 在优化评估。ML梯度数据来看是与期望模型 分布,一。X r 这是一个许多 配置求和成倍增长。对于大型 这学期模型是棘手的。

12、我们描述这种情况说,ML估计 数据有效,因为只涉及数据条款 计算效率。然而,ML不是有效率 模型字母系数,因为梯度是 棘手的模型来看,和评估的困难 是主要动机像伪另类的发展目标 可能性。Pseudo-likelihood 地址模型效 率低下的从梯度ML通过消除模 型来看,这使 pseudo-likelihood 模型有效。 然而,pseudoTikelihood 不是 数据有效,因为计算梯度需要访 问完整的条件分布-因为这个外求和 数据。必须为每个梯度评价计算 例子。(请注意,对于二进制模式 充分条件之-spond物流回归,所 以任何扩展的进步逻辑回归模型 和数据集将非常大在这里使用)。 在接

13、下来的部分中,我们介绍一 个线性和并行(圈)算法,它使用 一个特定的分解避免成本指数的 图形在 ML,pseudo-likelihood 圈完全并行和维护数据ML估计 的效率。重叠上都因此模型和数 据有效。3。算法描述圈算法操作通过分裂联合pa -参 数估计问题分成几个独立的子任 务并行可以解决的问题。一旦子- 问题已经解决,它结合了解决方 案每个子问题成完整的问题提出 的解决方案。我们定义其1-neighbourhood固定小团体问-%= U C己 flgH包含的所有变量 问本身以及变化可以在问至少有 一个邻居。重叠上创建一个为每 个最大小团体的子问题。最初的 问题,定义了一个辅助的MRF变

14、 量水乳型细节如何构造辅助磁流 变液将讨论后,现在我们假设一 个辅助在水基磁流变液,它包含 一个小团体。算法1圈输入:磁流变液与最大派系C 构造辅助变量水基磁流变液。估计参数AML的辅助MRFSet &(i 结束参数化的变量在问一样问原来的问题。圈派生参数向量问的问题估计参 数在auxiliaryMRF基地使用最大 似然参数和阅读集团直接问。算 法的步骤总结-算法1的存有。在对数线性模型估计参数向量的 最大似然一特的辅助磁流变液的 相关衍生品云一 =v E eg描-E 耳n=l这种方法是数据有效,因为足够 的统计数字-I =.很容易的预先计算。更多的,结束,数据向量xn可 以存储在一个分布式烦

15、恼离子, 节点估计auxiliaryMRF只需要- 荷兰国际集团(ing)访问 sub-vector xAqn。此外,重叠上自 期望E模型有效的。水乳型的变量数量时很容易计算 小。为了说明这一点,考虑所示的 模型如图1所示。密集的图形, 如限制博尔茨-曼机器,列举了成 本的指数所有的变量Aq是禁止 的。然而,对于其他感兴趣的实际 磁流变液,包括晶格和嵌合体。(2011 年 Denil & de Freitas),这个 成本是可以接受的。3.1。建设辅助MRF重叠上的有效性来自于适当的构 造-辅助的MRF。如前所述,辅助 -iliary MRF必须包含小团体问, 必须支持的联合模型中相同的方 式。这从上一小节中需求是明确 的,否则算法1的最后一步将是无 效的。分析部分中我们将会看到, 这是可取的auxiliaryMRF那样接 近边缘分布xAq越好。这意味着 我们必须包括所有派系从最初的MRF Aq子集。-盟友, 边缘化可能会引入额外的派系呈 现在原始的联合分布。很明显, 这些在Aqnq派系可以只涉及变量,但决定他们的确切结构一般是很困难的图1所示。左列显示了几种流行

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号