深度学习vs.概率图模型vs.逻辑学

资源描述

《深度学习vs.概率图模型vs.逻辑学》由会员分享，可在线阅读，更多相关《深度学习vs.概率图模型vs.逻辑学（7页珍藏版）》请在金锄头文库上搜索。

1、今天，我们一起来回顾过去 50 年人工智能（AI）领域形成的三大范式：逻辑学、概率方法和深度学习。如今，无论依靠经验和“数据驱动”的方式，还是大数据、深度学习的概念，都已经深入人心，可是早期并非如此。很多早期的人工智能方法是基于逻辑，并且从基于逻辑到数据驱动方法的转变过程受到了概率论思想的深度影响，接下来我们就谈谈这个过程。本文按时间顺序展开，先回顾逻辑学和概率图方法，然后就人工智能和机器学习的未来走向做出一些预测。图片来源：Coursera 的概率图模型课1. 逻辑和算法（常识性的“思考”机）许多早期的人工智能工作都是关注逻辑、自动定理证明和操纵各种符号。John McCarthy 于 1

2、959 年写的那篇开创性论文取名为常识编程也是顺势而为。如果翻开当下最流行的 AI 教材之一人工智能：一种现代方法（AIMA），我们会直接注意到书本开篇就是介绍搜索、约束满足问题、一阶逻辑和规划。第三版封面（见下图）像一张大棋盘（因为棋艺精湛是人类智慧的标志），还印有阿兰图灵（计算机理论之父）和亚里士多德（最伟大的古典哲学家之一，象征着智慧）的照片。AIMA 的封面，它是 CS 专业本科 AI 课程的规范教材然而，基于逻辑的 AI 遮掩了感知问题，而我很早之前就主张了解感知的原理是解开智能之谜的金钥匙。感知是属于那类对于人很容易而机器很难掌握的东西。（延伸阅读：计算机视觉当属人工智能，作者 2

3、011 年的博文）逻辑是纯粹的，传统的象棋机器人也是纯粹算法化的，但现实世界却是丑陋的，肮脏的，充满了不确定性。我想大多数当代人工智能研究者都认为基于逻辑的 AI 已经死了。万物都能完美观察、不存在测量误差的世界不是机器人和大数据所在的真实世界。我们生活在机器学习的时代，数字技术击败了一阶逻辑。站在 2015 年，我真是替那些死守肯定前件抛弃梯度下降的傻子们感到惋惜。逻辑很适合在课堂上讲解，我怀疑一旦有足够的认知问题成为“本质上解决”，我们将看到逻辑学的复苏。未来存在着很多开放的认知问题，那么也就存在很多场景，在这些场景下社区不用再担心认知问题，并开始重新审视这些经典的想法。也许在 2020

4、年。延伸阅读：逻辑与人工智能斯坦福哲学百科全书2. 概率，统计和图模型（“测量”机）概率方法在人工智能是用来解决问题的不确定性。人工智能:一种现代方法一书的中间章节介绍“不确定知识与推理”，生动地介绍了这些方法。如果你第一次拿起 AIMA，我建议你从本节开始阅读。如果你是一个刚刚接触 AI的学生，不要吝啬在数学下功夫。来自宾夕法尼亚州立大学的概率论与数理统计课程的 PDF 文件大多数人在提到的概率方法时，都以为只是计数。外行人很容易想当然地认为概率方法就是花式计数方法。那么我们简要地回顾过去统计思维里这两种不相上下的方法。频率论方法很依赖经验这些方法是数据驱动且纯粹依靠数据做推论。贝叶斯方法

5、更为复杂，并且它结合数据驱动似然和先验。这些先验往往来自第一原则或“直觉”，贝叶斯方法则善于把数据和启发式思维结合做出更聪明的算法理性主义和经验主义世界观的完美组合。最令人兴奋的，后来的频率论与贝叶斯之争，是一些被称为概率图模型的东西。该类技术来自计算机科学领域，尽管机器学习现在是 CS 和统计度的重要组成部分，统计和运算结合的时候它强大的能力才真正释放出来。概率图模型是图论与概率方法的结合产物，2000 年代中期它们都曾在机器学习研究人员中风靡一时。当年我在研究生院的时候（2005-2011），变分法、Gibbs 抽样和置信传播算法被深深植入在每位 CMU 研究生的大脑中，并为我们提供了思考

6、机器学习问题的一个极好的心理框架。我所知道大部分关于图模型的知识都是来自于 Carlos Guestrin 和 Jonathan Huang。Carlos Guestrin 现在是 GraphLab 公司（现改名为 Dato）的 CEO，这家公司生产大规模的产品用于图像的机器学习。Jonathan Huang 现在是 Google 的高级研究员。下面的视频尽管是 GraphLab 的概述，但它也完美地阐述了“图形化思维”，以及现代数据科学家如何得心应手地使用它。Carlos 是一个优秀的讲师，他的演讲不局限于公司的产品，更多的是提供下一代机器学习系统的思路。概率图模型的计算方法介绍（视频和

7、PPT 下载）Dato CEO，Carlos Guestrin 教授如果你觉得深度学习能够解决所有机器学习问题，真得好好看看上面的视频。如果你正在构建一套推荐系统，一个健康数据分析平台，设计一个新的交易算法，或者开发下一代搜索引擎，图模型都是完美的起点。延伸阅读：置信传播算法维基百科图模型变分法导论Michael Jordan 的技术主页（Michael Jordan 系推理和图模型的巨头之一）3. 深度学习和机器学习（数据驱动机）机器学习是从样本学习的过程，所以当前最先进的识别技术需要大量训练数据，还要用到深度神经网络和足够耐心。深度学了如今那些成功的机器学习算法中的网络架构。这些方法都是

8、基于包含很多隐藏层的“深”多层神经网络。注：我想强调的是深层结构如今（2015 年）不再是什么新鲜事。只需看看下面这篇 1998 年的“深层”结构文章。LeNet-5，Yann LeCun 开创性的论文基于梯度学习的文档识别方法你在阅读 LeNet 模型导读时，能看到以下条款声明：要在 GPU 上运行这个示例，首先得有个性能良好的 GPU。GPU 内存至少要1GB。如果显示器连着 GPU，可能需要更多内存。当 GPU 和显示器相连时，每次 GPU 函数调用都有几秒钟的时限。这么做是必不可少的，因为目前的 GPU 在进行运算时无法继续为显示器服务。如果没有这个限制，显示器将会冻结太久，计算机看上

9、去像是死机了。若用中等质量的GPU 处理这个示例，就会遇到超过时限的问题。GPU 不连接显示器时就不存在这个时间限制。你可以降低批处理大小来解决超时问题。我真的十分好奇 Yann 究竟是如何早在 1998 年就把他的深度模型折腾出一些东西。毫不奇怪，我们大伙儿还得再花十年来消化这些内容。更新：Yann 说（通过 Facebook 的评论）ConvNet 工作可以追溯到 1989 年。“它有大约 400K 连接，并且在一台 SUN4 机器上花了大约 3 个星期训练 USPS 数据集（8000 个训练样本）。 ”LeCun深度网络，Yann1989 年在贝尔实验室的成果注：大概同一时期（1998

10、年左右）加州有两个疯狂的家伙在车库里试图把整个互联网缓存到他们的电脑（他们创办了一家 G 打头的公司）。我不知道他们是如何做到的，但我想有时候需要超前做些并不大规模的事情才能取得大成就。世界最终将迎头赶上的。延伸阅读：Y.LeCun, L.Bottou, Y.Bengio, and P.Haffner.Gradient-based learning applied to document recognition.Proceedings of the IEEE, November 1998.Y.LeCun, B.Boser, J.S.Denker, D.Henderson, R.E.Howar

11、d, W.Hubbard and L.D.Jackel:Backpropagation Applied to Handwritten Zip Code Recognition, Neural Computation, 1(4):541-551, Winter 1989Deep Learning code: Modern LeNet implementation in Theano and docs.结论我没有看到传统的一阶逻辑很快卷土重来。虽然在深度学习背后有很多炒作，分布式系统和“图形思维”对数据科学的影响更可能比重度优化的 CNN 来的更深远。深度学习没有理由不和 GraphLab-style 架构结合，未来几十年机器学习领域的重大突破也很有可能来自这两部分的结合。

展开阅读全文