深度学习——机器学习领域的新热点

资源描述

《深度学习——机器学习领域的新热点》由会员分享，可在线阅读，更多相关《深度学习——机器学习领域的新热点（6页珍藏版）》请在金锄头文库上搜索。

1、动态第 9 卷第 7 期 2013 年 7 月64工智能领域的重要影响力他是人工智能的奠基人之一、并于 1969 年获得图灵奖，这本书令人工神经网络的研究进入了长达 10 多年的“冬天” 。事实上，如果把单层感知机堆成多层（称为多层感知机，如图 1 所示），是可以求解线性不可分问题的。然而当时缺乏有效的算法，尽管 1974 年哈佛大学的博士生保罗维博思 (Paul Werbos) 提出了比较有效的反向传播 (back propagation, BP) 算法2，但并没有引起学术界的重视。直到 1986 年加拿大多伦多大学的杰夫希顿 (Geoff Hinton) 等人重新发现深度学习机器学习领

2、域的新热点关键词：深度学习胡晓林朱军清华大学深度学习目前受到了前所未有的关注。多家重要的信息技术公司（如微软、谷歌等）相继宣布在语音识别、图像处理等应用领域取得突破性进展；重要媒体（如纽约时报）对此多次宣传报道；百度公司还在 2013 年 1 月成立了深度学习研究院 (the Institute of Deep Learning, IDL)。东方早报对此评论道： “IDL 燃起的这把新火苗势必将在这个寒冬里点燃中国移动互联网的生机。 ”那么，深度学习到底是什么？它能担当起这一重任吗？要弄明白这些问题，还得从人工神经网络说起。深度学习的前世今生多层感知机人工神经网络起源于

3、20 世纪 40 年代，至今已有 70 年历史。第一个神经元模型是 1943 年麦卡洛克 (McCulloch) 和皮茨 (Pitts) 提出的，称为阈值逻辑 (threshold logic)，它可以实现一些逻辑运算的功能。1958 年罗森布拉特 (Rosenblatt) 提出了简单的神经网络模型感知机 (perceptron)，本质上这是一个线性分类器。1969 年明斯基 (Minsky) 和帕拍特(Papert) 在所著的感知机中指出： (1) 单层感知机不能实现“异或”(XOR) 功能（即不能解决线性不可分问题）； (2) 计算机能力有限，不能处理神经网络所需要的长时间运行过程1。

4、鉴于明斯基在人输出层隐层输入层图1 多层感知机（每个神经元接受下层神经元的输入，与对应的权值相乘并加上一个偏置，通过sigmoid1函数转换后将值传给上层神经元）1 即f(x)=1/(1 exp(-x)，神经元的非线性作用函数。第 9 卷第 7 期 2013 年 7 月65这一算法3，人工神经网络才再次受到重视。但是反向传播算法在神经网络的层数增多时很容易陷入局部最优解，也很容易过拟合。在此后的20 年里，反向传播算法唯一算得上成功的案例可能只有美国纽约大学的亚恩乐昆 (Yann LeCun) 于1998 年提出的卷积神经网络4。由于其特殊的结构，这个网络在一些数据集上（如手写体数字识

5、别）取到了很好的效果。20世纪90年代，弗拉基米尔瓦普内克(Vladimir Vapnik) 提出了支持向量机 (support vector machine, SVM)。虽然它是一个特殊的两层神经网络，但因其具有高效的学习算法，且没有局部最优的问题，使得很多神经网络的研究者转向支持向量机的研究，多层前馈神经网络的研究逐渐受到冷落。深度信念网络2006 年杰夫希顿研究组提出了深度信念网络(deep belief network)5，神经网络的研究开始焕发出新一轮的生机。从结构上讲，深度信念网络与传统的多层感知机区别不大，并且在做有监督学习时算法也一样。唯一不同的是这个网络在做有监督学习前要

6、先做非监督学习，然后将非监督学习学到的权值当作有监督学习的初值进行训练。所以，深度信念网络从结构上讲不是一件新事物，它的兴起主要归功于学习方法的变革。希顿研究组提出的学习方法与另一个神经网络受限玻尔兹曼机 (restricted Boltzmann machine, RBM) 密切相关。受限玻尔兹曼机是一个单层的随机神经网络（通常我们不把输入层计算在神经网络的层数里）（如图 2 所示），本质上是一个概率图模型。输入层与隐层之间是全连接，但层内神经元之间没有相互连接。每个神经元要么激活（值为 1）要么不激活（值为 0），激活的概率满足 sigmoid 函数。受限玻尔兹曼机的优点是给定一层神

7、经元的状态时，另外一层神经元的状态是相互独立的。这对于做随机采样来说比较方便，可以分别固定一层，采样另一层，交替进行。理论上所有神经元需要采样无穷多次后才能进行权值的更新，这种方法称为对比分歧(contrastive divergence, CD) 算法。由于该算法计算太慢，于是希顿等人提出了一个近似方法CD-n算法6，只需采样 n 次后就可更新一次权值。当学习完一个受限玻尔兹曼机模型后，算法就固定权值，再在上面叠加一层新的隐层单元，使原来受限玻尔兹曼机的隐层变成它的输入层，这样就构造了一个新的受限玻尔兹曼机，之后，再用同样的方法学习它的权值。依此类推，可以叠加出多个受限玻尔兹曼机，从而构成一

8、个深度信念网络。将受限玻尔兹曼机学习到的权值作为这个深度信念网络的初始权值，再用反向传播算法进行学习，就形成了深度信念网络的学习方法。图 3 的左边给出一个例子7。这个网络有 4 层，能将一个高维的图像信号压缩到 30 维，即最顶层的神经元个数为30。我们还可以把这个网络对称展开，将 30 维回退到原来的高维信号，这样就有了一个 8 层的网络（见图 3 的中间）。如果将该网络用于信号压缩，就可以令该网络的目标输出等于输入，再用反向传播算法对权值进行微调（见图 3 的右边）。深度学习希顿的这项工作重新唤起了学术界对于神经网络的热情，逐渐吸引了一批优秀的学者加入到深层神经网络的研究中，包括加拿

9、大蒙特利尔大学的本希奥 (Bengio) 研究组、美国斯坦福大学的吴恩达(Andrew Ng) 研究组、美国纽约大学的亚恩乐昆研究组以及 NEC 美国研究院的余凯研究组（余凯现已加入百度公司）等。研究人员提出的模型除了传统的多层感知机、卷积神经网络外，还有很多其隐层输入层图2 受限玻尔兹曼机的结构示意图动态第 9 卷第 7 期 2013 年 7 月66它的层次化模型。我们把这类模型统称为深度学习模型。本希奥研究组的一个重要贡献是提出了基于自编码器 (auto-encoder) 的深度学习网络。自编码器和受限玻尔兹曼机的激活函数都是 sigmoid 函数，学习原则也一致，都可以看成是将数据的似

10、然概率最大化，只是实现方式不同。吴恩达研究组和余凯研究组提出了一系列基于稀疏编码的深层学习网络，他们的工作扩展了深层网络的学习方式，比如在同一个网络中，不同层之间的学习方法可以不一样。深度学习模型目前在很多领域（如语音识别、图像分类等）都优于过去的方法。例如，在 2011年神经网络国际联合会议 (the International Joint Conference on Neural Networks, IJCNN) 上，其交通标志识别竞赛中，一组来自瑞士的研究者使用基于卷积神经网络的方法一举夺魁8，其识别准确率超过了人类；两个迁移学习 (transfer learning) 竞赛中也都是

11、基于深度学习的算法获胜911。事实上，几乎每篇深度学习的论文的发表都意味着某个数据集上的某项评价指标被刷新。学术界对神经网络的热情迅速感染了工业界，一些嗅觉敏锐的公司的研究机构迅速跟进。2010 年，微软研究院的邓力博士与希顿合作发现深层网络可显著提高语音识别的精度12。此后，微软亚洲研究院进一步深化了这项成果。他们建立了一些巨大的神经网络，其中一个包含了 6600 多万神经的连接，成为语音识别研究史上最大的同类模型，这也使得在 Switchboard 标准数据集识别的错误率比已有的最低错误率降低了 33% ！要知道，在语音识别领域，这个数据集上的最低错误率已多年没有更新。为此，邓力

12、博士还接受了纽约时报的专访。谷歌研究院通过与吴恩达研究组合作，建立了共有 10 亿个参数的深度网络18，堪称史上最大的神经网络。他们用 2000 台机器共32000 个核对该网络训练了一周，在 ImageNet 数据集上得到的分类准确率比当前最好的结果提高了 70%。百度公司在语音识别准确率方面，利用深度学习技术，使得过去一年的进展就超过了过去 15 年进展的总和，以图搜图的准确率从 20% 提升到 80%13。繁华背后的思考深度学习这个概念现在炙手可热，受到了学术界和工业界的广泛追捧。大批学者正从不同的领WWW+WWWWW+W+W+WW+W+W+WWWWWW12000RBM2 2000100

13、05005001000100050011200020005005001000100020005002000T4TRBM预训练展开微调1000RBM3430304422334T 53T 62T 71T 8编码器12330432T1T码本层解码器RBMTop图3 一个深度学习网络的例子7（注：RBM为受限玻尔兹曼机）第 9 卷第 7 期 2013 年 7 月67域赶来，机器学习国际会议 (the International Con-ference on Machine Learning, ICML)、神经信息处理系统会议 (Neural Information Processing Syst

14、em, NIPS) 以及IEEE 模式分析与机器智能学报(IEEE Transactions on Pattern Analysis and Machine Intelli-gence, IEEE Trans. PAMI) 等著名会议和期刊上的相关论文也越来越多。从目前的情况看，这场声势浩大的盛宴似乎要持续几年。然而，我们在赶赴这场盛宴前，需要冷静思考。为什么需要深度结构？我们可以用一个直观的方式来看待这个问题。由于网络的输出是一个关于输入的非线性函数，它的表达能力取决于这个函数。每个输入神经元的信息经过中间层到达输出层，其路径条数呈指数上升（各层神经元个数的乘积），如图 4 所示。而每条路

15、径对应于该输入信息的一系列非线性操作。每增加一层，这样的路径条数就成倍增长，网络的表达能力也相应增强。因此，一个浅层网络即使其隐层单元的个数、内部操作算子等与深层网络相同，它的表达能力也远远低于深层网络。在极端情况下，单层网络中每个输入神经元的信息到达输出层的路径条数是线性的（等于输出神经元的个数）。一些文献（如文献 14）明确给出了一些函数，这些函数用深层结构表达要比用浅层结构表达更高效，效率的差异随网络规模呈指数增长。如果深层网络在表达同样的函数时所需的参数比浅层网络少，则它的计算效率（访问更少的节点）和统计效率（学习更少的参数，并且对不同的输入使用同样的这些参数）会更高15。为什么需

16、要预训练？希顿于 2006 年发现只有结合预训练才能使深度网络发挥威力。目前，大多数深度学习网络都需要先进行无监督的预训练，再进行有监督的训练，结果通常比从一开始就进行有监督的训练要好。这其实对应着一个合理的假设：用P(X) 描述无监督预训练所得到的关于数据的一种表示，然后用有监督学习对网络进行训练得到P(Y|X)，其中Y为输出（如类别标签）。该假设认为P(X) 的学习有助于P(Y|X)的学习。相对于单纯的有监督学习而言，这种学习思路有助于降低过拟合的风险，原因在于它不仅学习了条件概率分布P(Y|X)，还学习了X和Y的联合概率分布。此外，对于预训练有助于深度学习的原因，最直接的解释是预训练将网络参数训练到一

展开阅读全文