深度学习与人脑模拟

资源描述

《深度学习与人脑模拟》由会员分享，可在线阅读，更多相关《深度学习与人脑模拟（6页珍藏版）》请在金锄头文库上搜索。

1、第 12 卷第 2 期 2016 年 2 月55深度学习与人脑模拟关键词：深度学习类脑计算万赟美国休斯敦大学最近几年，计算机和电子商务领域最激动人心的发展，莫过于通过人工智能技术实现了在声音识别、图像识别、无人驾驶、医学诊断、自然语言翻译等领域的突破。机器识别中的神经网络深度学习方法成为学术界和工业界关注的热点。在这一技术的发展推动下，研究人脑的认知和模拟人脑成为美国政府支持的研究对象1。早期发展模拟人脑神经元的神经网络理论模型最早出现在 20 世纪 40 年代。第一个把神经网络原理成功应用到图像识别的是康奈尔大学的心理学教授罗森布拉特。他在 1957 年制作的电子感知机因为能读入

2、并识别简单的字母和图像而在当时引起轰动，引发了业界的诸多联想，使得很多专家预测在几年后计算机将具备思考功能。但是早期单层神经网络无法实现异或逻辑，再加上计算机运算能力的局限性，使得这一方向不久就停滞不前而让工业界和学术界失去了兴趣。感知机流行时，霍普金斯大学的住院医师戴维休伯尔 (David Hubel) 与托斯坦威瑟尔 (Tosten Wiesel) 结识并成为学术搭档，开始了长达 20 多年的研究，他们也因此获得了诺贝尔奖。1959 年，他们通过观察猫的脑部视觉中枢对由视网膜进入的图像的处理方式发现，一些神经元对不同光强度或者不同角度的斜线有反应，另一些神经元对光感和简单斜线没有反应，但是

3、对物体移动具有敏感性，即便物体的边界发生形变也不影响其激发。休伯尔和威瑟尔将前一类神经元称为简单细胞，后一类称为复杂细胞。休伯尔和威瑟尔的这一发现以及后来的研究给从事神经网络研究的计算机专家提供了重要的建模思路，比如视神经元对信息处理的分工是分层进行的，不同神经元关注的对象特征不同，每一层神经元抽象出对象的部分特征进行处理，所有信息经过逐层激发，在中枢最高层激发出对整个对象产生认知的“祖母神经元” 。20 世纪 80 年代神经网络技术得到进一步发展，以前只具有输入层和输出层的单层网络结构中添加了中间的隐层。这一变化使得神经网络可以解决更加复杂的分类问题。但层数的增加为各个层的神经节点之间连接的

4、权重选取带来了困难。反向传播算法 (back propagation) 的出现在一定程度上解决了权重选取问题。另外，计算机运算能力的提高使得多层神经网络的计算成为可能。在此基础上，人工智能领域的一个分支连接主义开始流行。通过分布式计算为多层神经网络提供架构支持成为的新研究方向。但是由于工业界在专家系统上过度投资导致泡沫产生，加上反向传播算法在处理深度多层神1 2013年奥巴马政府启动的“人脑计划”就是试图通过国立卫生研究院和国家科学基金会与民间研究机构联合起来，对人脑的认知机制进行跨学科的突破性研究。2016.2.15.indd 5516-2-15 上午9:42专栏第 12 卷第 2 期 2

5、016 年 2 月56经网络时的局限性，导致神经网络技术在 80 年代末再次出现进展缓慢的现象。这中间还穿插着试图将专家系统发展到极致的 LISP2计算机崛起及其随后被工作站取代的故事。至此人工智能领域进入所谓的第二个低潮期“人工智能的冬天” 。在这期间支持向量机、线性分类等相对有效的机器识别方式逐渐取代神经网络成为主流。接下来的 20 年间，互联网蓬勃发展。人工智能开始以智能代理、协同过滤商品推荐（亚马逊）以及搜索引擎（谷歌）等专业性应用渗透到各类电商服务中。多层神经网络也因为深度学习方法的出现而获得新生3。深度学习20 世纪六七十年代，通过回归分析来逐层学习和提炼最优的神经网络层数和节点数

6、的方法出现。乌克兰数学家伊万科夫 (A.G. Ivakhnenko) 及其同事在 1971 年发表过 8 层神经网络模型。1979 年日本京都大学的福岛邦彦 (Kunihiko Fukushima) 成功通过多层神经网络学习进行手写字母的图像识别。1992年密歇根州立大学翁巨扬提出了最大池化方法 (max pooling) 和卷积神经网络 (convolution neural net)，此方法后来被广为传播和使用。深度学习能够在北美走向主流与被戏称为“加拿大黑手党”的三个专注机器学习领域多年的计算机专家的坚持不懈有直接关系。他们是加拿大多伦多大学计算机系的杰弗里欣顿 (Geoffrey Hi

7、nton)、曾经在欣顿门下做博士后的纽约大学计算机系教授雅恩乐昆 (Yann LeCun)、与乐昆在贝尔实验室共同工作过的加拿大蒙特利尔大学教授约书亚本吉奥 (Yoshua Bengio)。欣顿 1970 年从剑桥心理学专业本科毕业，1978年从爱丁堡大学获得人工智能专业博士学位。他毕业时恰好遇到人工智能发展的第二次高潮，于是投入到神经网络的研究中。他和乐昆在 1989 年将反向传播算法应用到前馈多层神经网络学习过程，使得该算法能够识别出手写的邮政编码。随着层度的加深，反向传播算法无法有效地调整神经连接之间的权重，导致学习时间很长。80 年代末人工智能研究进入低谷，很多同行开始研究别的领域，

8、但是欣顿等人仍然坚守在这一领域。以至于有很长一段时间，多伦多大学计算机系私下流行着一句对新生的警言：不要去欣顿的实验室。在欧洲学术界，多层神经网络的研究在 90 年代也取得了一些进展。慕尼黑工业大学的人工智能专家于尔根施米德休伯 (Jrgen Schmidhuber) 和他的学生团队在 1992 年提出了非监督学习时间递归神经网络 (recurrent neural net)，为语音识别和自然语言翻译提供了重要的模型。与前馈网络不同的是，递归神经网络允许各个神经节点直接形成环状循环连接，甚至允许一个神经节点接受自己的输入，这种架构使得每个节点能够更好地利用历史权重，从而更适合处理音频和文字等序

9、列数据。1997 年他们提出了简化时间递归神经网络的长短期记忆人工时间递归神经网络 (LSTM RNN)，解决了时间递归网络在学习过程中的误差消失和放大问题。但是，同在 90 年代，无论是北美还是欧洲，因为计算能力这一根本性限制，神经网络研究都没能在应用领域取得突破。2004 年，欣顿从加拿大高等研究所 (Canadian Institute for Advanced Research) 获得了每年 50 万美元的经费，在乐昆和本吉奥的协助下开启了神经计算和适应感知项目4。该项目将一批一流的计算机、生物学、电子工程、神经科学、物2 LISP名称源自列表处理(LISt Processing)的英

10、语缩写，是一种通用高级计算机程序语言，长期以来垄断人工智能领域的应用。3 “深度学习”一词最早出现在1986年AAAI会议里纳德迟特(Rina Dechter)的论文中。2000年艾森贝格等人的Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications一书中将该词引入神经网络研究领域，并用来描述多层神经网络这种高度模拟人脑皮层的学习和认知功能。2016.2.15.indd 5616-2-15 上午9:42第 12 卷第 2 期 2016 年 2 月57理学和心理学专家聚合在一起，共同探讨用神经网络

11、深度学习的方法模拟人脑智能。有了经费的支持和智慧的聚合，欣顿团队利用大规模的计算平台很快发现了更优的算法，早期反向传播算法难以克服的困难陆续得到解决。通过采用与时间递归网络类似的逐层培训方式，欣顿团队在深度前馈网络中采取了预培训方式解决了反向传播算法的梯度消失问题，用逐层培训和抽象的方式有效地降低了观察对象的维度。简单地说就是将被识别对象的特征从最底层（例如单个像素）开始通过池化方式逐层抽象收集，后一层把前一层的特征抽取结果作为新的识别对象，用同样的方法提取出新的特征。这种方式可以采用非监督的自动编码和解码的方式来矫正，不需要预先对识别对象进行标注。2006 年前后，这一算法在图像识别等分类型

12、预测方面取得了突破性进展。同一时期，施米德休伯等人的时间递归算法也在图像识别和语音识别方面取得突破性进展。深度学习能够在这段时间取得突破，除了与前后两代深度学习领域专家的不懈努力密不可分外，与整个信息产业在此期间的巨大变化也有密切关系。2006 年 3 月，亚马逊正式推出弹性云服务。同年 8月谷歌总裁施密特开始使用“云计算”一词来区别传统的客户 / 服务器模式。此时的亚马逊和谷歌内部早已进入大数据和云计算阶段。在以后的几年时间里，其他互联网公司纷纷步其后尘。大数据和云计算为深度学习算法提供了海量数据和近乎无限的计算能力这两个必要的前提条件。用欣顿在 2013 年加拿大英属哥伦比亚大学的一次演讲

13、中的话来说，深度学习以前不成功是因为缺乏三个必要前提：足够多的数据、足够强大的计算能力和设定好初始化权重。大数据的积累和云计算平台的形成为深度学习提供了前提条件中的前两个，而 GPU 的问世和市场成熟则为第三个前提条件的快速实现提供了硬件加速支持。1999 年首次问世的 GPU 在成本和价格趋势上同样遵循摩尔定律5。GPU 最初是为电脑游戏的 3D 渲染而设计的硬件加速设备。与只拥有少量内核的 CPU 相比，GPU 拥有上百个内核，可以同时处理上千个指令相同的线程。这意味着对神经网络的权重计算这种高度一致的重复性的并行计算工作，GPU 的处理效率可能是普通 CPU 的几十倍，从而可以高速有

14、效地进行各种识别计算。这些因素综合到一起使得以前只在理论上有突破的前馈和递归神经网络算法开始呈现出威力。ImageNet和机器猫最早将深度学习引入语音识别的公司是微软。2009 年圣诞前夕微软研究院在加拿大召开了一个小型学术会议，邀请欣顿介绍深度学习研究成果。欣顿的算法并没有引起大多数与会专家的重视，但是微软的两个与会代表邓立和俞栋却在会后组织了人员对数据进行了测试，结果发现非监督的深度学习算法可以使得语音识别的准确率提升 25%，远超业界期望值的5%。于是微软开始对这一算法不断优化，并将其应用到语音识别的各类产品和服务中。其中最具媒体效应的是2012年10月微软首席研究官里克拉希德(Ric

15、k Rashid) 在天津“21 世纪的计算大会”上公开演示的一段视频。该视频介绍了后来一时热透中国互联网的全自动同声传译系统（错误率仅为 7%）。微软在语音技术上的突破标志着深度学习获得了足够多的数据和计算资源，后者有可能进行更加复杂的图像识别工作。显然互联网为这一想法提供了重要的实验平台。 2007 年，斯坦福大学教授李飞飞和普林斯顿大学教授李凯合作开发了 ImageNet 项4 该项目聚集了一批后来活跃在人工智能领域的专家，除了欣顿、乐昆和本吉奥外，还有后来负责谷歌“大脑计划”的斯坦福大学计算机系教授吴恩达以及指导奥巴马政府“人脑计划”的诺斯基(Terry Sejnowski)。诺斯基

16、在80年代和欣顿一起发明了波兹曼机。5 2006年英伟达(NVIDIA)推出的GeForce 8800 GTX 包含128个内核，速度为575MHz ，价格不到600美元。2016.2.15.indd 5716-2-15 上午9:42专栏第 12 卷第 2 期 2016 年 2 月58目。该项目团队从互联网上下载了 10 亿多张图片，然后通过“亚马逊机械土耳其人”这一低成本网络众包的方式，雇佣了来自 167 个国家共 5 万多人对这些图片进行了分类标注。截至 2009 年，该项目成功产生了一个包含 2.2 万个不同门类，共 1500 万张带标签的图片数据库。该数据库里的图片分类和标签质量超过以往任何数据库，其中仅猫这一门类就有 6.2 万张不同的图片，包含了所有种类的驯养的和野生的猫。建成这一数据库后，李飞飞和她的团队利用深度学习方法使得计算机通过监督学习方式识别包含各种物体的图像，而且能够用自然语言生成对每一个图像中的物体关系的简单描述。这一成果进一步引发了学术界和工业界对深度学习的关注。ImageNet 目前以

展开阅读全文