机器人的学习研究进展深度学习及应用ppt课件

资源描述

《机器人的学习研究进展深度学习及应用ppt课件》由会员分享，可在线阅读，更多相关《机器人的学习研究进展深度学习及应用ppt课件（85页珍藏版）》请在金锄头文库上搜索。

1、机器人的学习研究进展：深度学习及应用机器人的学习研究进展：深度学习及应用机器人的学习研究进展：深度学习及应用机器人的学习研究进展：深度学习及应用1 1深度学习及应用深度学习及应用内内内内容容容容 1 1 1 1. . . .深度学习概述深度学习概述深度学习概述深度学习概述 2.2.2.2.深度学习应用研究深度学习应用研究深度学习应用研究深度学习应用研究深度学习及应用深度学习及应用1 1 1 1. . . .深度学习概述深度学习概述深度学习概述深度学习概述1.1 1.1 1.1 1.1 概述概述概述概述1.2 1.2 1.2 1.2 背景背景背景背景1.3 1.3 1.3 1.3 人脑视觉机理

2、人脑视觉机理人脑视觉机理人脑视觉机理1.4 1.4 1.4 1.4 关于特征关于特征关于特征关于特征1.5 1.5 1.5 1.5 深度学习的基本思想深度学习的基本思想深度学习的基本思想深度学习的基本思想1.6 1.6 1.6 1.6 浅层学习（浅层学习（浅层学习（浅层学习（Shallow LearningShallow LearningShallow LearningShallow Learning）和深度学习（）和深度学习（）和深度学习（）和深度学习（Deep LearningDeep LearningDeep LearningDeep Learning）深度学习及应用深度学习及应用1 1

3、 1 1. . . .深度学习概述深度学习概述深度学习概述深度学习概述1.7 Deep learning1.7 Deep learning1.7 Deep learning1.7 Deep learning与与与与Neural NetworkNeural NetworkNeural NetworkNeural Network1.8 Deep learning1.8 Deep learning1.8 Deep learning1.8 Deep learning训练过程训练过程训练过程训练过程1.9 Deep Learning1.9 Deep Learning1.9 Deep Learning1.

4、9 Deep Learning的常用模型或者方法的常用模型或者方法的常用模型或者方法的常用模型或者方法深度学习及应用深度学习及应用1.1 1.1 1.1 1.1 概述概述概述概述Artificial IntelligenceArtificial IntelligenceArtificial IntelligenceArtificial Intelligence，也就是人工智能，就像长生不老和星际漫游一样，也就是人工智能，就像长生不老和星际漫游一样，也就是人工智能，就像长生不老和星际漫游一样，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步，

5、但是到是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步，但是到是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步，但是到是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生目前为止，还没有一台电脑能产生目前为止，还没有一台电脑能产生目前为止，还没有一台电脑能产生“自我自我自我自我”的意识。的意识。的意识。的意识。的确如此，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但的确如此，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但的确如此，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但的确如此，在人类和大量现成

6、数据的帮助下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。深度学习及应用深度学习及应用1.1 1.1 1.1 1.1 概述概述概述概述图灵（计算机和人工智能的鼻祖，分别对应于其著名的图灵（计算机和人工智能的鼻祖，分别对应于其著名的图灵（计算机和人工智能的鼻祖，分别对应于其著名的图灵（计算机和人工智能的鼻祖，分别对应于其著名的“图灵机图灵机图灵机图灵机”和和和和“图灵图灵图灵图灵测试测试测试测

7、试”）在）在）在）在 1950 1950 1950 1950 年的论文里，提出图灵试验的设想，即，隔墙对话，你将年的论文里，提出图灵试验的设想，即，隔墙对话，你将年的论文里，提出图灵试验的设想，即，隔墙对话，你将年的论文里，提出图灵试验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。这无疑给计算机，尤其是人工智能，预不知道与你谈话的，是人还是电脑。这无疑给计算机，尤其是人工智能，预不知道与你谈话的，是人还是电脑。这无疑给计算机，尤其是人工智能，预不知道与你谈话的，是人还是电脑。这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。设了一个很高的期望值。设了一个很高的期望值。设了一个

8、很高的期望值。但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。这但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。这但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。这但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是“伪科学伪科学伪科学伪科学”。深度学习及应用深度学习及应用

9、1.1 1.1 1.1 1.1 概述概述概述概述但是自但是自但是自但是自 2006 2006 2006 2006 年以来，机器学习领域，取得了突破性的进展。图灵试验，至年以来，机器学习领域，取得了突破性的进展。图灵试验，至年以来，机器学习领域，取得了突破性的进展。图灵试验，至年以来，机器学习领域，取得了突破性的进展。图灵试验，至少不是那么可望而不可及了。至于技术手段，不仅仅依赖于云计算对大数据少不是那么可望而不可及了。至于技术手段，不仅仅依赖于云计算对大数据少不是那么可望而不可及了。至于技术手段，不仅仅依赖于云计算对大数据少不是那么可望而不可及了。至于技术手段，不仅仅依赖于云计算对大数据的并行

10、处理能力，而且依赖于算法。的并行处理能力，而且依赖于算法。的并行处理能力，而且依赖于算法。的并行处理能力，而且依赖于算法。这个算法就是，这个算法就是，这个算法就是，这个算法就是，Deep LearningDeep LearningDeep LearningDeep Learning。借助于。借助于。借助于。借助于 Deep Learning Deep Learning Deep Learning Deep Learning 算法，人类终于找算法，人类终于找算法，人类终于找算法，人类终于找到了如何处理到了如何处理到了如何处理到了如何处理“抽象概念抽象概念抽象概念抽象概念”这个亘古难题的方法。这个

11、亘古难题的方法。这个亘古难题的方法。这个亘古难题的方法。深度学习及应用深度学习及应用1.1 1.1 1.1 1.1 概述概述概述概述2012201220122012年年年年6 6 6 6月，纽约时报披露了月，纽约时报披露了月，纽约时报披露了月，纽约时报披露了Google BrainGoogle BrainGoogle BrainGoogle Brain项目，吸引了公众的广泛关注。项目，吸引了公众的广泛关注。项目，吸引了公众的广泛关注。项目，吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授这个项目是由著名的斯坦福大学的机器学习教授这个项目是由著名的斯坦福大学的机器学习教授这个项目

12、是由著名的斯坦福大学的机器学习教授Andrew NgAndrew NgAndrew NgAndrew Ng和在大规模计算机和在大规模计算机和在大规模计算机和在大规模计算机系统方面的世界顶尖专家系统方面的世界顶尖专家系统方面的世界顶尖专家系统方面的世界顶尖专家Jeff DeanJeff DeanJeff DeanJeff Dean共同主导，用共同主导，用共同主导，用共同主导，用16000160001600016000个个个个CPU CoreCPU CoreCPU CoreCPU Core的并行计的并行计的并行计的并行计算平台训练一种称为算平台训练一种称为算平台训练一种称为算平台训练一种称为“深度

13、神经网络深度神经网络深度神经网络深度神经网络”（DNNDNNDNNDNN，Deep Neural NetworksDeep Neural NetworksDeep Neural NetworksDeep Neural Networks）的机）的机）的机）的机器学习模型（内部共有器学习模型（内部共有器学习模型（内部共有器学习模型（内部共有10101010亿个节点。亿个节点。亿个节点。亿个节点。深度学习及应用深度学习及应用1.1 1.1 1.1 1.1 概述概述概述概述这一网络自然是不能跟人类的神经网络相提并论的。要知道，人脑中可是有这一网络自然是不能跟人类的神经网络相提并论的。要知道，人脑中可是

14、有这一网络自然是不能跟人类的神经网络相提并论的。要知道，人脑中可是有这一网络自然是不能跟人类的神经网络相提并论的。要知道，人脑中可是有150150150150多亿个神经元，互相连接的节点也就是突触数更是如银河沙数。曾经有人多亿个神经元，互相连接的节点也就是突触数更是如银河沙数。曾经有人多亿个神经元，互相连接的节点也就是突触数更是如银河沙数。曾经有人多亿个神经元，互相连接的节点也就是突触数更是如银河沙数。曾经有人估算过，如果将一个人的大脑中所有神经细胞的轴突和树突依次连接起来，估算过，如果将一个人的大脑中所有神经细胞的轴突和树突依次连接起来，估算过，如果将一个人的大脑中所有神经细胞的轴突和树突依

15、次连接起来，估算过，如果将一个人的大脑中所有神经细胞的轴突和树突依次连接起来，并拉成一根直线，可从地球连到月亮，再从月亮返回地球）。并拉成一根直线，可从地球连到月亮，再从月亮返回地球）。并拉成一根直线，可从地球连到月亮，再从月亮返回地球）。并拉成一根直线，可从地球连到月亮，再从月亮返回地球）。“深度神经网络深度神经网络深度神经网络深度神经网络”在语音识别和图像识别等领域获得了巨大的成功。在语音识别和图像识别等领域获得了巨大的成功。在语音识别和图像识别等领域获得了巨大的成功。在语音识别和图像识别等领域获得了巨大的成功。深度学习及应用深度学习及应用1.1 1.1 1.1 1.1 概述概述概述概述项

16、目负责人之一项目负责人之一项目负责人之一项目负责人之一AndrewAndrewAndrewAndrew称：称：称：称：“我们没有像通常做的那样自己框定边界，而是我们没有像通常做的那样自己框定边界，而是我们没有像通常做的那样自己框定边界，而是我们没有像通常做的那样自己框定边界，而是直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。”另外一名负责人另外一名负责人另外一名负责人另外

17、一名负责人JeffJeffJeffJeff则说：则说：则说：则说：“我们在训练的时候从来不会告诉机器说：我们在训练的时候从来不会告诉机器说：我们在训练的时候从来不会告诉机器说：我们在训练的时候从来不会告诉机器说：这是一只猫。这是一只猫。这是一只猫。这是一只猫。系统其实是自己发明或者领悟了系统其实是自己发明或者领悟了系统其实是自己发明或者领悟了系统其实是自己发明或者领悟了“猫猫猫猫”的概念。的概念。的概念。的概念。”深度学习及应用深度学习及应用1.1 1.1 1.1 1.1 概述概述概述概述2012201220122012年年年年11111111月，微软在中国天津的一次活动上公开演示了一个全自动

18、的同声传月，微软在中国天津的一次活动上公开演示了一个全自动的同声传月，微软在中国天津的一次活动上公开演示了一个全自动的同声传月，微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英译系统，讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅。据报道，后面支撑的关键技术中机器翻译和中文语音合成，效果非常流畅。据报道，后面支撑的关键技术中机器翻译和中文语音合

19、成，效果非常流畅。据报道，后面支撑的关键技术中机器翻译和中文语音合成，效果非常流畅。据报道，后面支撑的关键技术也是也是也是也是DNNDNNDNNDNN，或者深度学习（，或者深度学习（，或者深度学习（，或者深度学习（DLDLDLDL，DeepLearningDeepLearningDeepLearningDeepLearning）。）。）。）。2013201320132013年年年年1 1 1 1月，在百度年会上，创始人兼月，在百度年会上，创始人兼月，在百度年会上，创始人兼月，在百度年会上，创始人兼CEOCEOCEOCEO李彦宏高调宣布要成立百度研究院，李彦宏高调宣布要成立百度研究院，李彦宏高调

20、宣布要成立百度研究院，李彦宏高调宣布要成立百度研究院，其中第一个成立的就是其中第一个成立的就是其中第一个成立的就是其中第一个成立的就是“深度学习研究所深度学习研究所深度学习研究所深度学习研究所”（IDLIDLIDLIDL，Institue of Deep Institue of Deep Institue of Deep Institue of Deep LearningLearningLearningLearning）。）。）。）。深度学习及应用深度学习及应用1.1 1.1 1.1 1.1 概述概述概述概述为什么拥有大数据的互联网公司争相投入大量资源研发深度学习技术。听起为什么拥有大数据的互

21、联网公司争相投入大量资源研发深度学习技术。听起为什么拥有大数据的互联网公司争相投入大量资源研发深度学习技术。听起为什么拥有大数据的互联网公司争相投入大量资源研发深度学习技术。听起来感觉来感觉来感觉来感觉deeplearningdeeplearningdeeplearningdeeplearning很牛那样。很牛那样。很牛那样。很牛那样。那什么是那什么是那什么是那什么是deep learningdeep learningdeep learningdeep learning？为什么有为什么有为什么有为什么有deep learningdeep learningdeep learningdeep le

22、arning？它是怎么来的？它是怎么来的？它是怎么来的？它是怎么来的？又能干什么呢？又能干什么呢？又能干什么呢？又能干什么呢？目前存在哪些困难呢？目前存在哪些困难呢？目前存在哪些困难呢？目前存在哪些困难呢？这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核心）这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核心）这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核心）这些问题的简答都需要慢慢来。咱们先来了解下机器学习（人工智能的核心）的背景。的背景。的背景。的背景。深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景机器学习（机器

23、学习（机器学习（机器学习（Machine LearningMachine LearningMachine LearningMachine Learning）是一门专门研究计算机怎样模拟或实现人类）是一门专门研究计算机怎样模拟或实现人类）是一门专门研究计算机怎样模拟或实现人类）是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。善

24、自身的性能的学科。善自身的性能的学科。善自身的性能的学科。1959195919591959年美国的塞缪尔年美国的塞缪尔年美国的塞缪尔年美国的塞缪尔(Samuel)(Samuel)(Samuel)(Samuel)设计了一个下棋程序，这个程序具有学习能力，设计了一个下棋程序，这个程序具有学习能力，设计了一个下棋程序，这个程序具有学习能力，设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。它可以在不断的对弈中改善自己的棋艺。它可以在不断的对弈中改善自己的棋艺。它可以在不断的对弈中改善自己的棋艺。4 4 4 4年后，这个程序战胜了设计者本人。年后，这个程序战胜了设计者本人。

25、年后，这个程序战胜了设计者本人。年后，这个程序战胜了设计者本人。又过了又过了又过了又过了3 3 3 3年，这个程序战胜了美国一个保持年，这个程序战胜了美国一个保持年，这个程序战胜了美国一个保持年，这个程序战胜了美国一个保持8 8 8 8年之久的常胜不败的冠军。年之久的常胜不败的冠军。年之久的常胜不败的冠军。年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与哲学

26、问题。哲学问题。哲学问题。哲学问题。深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：机器学习虽然发展了几十年，但还是存在很多没有良好解决的问题：深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐例如图像识别、语音识别、自然语言理解、天

27、气预测、基因表达、内容推荐例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目前我们通过机器学习去解决这些问题的思路都是这样的（以视觉感等等。目前我们通过机器学习去解决这些问题的思路都是这样的（以视觉感等等。目前我们通过机器学习去解决这些问题的思路都是这样的（以视觉感等等。目前我们通过机器学习去解决这些问题的思路都是这样的（以视觉感知为例子）：知为例子）：知为例子）：知为例子）：深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景从开始的通过传感器（例如从开始的通过传感器（例如从开始的通过传感器（例如从开始的通过传感器（例如CMOSCMOSCMOS

28、CMOS）来获得数据。然后经过预处理、特征提取、）来获得数据。然后经过预处理、特征提取、）来获得数据。然后经过预处理、特征提取、）来获得数据。然后经过预处理、特征提取、特征选择，再到推理、预测或者识别。最后一个部分，也就是机器学习的部特征选择，再到推理、预测或者识别。最后一个部分，也就是机器学习的部特征选择，再到推理、预测或者识别。最后一个部分，也就是机器学习的部特征选择，再到推理、预测或者识别。最后一个部分，也就是机器学习的部分，绝大部分的工作是在这方面做的，也存在很多的学术论文和研究。分，绝大部分的工作是在这方面做的，也存在很多的学术论文和研究。分，绝大部分的工作是在这方面做的，也存在很多

29、的学术论文和研究。分，绝大部分的工作是在这方面做的，也存在很多的学术论文和研究。而中间的三部分，概括起来就是特征表达。良好的特征表达，对最终算法的而中间的三部分，概括起来就是特征表达。良好的特征表达，对最终算法的而中间的三部分，概括起来就是特征表达。良好的特征表达，对最终算法的而中间的三部分，概括起来就是特征表达。良好的特征表达，对最终算法的准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗

30、在这一大部分。但是这块实际中一般都是人工完成的，即靠人工提取特征。部分。但是这块实际中一般都是人工完成的，即靠人工提取特征。部分。但是这块实际中一般都是人工完成的，即靠人工提取特征。部分。但是这块实际中一般都是人工完成的，即靠人工提取特征。深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景截止现在，也出现了不少优秀特征截止现在，也出现了不少优秀特征截止现在，也出现了不少优秀特征截止现在，也出现了不少优秀特征表示方式（好的特征应具有不变性表示方式（好的特征应具有不变性表示方式（好的特征应具有不变性表示方式（好的特征应具有不变性（大小、尺度和旋转等）和可区分（大小、尺度和

31、旋转等）和可区分（大小、尺度和旋转等）和可区分（大小、尺度和旋转等）和可区分性）。性）。性）。性）。例如例如例如例如SiftSiftSiftSift的出现，是局部图像特征的出现，是局部图像特征的出现，是局部图像特征的出现，是局部图像特征描述子研究领域一项里程碑式的工描述子研究领域一项里程碑式的工描述子研究领域一项里程碑式的工描述子研究领域一项里程碑式的工作。由于作。由于作。由于作。由于SIFTSIFTSIFTSIFT对尺度、旋转以及一对尺度、旋转以及一对尺度、旋转以及一对尺度、旋转以及一定视角和光照变化等图像变化都具定视角和光照变化等图像变化都具定视角和光照变化等图像变化都具定视角和光照变化等

32、图像变化都具有不变性，并且有不变性，并且有不变性，并且有不变性，并且SIFTSIFTSIFTSIFT具有很强的可具有很强的可具有很强的可具有很强的可区分性，的确让很多问题的解决变区分性，的确让很多问题的解决变区分性，的确让很多问题的解决变区分性，的确让很多问题的解决变为可能。但它也不是万能的。为可能。但它也不是万能的。为可能。但它也不是万能的。为可能。但它也不是万能的。深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景然而，手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，然而，手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，然而，手工地选取特征

33、是一件非常费力、启发式（需要专业知识）的方法，然而，手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。既然手工选取特征不太好，那么能不能自动地学习一些特征呢？答案是能！既然手工选取特征不太好，那么能不能自动地学习一些特征呢？答案是能！既然手工选取特征不太好，那么能不能自动地学习一些特征呢？答案是能！既然手工选取特征不太好，那么能不能

34、自动地学习一些特征呢？答案是能！Deep LearningDeep LearningDeep LearningDeep Learning就是用来干这个事情的，看它的一个别名就是用来干这个事情的，看它的一个别名就是用来干这个事情的，看它的一个别名就是用来干这个事情的，看它的一个别名Unsupervised Unsupervised Unsupervised Unsupervised Feature LearningFeature LearningFeature LearningFeature Learning，就可以顾名思义了，就可以顾名思义了，就可以顾名思义了，就可以顾名思义了，Unsuper

35、visedUnsupervisedUnsupervisedUnsupervised的意思就是不要人参的意思就是不要人参的意思就是不要人参的意思就是不要人参与特征的选取过程。与特征的选取过程。与特征的选取过程。与特征的选取过程。深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？那它是怎么学习的呢？怎么知道哪些特征好哪些不好呢？我们说机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为的学我们说机器学习是一门专门研究计算

36、机怎样模拟或实现人类的学习行为的学我们说机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为的学我们说机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为的学科。那人类的视觉系统是怎么工作的呢？为什么在茫茫人海，芸芸众生，滚科。那人类的视觉系统是怎么工作的呢？为什么在茫茫人海，芸芸众生，滚科。那人类的视觉系统是怎么工作的呢？为什么在茫茫人海，芸芸众生，滚科。那人类的视觉系统是怎么工作的呢？为什么在茫茫人海，芸芸众生，滚滚红尘中我们都可以找到另一个她（因为，你存在我深深的脑海里，我的梦滚红尘中我们都可以找到另一个她（因为，你存在我深深的脑海里，我的梦滚红尘中我们都可以找到另一个她（因为，

37、你存在我深深的脑海里，我的梦滚红尘中我们都可以找到另一个她（因为，你存在我深深的脑海里，我的梦里、我的心里、我的歌声里里、我的心里、我的歌声里里、我的心里、我的歌声里里、我的心里、我的歌声里）。）。）。）。深度学习及应用深度学习及应用1.2 1.2 1.2 1.2 背景背景背景背景人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：好像和人脑扯上人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：好像和人脑扯上人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：好像和人脑扯上人脑那么优秀，我们能不能参考人脑，模拟人脑呢？（注：好像和人脑扯上点关系的特征、算法，都不错，但不知道是不是人为强加的，

38、为了使自己的点关系的特征、算法，都不错，但不知道是不是人为强加的，为了使自己的点关系的特征、算法，都不错，但不知道是不是人为强加的，为了使自己的点关系的特征、算法，都不错，但不知道是不是人为强加的，为了使自己的研究变得神圣和高雅。）研究变得神圣和高雅。）研究变得神圣和高雅。）研究变得神圣和高雅。）近几十年以来，认知神经科学、生物学等等学科的发展，让我们对自己这个近几十年以来，认知神经科学、生物学等等学科的发展，让我们对自己这个近几十年以来，认知神经科学、生物学等等学科的发展，让我们对自己这个近几十年以来，认知神经科学、生物学等等学科的发展，让我们对自己这个神秘的而又神奇的大脑不再那么的陌生。也

39、给人工智能的发展推波助澜。神秘的而又神奇的大脑不再那么的陌生。也给人工智能的发展推波助澜。神秘的而又神奇的大脑不再那么的陌生。也给人工智能的发展推波助澜。神秘的而又神奇的大脑不再那么的陌生。也给人工智能的发展推波助澜。深度学习及应用深度学习及应用1.3 1.3 1.3 1.3 人脑视觉机理人脑视觉机理人脑视觉机理人脑视觉机理1981198119811981年的诺贝尔医学年的诺贝尔医学年的诺贝尔医学年的诺贝尔医学/ / / /生理学奖，颁发给了生理学奖，颁发给了生理学奖，颁发给了生理学奖，颁发给了 David Hubel David Hubel David Hubel David Hubel（出

40、生于加拿大的美（出生于加拿大的美（出生于加拿大的美（出生于加拿大的美国神经生物学家）国神经生物学家）国神经生物学家）国神经生物学家）和和和和Torsten WieselTorsten WieselTorsten WieselTorsten Wiesel以及以及以及以及 Roger Sperry Roger Sperry Roger Sperry Roger Sperry。前两位的主要贡。前两位的主要贡。前两位的主要贡。前两位的主要贡献，是献，是献，是献，是“发现了视觉系统的信息处理机制发现了视觉系统的信息处理机制发现了视觉系统的信息处理机制发现了视觉系统的信息处理机制”，发现可视皮层是分级的

41、。如，发现可视皮层是分级的。如，发现可视皮层是分级的。如，发现可视皮层是分级的。如“人见到蛇的情景人见到蛇的情景人见到蛇的情景人见到蛇的情景”。深度学习及应用深度学习及应用深度学习及应用深度学习及应用1.3 1.3 1.3 1.3 人脑视觉机理人脑视觉机理人脑视觉机理人脑视觉机理我们看看他们做了什么。我们看看他们做了什么。我们看看他们做了什么。我们看看他们做了什么。1958 1958 1958 1958 年，年，年，年，DavidHubel DavidHubel DavidHubel DavidHubel 和和和和Torsten Wiesel Torsten Wiesel Torsten Wi

42、esel Torsten Wiesel 在在在在 JohnHopkins UniversityJohnHopkins UniversityJohnHopkins UniversityJohnHopkins University研究了瞳孔区域与大脑皮层神经元的对应关系。他研究了瞳孔区域与大脑皮层神经元的对应关系。他研究了瞳孔区域与大脑皮层神经元的对应关系。他研究了瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上开了一个们在猫的后脑头骨上开了一个们在猫的后脑头骨上开了一个们在猫的后脑头骨上开了一个3 3 3 3 毫米的小洞，向洞里插入电极，测量神经元毫米的小洞，向洞里插入电极，测量神经元毫

43、米的小洞，向洞里插入电极，测量神经元毫米的小洞，向洞里插入电极，测量神经元的活跃程度。的活跃程度。的活跃程度。的活跃程度。然后，他们在小猫的眼前，展现各种形状、各种然后，他们在小猫的眼前，展现各种形状、各种然后，他们在小猫的眼前，展现各种形状、各种然后，他们在小猫的眼前，展现各种形状、各种亮度亮度亮度亮度的物体。并且，在展现的物体。并且，在展现的物体。并且，在展现的物体。并且，在展现每一件物体时，还改变物体放置的每一件物体时，还改变物体放置的每一件物体时，还改变物体放置的每一件物体时，还改变物体放置的位置位置位置位置和和和和角度角度角度角度。他们期望通过这个办法，让。他们期望通过这个办法，让。

44、他们期望通过这个办法，让。他们期望通过这个办法，让小猫瞳孔感受不同类型、不同强弱的刺激。小猫瞳孔感受不同类型、不同强弱的刺激。小猫瞳孔感受不同类型、不同强弱的刺激。小猫瞳孔感受不同类型、不同强弱的刺激。深度学习及应用深度学习及应用1.3 1.3 1.3 1.3 人脑视觉机理人脑视觉机理人脑视觉机理人脑视觉机理之所以做这个试验，目的是去证明一个猜测：之所以做这个试验，目的是去证明一个猜测：之所以做这个试验，目的是去证明一个猜测：之所以做这个试验，目的是去证明一个猜测：位于后脑皮层的不同视觉神经位于后脑皮层的不同视觉神经位于后脑皮层的不同视觉神经位于后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存

45、在某种对应关系元，与瞳孔所受刺激之间，存在某种对应关系元，与瞳孔所受刺激之间，存在某种对应关系元，与瞳孔所受刺激之间，存在某种对应关系。一旦瞳孔受到某一种刺激，。一旦瞳孔受到某一种刺激，。一旦瞳孔受到某一种刺激，。一旦瞳孔受到某一种刺激，后脑皮层的某一部分神经元就会活跃。后脑皮层的某一部分神经元就会活跃。后脑皮层的某一部分神经元就会活跃。后脑皮层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小猫，经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小猫，经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的小猫，经历了很多天反复的枯燥的试验，同时牺牲了若干只可怜的

46、小猫，David David David David Hubel Hubel Hubel Hubel 和和和和Torsten Wiesel Torsten Wiesel Torsten Wiesel Torsten Wiesel 发现了一种被称为发现了一种被称为发现了一种被称为发现了一种被称为“方向选择性细胞方向选择性细胞方向选择性细胞方向选择性细胞（Orientation Selective CellOrientation Selective CellOrientation Selective CellOrientation Selective Cell）”的神经元细胞。当瞳孔发现了眼前的物

47、的神经元细胞。当瞳孔发现了眼前的物的神经元细胞。当瞳孔发现了眼前的物的神经元细胞。当瞳孔发现了眼前的物体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。体的边缘，而且这个边缘指向某个方向时，这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经这个发现激发了人们对于神经系统的进一步思考。神经这个发现激发了人们对于神经系统的进一步思考。神经这个发现激发了人们对于神经系统的进一步思考。神经- - - -中枢中枢中枢中枢- - - -大脑的工作过大

48、脑的工作过大脑的工作过大脑的工作过程，或许是一个不断迭代、不断抽象的过程。程，或许是一个不断迭代、不断抽象的过程。程，或许是一个不断迭代、不断抽象的过程。程，或许是一个不断迭代、不断抽象的过程。深度学习及应用深度学习及应用1.3 1.3 1.3 1.3 人脑视觉机理人脑视觉机理人脑视觉机理人脑视觉机理这里的关键词有两个，一个是抽象，一个是这里的关键词有两个，一个是抽象，一个是这里的关键词有两个，一个是抽象，一个是这里的关键词有两个，一个是抽象，一个是迭代迭代迭代迭代。从原始信号，做。从原始信号，做。从原始信号，做。从原始信号，做低级低级低级低级抽象抽象抽象抽象，逐渐向逐渐向逐渐向逐渐向高级高级

49、高级高级抽象抽象抽象抽象迭代迭代迭代迭代。人类的逻辑思维，经常使用高度抽象的概念人类的逻辑思维，经常使用高度抽象的概念人类的逻辑思维，经常使用高度抽象的概念人类的逻辑思维，经常使用高度抽象的概念。例如，从原始信号摄入开始（瞳孔摄入像素例如，从原始信号摄入开始（瞳孔摄入像素例如，从原始信号摄入开始（瞳孔摄入像素例如，从原始信号摄入开始（瞳孔摄入像素 Pixels Pixels Pixels Pixels），接着做初步处理（大），接着做初步处理（大），接着做初步处理（大），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形脑皮层某些细胞发现边缘和方向），然后抽象（

50、大脑判定，眼前的物体的形脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。再比如人脸识别，如下图：再比如人脸识别，如下图：再比如人脸识别，如下图：再比如人脸识别，如下图：深度学习及应用深度学习及应用深度学习及应用深度学习及应用1.3 1.3 1.3 1.3 人脑

51、视觉机理人脑视觉机理人脑视觉机理人脑视觉机理这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。这个生理学的发现，促成了计算机人工智能在四十年后的突破性发展。总的来说，总的来说，总的来说，总的来说，人的视觉系统的信息处理是分级的人的视觉系统的信息处理是分级的人的视觉系统的信息处理是分级的人的视觉系统的信息处理是分级的。从低级的。从低级的。从低级的。从低级的V1V1V1V1区提取边缘特征，区提取边缘特征，区提取边缘特征，区提取边缘特征，再到再到再到再到V2V2V2

52、V2区的形状或者目标的部分等，再到更高层，整个目标、目标的行为等。区的形状或者目标的部分等，再到更高层，整个目标、目标的行为等。区的形状或者目标的部分等，再到更高层，整个目标、目标的行为等。区的形状或者目标的部分等，再到更高层，整个目标、目标的行为等。也就是说也就是说也就是说也就是说高层的特征是低层特征的组合高层的特征是低层特征的组合高层的特征是低层特征的组合高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽，从低层到高层的特征表示越来越抽，从低层到高层的特征表示越来越抽，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图。而象，越来越能表现语义或者意图。而象，越来越能表现语义

53、或者意图。而象，越来越能表现语义或者意图。而抽象层面越高，存在的可能猜测就越少，抽象层面越高，存在的可能猜测就越少，抽象层面越高，存在的可能猜测就越少，抽象层面越高，存在的可能猜测就越少，就越利于分类就越利于分类就越利于分类就越利于分类。例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，例如，单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，语义和意图的对应还是多对一的，这是个层级体系。语义和意图的对应还是多对一的，这是个层级体系

54、。语义和意图的对应还是多对一的，这是个层级体系。语义和意图的对应还是多对一的，这是个层级体系。深度学习及应用深度学习及应用1.3 1.3 1.3 1.3 人脑视觉机理人脑视觉机理人脑视觉机理人脑视觉机理敏感的人注意到这个关键词了：分层。而敏感的人注意到这个关键词了：分层。而敏感的人注意到这个关键词了：分层。而敏感的人注意到这个关键词了：分层。而Deep learningDeep learningDeep learningDeep learning的的的的deepdeepdeepdeep是不是就表示是不是就表示是不是就表示是不是就表示我存在多少层，也就是多深呢？我存在多少层，也就是多深呢？我存在

55、多少层，也就是多深呢？我存在多少层，也就是多深呢？对。那对。那对。那对。那Deep learningDeep learningDeep learningDeep learning是如何借鉴这个过程的呢是如何借鉴这个过程的呢是如何借鉴这个过程的呢是如何借鉴这个过程的呢？毕竟是归于计算机来处理，？毕竟是归于计算机来处理，？毕竟是归于计算机来处理，？毕竟是归于计算机来处理，面对的一个问题就是面对的一个问题就是面对的一个问题就是面对的一个问题就是怎么对这个过程进行建模怎么对这个过程进行建模怎么对这个过程进行建模怎么对这个过程进行建模？因为我们要学习的是特征的表达，那么关于特征，或者说关于这个层级特征，

56、因为我们要学习的是特征的表达，那么关于特征，或者说关于这个层级特征，因为我们要学习的是特征的表达，那么关于特征，或者说关于这个层级特征，因为我们要学习的是特征的表达，那么关于特征，或者说关于这个层级特征，我们需要了解地更深入点。所以在说我们需要了解地更深入点。所以在说我们需要了解地更深入点。所以在说我们需要了解地更深入点。所以在说Deep LearningDeep LearningDeep LearningDeep Learning之前，我们下面有必要解之前，我们下面有必要解之前，我们下面有必要解之前，我们下面有必要解释一下特征。释一下特征。释一下特征。释一下特征。深度学习及应用深度学习及应用

57、1.4 1.4 1.4 1.4 关于特征关于特征关于特征关于特征特征是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。特征是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。特征是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。特征是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。如果数据被很好地表达成了特征，通常线性模型就能达到满意的精度。那对于特征，我们需要考虑什么呢？那对于特征，我们需要考虑

58、什么呢？那对于特征，我们需要考虑什么呢？那对于特征，我们需要考虑什么呢？深度学习及应用深度学习及应用1.4 1.4 1.4 1.4 关于特征关于特征关于特征关于特征1.4.1 1.4.1 1.4.1 1.4.1 特征表示的粒度特征表示的粒度特征表示的粒度特征表示的粒度1.4.2 1.4.2 1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示1.4.3 1.4.3 1.4.3 1.4.3 结构性特征表示结构性特征表示结构性特征表示结构性特征表示1.4.4 1.4.4 1.4.4 1.4.4 需要有多少个特征需要有多少个特征需要有多少个特征需要

59、有多少个特征深度学习及应用深度学习及应用1.4.1 1.4.1 1.4.1 1.4.1 特征表示的粒度特征表示的粒度特征表示的粒度特征表示的粒度学习算法在一个什么粒度上的特征表示，才有能发挥作用？就一个图片来说，学习算法在一个什么粒度上的特征表示，才有能发挥作用？就一个图片来说，学习算法在一个什么粒度上的特征表示，才有能发挥作用？就一个图片来说，学习算法在一个什么粒度上的特征表示，才有能发挥作用？就一个图片来说，像素级的特征根本没有价值像素级的特征根本没有价值像素级的特征根本没有价值像素级的特征根本没有价值。例如上面的摩托车，从像素级别，根本得不到任何信息，其无法进行摩托车例如上面的摩托车，从

60、像素级别，根本得不到任何信息，其无法进行摩托车例如上面的摩托车，从像素级别，根本得不到任何信息，其无法进行摩托车例如上面的摩托车，从像素级别，根本得不到任何信息，其无法进行摩托车和非摩托车的区分。和非摩托车的区分。和非摩托车的区分。和非摩托车的区分。深度学习及应用深度学习及应用1.4.1 1.4.1 1.4.1 1.4.1 特征表示的粒度特征表示的粒度特征表示的粒度特征表示的粒度而如果特征是一个具有结构性（或者说有含义）的时候，比如是否具有车把而如果特征是一个具有结构性（或者说有含义）的时候，比如是否具有车把而如果特征是一个具有结构性（或者说有含义）的时候，比如是否具有车把而如果特征是一个具有

61、结构性（或者说有含义）的时候，比如是否具有车把手（手（手（手（handlehandlehandlehandle），是否具有车轮（），是否具有车轮（），是否具有车轮（），是否具有车轮（wheelwheelwheelwheel），就很容易把摩托车和非摩托车区分），就很容易把摩托车和非摩托车区分），就很容易把摩托车和非摩托车区分），就很容易把摩托车和非摩托车区分开来，学习算法才能发挥作用。开来，学习算法才能发挥作用。开来，学习算法才能发挥作用。开来，学习算法才能发挥作用。深度学习及应用深度学习及应用1.4.2 1.4.2 1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特

62、征表示初级（浅层）特征表示既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？既然像素级的特征表示方法没有作用，那怎样的表示才有用呢？1995 1995 1995 1995 年前后，年前后，年前后，年前后，Bruno OlshausenBruno OlshausenBruno OlshausenBruno Olshausen和和和和 David Field David Field David Field David Field 两位学者任职两位学者任职两位学者任职两位学者任职 C

63、ornell Cornell Cornell Cornell UniversityUniversityUniversityUniversity，他们试图同时用生理学和计算机的手段，双管齐下，研究视觉，他们试图同时用生理学和计算机的手段，双管齐下，研究视觉，他们试图同时用生理学和计算机的手段，双管齐下，研究视觉，他们试图同时用生理学和计算机的手段，双管齐下，研究视觉问题。问题。问题。问题。他们收集了很多黑白风景照片，从这些照片中，提取出他们收集了很多黑白风景照片，从这些照片中，提取出他们收集了很多黑白风景照片，从这些照片中，提取出他们收集了很多黑白风景照片，从这些照片中，提取出400400400

64、400个小碎片，每个小个小碎片，每个小个小碎片，每个小个小碎片，每个小碎片的尺寸均为碎片的尺寸均为碎片的尺寸均为碎片的尺寸均为 16x16 16x16 16x16 16x16 像素，不妨把这像素，不妨把这像素，不妨把这像素，不妨把这400400400400个碎片标记为个碎片标记为个碎片标记为个碎片标记为 Si, i = 0,. Si, i = 0,. Si, i = 0,. Si, i = 0,. 399399399399。接下来，再从这些黑白风景照片中，随机提取另一个碎片，尺寸也是。接下来，再从这些黑白风景照片中，随机提取另一个碎片，尺寸也是。接下来，再从这些黑白风景照片中，随机提取另一个碎

65、片，尺寸也是。接下来，再从这些黑白风景照片中，随机提取另一个碎片，尺寸也是 16x16 16x16 16x16 16x16 像素，不妨把这个碎片标记为像素，不妨把这个碎片标记为像素，不妨把这个碎片标记为像素，不妨把这个碎片标记为 T T T T。深度学习及应用深度学习及应用1.4.2 1.4.2 1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示他们提出的问题是，如何他们提出的问题是，如何他们提出的问题是，如何他们提出的问题是，如何从这从这从这从这400400400400个碎片中，选取一组碎片个碎片中，选取一组碎片个碎片中，选取一组碎片个碎

66、片中，选取一组碎片Sk, Sk, Sk, Sk, 通过叠加的通过叠加的通过叠加的通过叠加的办法，合成出一个新的碎片办法，合成出一个新的碎片办法，合成出一个新的碎片办法，合成出一个新的碎片，而，而，而，而这个新的碎片应当与随机选择的目标碎片这个新的碎片应当与随机选择的目标碎片这个新的碎片应当与随机选择的目标碎片这个新的碎片应当与随机选择的目标碎片T T T T尽尽尽尽可能相似可能相似可能相似可能相似，同时，同时，同时，同时，SkSkSkSk的数量尽可能少的数量尽可能少的数量尽可能少的数量尽可能少。用数学的语言来描述，就是：。用数学的语言来描述，就是：。用数学的语言来描述，就是：。用数学的语言来描

67、述，就是：Sum_k (ak * Sk) - TSum_k (ak * Sk) - TSum_k (ak * Sk) - TSum_k (ak * Sk) - T, , , , 其中其中其中其中 ak ak ak ak 是在叠加碎片是在叠加碎片是在叠加碎片是在叠加碎片 Sk Sk Sk Sk 时的时的时的时的权重系数权重系数权重系数权重系数。为解决这个问题，为解决这个问题，为解决这个问题，为解决这个问题，Bruno OlshausenBruno OlshausenBruno OlshausenBruno Olshausen和和和和 David Field David Field David F

68、ield David Field 发明了一个算法，稀疏发明了一个算法，稀疏发明了一个算法，稀疏发明了一个算法，稀疏编码（编码（编码（编码（Sparse CodingSparse CodingSparse CodingSparse Coding）。）。）。）。深度学习及应用深度学习及应用1.4.2 1.4.2 1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示稀疏编码是一个重复迭代的过程，每次迭代分两步：稀疏编码是一个重复迭代的过程，每次迭代分两步：稀疏编码是一个重复迭代的过程，每次迭代分两步：稀疏编码是一个重复迭代的过程，每次迭代分两步：1

69、 1 1 1）选择一组）选择一组）选择一组）选择一组 Sk Sk Sk Sk，然后调整，然后调整，然后调整，然后调整 ak ak ak ak，使得，使得，使得，使得Sum_k (ak * Sk) Sum_k (ak * Sk) Sum_k (ak * Sk) Sum_k (ak * Sk) 最接近最接近最接近最接近 T T T T ；2 2 2 2）固定住）固定住）固定住）固定住 ak ak ak ak，在，在，在，在 400 400 400 400 个碎片中，选择其它更合适的碎片个碎片中，选择其它更合适的碎片个碎片中，选择其它更合适的碎片个碎片中，选择其它更合适的碎片SkSkSkSk，替代原

70、，替代原，替代原，替代原先的先的先的先的 Sk Sk Sk Sk，使得，使得，使得，使得Sum_k (ak * Sk) Sum_k (ak * Sk) Sum_k (ak * Sk) Sum_k (ak * Sk) 最接近最接近最接近最接近 T T T T 。经过几次迭代后，经过几次迭代后，经过几次迭代后，经过几次迭代后，最佳的最佳的最佳的最佳的 Sk Sk Sk Sk 组合被遴选出来组合被遴选出来组合被遴选出来组合被遴选出来。令人惊奇的是，。令人惊奇的是，。令人惊奇的是，。令人惊奇的是，被选中的被选中的被选中的被选中的 SkSkSkSk基本上都是照片上不同物体的边缘线，这些线段形状相似，区别

71、在于方基本上都是照片上不同物体的边缘线，这些线段形状相似，区别在于方基本上都是照片上不同物体的边缘线，这些线段形状相似，区别在于方基本上都是照片上不同物体的边缘线，这些线段形状相似，区别在于方向向向向。深度学习及应用深度学习及应用1.4.2 1.4.2 1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示Bruno OlshausenBruno OlshausenBruno OlshausenBruno Olshausen和和和和 David Field David Field David Field David Field 的算法结果，与的

72、算法结果，与的算法结果，与的算法结果，与 David Hubel David Hubel David Hubel David Hubel 和和和和Torsten Torsten Torsten Torsten Wiesel Wiesel Wiesel Wiesel 的生理发现，不谋而合！的生理发现，不谋而合！的生理发现，不谋而合！的生理发现，不谋而合！也就是说，复杂图形往往由一些基本结构组成。比如下图：一个图可以通过也就是说，复杂图形往往由一些基本结构组成。比如下图：一个图可以通过也就是说，复杂图形往往由一些基本结构组成。比如下图：一个图可以通过也就是说，复杂图形往往由一些基本结构组成。比如下

73、图：一个图可以通过用用用用64646464种正交的种正交的种正交的种正交的edgesedgesedgesedges（可以理解成正交的基本结构）来线性表示。比如样例的（可以理解成正交的基本结构）来线性表示。比如样例的（可以理解成正交的基本结构）来线性表示。比如样例的（可以理解成正交的基本结构）来线性表示。比如样例的x x x x可以用可以用可以用可以用1-641-641-641-64个个个个edgesedgesedgesedges中的三个按照中的三个按照中的三个按照中的三个按照0.8,0.3,0.50.8,0.3,0.50.8,0.3,0.50.8,0.3,0.5的权重调和而成。而其他基本的权重

74、调和而成。而其他基本的权重调和而成。而其他基本的权重调和而成。而其他基本edgeedgeedgeedge没有贡献，因此均为没有贡献，因此均为没有贡献，因此均为没有贡献，因此均为0 0 0 0 。深度学习及应用深度学习及应用深度学习及应用深度学习及应用1.4.2 1.4.2 1.4.2 1.4.2 初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示初级（浅层）特征表示另外，许多专家还发现，不仅图像存在这个规律，声音也存在。他们从未标另外，许多专家还发现，不仅图像存在这个规律，声音也存在。他们从未标另外，许多专家还发现，不仅图像存在这个规律，声音也存在。他们从未标另外，许多专家还发现，不

75、仅图像存在这个规律，声音也存在。他们从未标注的声音中发现了注的声音中发现了注的声音中发现了注的声音中发现了20202020种基本的声音结构，其余的声音可以由这种基本的声音结构，其余的声音可以由这种基本的声音结构，其余的声音可以由这种基本的声音结构，其余的声音可以由这20202020种基本结构种基本结构种基本结构种基本结构合成。合成。合成。合成。深度学习及应用深度学习及应用深度学习及应用深度学习及应用1.4.3 1.4.3 1.4.3 1.4.3 结构性特征表示结构性特征表示结构性特征表示结构性特征表示小块的图形可以由基本小块的图形可以由基本小块的图形可以由基本小块的图形可以由基本edgeedg

76、eedgeedge构成，更结构化，更复杂的，具有概念性的图形构成，更结构化，更复杂的，具有概念性的图形构成，更结构化，更复杂的，具有概念性的图形构成，更结构化，更复杂的，具有概念性的图形如何表示呢？如何表示呢？如何表示呢？如何表示呢？这就需要更高层次的特征表示，比如这就需要更高层次的特征表示，比如这就需要更高层次的特征表示，比如这就需要更高层次的特征表示，比如V2V2V2V2，V4V4V4V4。因此。因此。因此。因此V1V1V1V1看像素级是像素级。看像素级是像素级。看像素级是像素级。看像素级是像素级。V2V2V2V2看看看看V1V1V1V1是像素级，这个是层次递进的，高层表达由底层表达的组合

77、而成。是像素级，这个是层次递进的，高层表达由底层表达的组合而成。是像素级，这个是层次递进的，高层表达由底层表达的组合而成。是像素级，这个是层次递进的，高层表达由底层表达的组合而成。专业点说就是基专业点说就是基专业点说就是基专业点说就是基basisbasisbasisbasis。V1V1V1V1区提出的区提出的区提出的区提出的basisbasisbasisbasis是边缘，然后是边缘，然后是边缘，然后是边缘，然后V2V2V2V2层是层是层是层是V1V1V1V1层这些层这些层这些层这些basisbasisbasisbasis的组合，这时候的组合，这时候的组合，这时候的组合，这时候V2V2V2V2区

78、得到的又是高一层的区得到的又是高一层的区得到的又是高一层的区得到的又是高一层的basisbasisbasisbasis，上上层又是上一层的组合，上上层又是上一层的组合，上上层又是上一层的组合，上上层又是上一层的组合basisbasisbasisbasis结果结果结果结果.所以有专家说所以有专家说所以有专家说所以有专家说Deep learningDeep learningDeep learningDeep learning就是就是就是就是“搞基搞基搞基搞基”，因为难听，所以美其名曰，因为难听，所以美其名曰，因为难听，所以美其名曰，因为难听，所以美其名曰Deep Deep Deep Deep le

79、arninglearninglearninglearning或者或者或者或者Unsupervised Feature Learning.Unsupervised Feature Learning.Unsupervised Feature Learning.Unsupervised Feature Learning.深度学习及应用深度学习及应用1.4.3 1.4.3 1.4.3 1.4.3 结构性特征表示结构性特征表示结构性特征表示结构性特征表示直观上说，就是找到有意义的小碎片（直观上说，就是找到有意义的小碎片（直观上说，就是找到有意义的小碎片（直观上说，就是找到有意义的小碎片（patchpat

80、chpatchpatch），再将其进行组合），再将其进行组合），再将其进行组合），再将其进行组合（combinecombinecombinecombine），就得到了上一层的特征（），就得到了上一层的特征（），就得到了上一层的特征（），就得到了上一层的特征（featurefeaturefeaturefeature），递归地向上学习特征），递归地向上学习特征），递归地向上学习特征），递归地向上学习特征（learning featurelearning featurelearning featurelearning feature）。）。）。）。深度学习及应用深度学习及应用1.4.3 1.4.3

81、1.4.3 1.4.3 结构性特征表示结构性特征表示结构性特征表示结构性特征表示在不同对象（在不同对象（在不同对象（在不同对象（objectobjectobjectobject）上做训练时，所得的边缘基（）上做训练时，所得的边缘基（）上做训练时，所得的边缘基（）上做训练时，所得的边缘基（edge basisedge basisedge basisedge basis）是非常相）是非常相）是非常相）是非常相似的，但对象部分（似的，但对象部分（似的，但对象部分（似的，但对象部分（object partsobject partsobject partsobject parts）和模式（）和模式（）和

82、模式（）和模式（modelsmodelsmodelsmodels）完全不同。这样便于完全不同。这样便于完全不同。这样便于完全不同。这样便于图像的准确识别。图像的准确识别。图像的准确识别。图像的准确识别。深度学习及应用深度学习及应用1.4.3 1.4.3 1.4.3 1.4.3 结构性特征表示结构性特征表示结构性特征表示结构性特征表示从文本来说，一个从文本来说，一个从文本来说，一个从文本来说，一个docdocdocdoc文档表示什么意思？我们描述一件事情，用什么来表文档表示什么意思？我们描述一件事情，用什么来表文档表示什么意思？我们描述一件事情，用什么来表文档表示什么意思？我们描述一件事情，用

83、什么来表示比较合适？示比较合适？示比较合适？示比较合适？用一个一个用一个一个用一个一个用一个一个字字字字嘛嘛嘛嘛? ? ? ?不是，字就是像素级别了，起码应该是不是，字就是像素级别了，起码应该是不是，字就是像素级别了，起码应该是不是，字就是像素级别了，起码应该是termtermtermterm（术语（术语（术语（术语/ / / /词组）词组）词组）词组），换句话说每个换句话说每个换句话说每个换句话说每个docdocdocdoc都由都由都由都由termtermtermterm构成构成构成构成; ; ; ;但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到但这样表示概念的能力就够了嘛，可

84、能也不够，需要再上一步，达到但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到但这样表示概念的能力就够了嘛，可能也不够，需要再上一步，达到topictopictopictopic级，级，级，级，有了有了有了有了topictopictopictopic，再到，再到，再到，再到docdocdocdoc就合理。就合理。就合理。就合理。但每个层次的数量差距很大，比如但每个层次的数量差距很大，比如但每个层次的数量差距很大，比如但每个层次的数量差距很大，比如docdocdocdoc表示的概念表示的概念表示的概念表示的概念-topictopictopictopic（千（千（千（千- - - -万量

85、级）万量级）万量级）万量级）- - - - termtermtermterm（10101010万量级）万量级）万量级）万量级）-wordwordwordword（百万量级）。（百万量级）。（百万量级）。（百万量级）。一个人在看一个一个人在看一个一个人在看一个一个人在看一个docdocdocdoc的时候，眼睛看到的是的时候，眼睛看到的是的时候，眼睛看到的是的时候，眼睛看到的是wordwordwordword，由这些，由这些，由这些，由这些wordwordwordword在大脑里自动切在大脑里自动切在大脑里自动切在大脑里自动切词形成词形成词形成词形成termtermtermterm，在按照概念组织

86、的方式，先验的学习，得到，在按照概念组织的方式，先验的学习，得到，在按照概念组织的方式，先验的学习，得到，在按照概念组织的方式，先验的学习，得到topictopictopictopic，然后再进行，然后再进行，然后再进行，然后再进行高层次的高层次的高层次的高层次的learninglearninglearninglearning。深度学习及应用深度学习及应用1.4.4 1.4.4 1.4.4 1.4.4 需要有多少个特征需要有多少个特征需要有多少个特征需要有多少个特征我们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？我们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？我

87、们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？我们知道需要层次的特征构建，由浅入深，但每一层该有多少个特征呢？任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但任何一种方法，特征越多，给出的参考信息就越多，准确性会得到提升。但特征多意味着计算复杂，探索的空间大，可以用来训练的数据在每个特征上特征多意味着计算复杂，探索的空间大，可以用来训练的数据在每个特征上特征多意味着计算复杂，探索的空间大，可以用来训练的数据在每个特征上特征多意味着

88、计算复杂，探索的空间大，可以用来训练的数据在每个特征上就会稀疏就会稀疏就会稀疏就会稀疏，都会带来各种问题，并不一定特征越多越好。，都会带来各种问题，并不一定特征越多越好。，都会带来各种问题，并不一定特征越多越好。，都会带来各种问题，并不一定特征越多越好。深度学习及应用深度学习及应用深度学习及应用深度学习及应用小小小小结结结结上面我们谈到为什么会有上面我们谈到为什么会有上面我们谈到为什么会有上面我们谈到为什么会有Deep learningDeep learningDeep learningDeep learning（让机器自动学习良好的特征，而免（让机器自动学习良好的特征，而免（让机器自动学习

89、良好的特征，而免（让机器自动学习良好的特征，而免去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就是是是是Deep learningDeep learningDeep learningDeep learning需要多层来获得更抽象的特征表达需要多层来获得更抽象的特征表达需要多层来获得更抽象的特征表达需要多层来获得更抽象的特征表达。那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督

90、训练呢？那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？深度学习及应用深度学习及应用1.5 1.5 1.5 1.5 深度学习的基本思想深度学习的基本思想深度学习的基本思想深度学习的基本思想假设我们有一个系统假设我们有一个系统假设我们有一个系统假设我们有一个系统S S S S，它有，它有，它有，它有n n n n层（层（层（层（S1,SnS1,SnS1,SnS1,Sn），它的输入是），它的输入是），它的输入是），它的输入是I I I I，输出是，输出是，输出是

91、，输出是O O O O，形象，形象，形象，形象地表示为：地表示为：地表示为：地表示为： I =S1=S2=.=Sn = O I =S1=S2=.=Sn = O I =S1=S2=.=Sn = O I =S1=S2=.=Sn = O，如果输出，如果输出，如果输出，如果输出O O O O等于输入等于输入等于输入等于输入I I I I，即输入，即输入，即输入，即输入I I I I经经经经过这个系统变化之后没有任何的信息损失。这意味着输入过这个系统变化之后没有任何的信息损失。这意味着输入过这个系统变化之后没有任何的信息损失。这意味着输入过这个系统变化之后没有任何的信息损失。这意味着输入I I I I经

92、过每一层经过每一层经过每一层经过每一层SiSiSiSi都没都没都没都没有任何的信息损失，即在任何一层有任何的信息损失，即在任何一层有任何的信息损失，即在任何一层有任何的信息损失，即在任何一层SiSiSiSi，它都是原有信息（即输入，它都是原有信息（即输入，它都是原有信息（即输入，它都是原有信息（即输入I I I I）的另外一）的另外一）的另外一）的另外一种表示。种表示。种表示。种表示。现在回到我们的主题现在回到我们的主题现在回到我们的主题现在回到我们的主题Deep LearningDeep LearningDeep LearningDeep Learning，我们需要自动地学习特征，假设我们有

93、，我们需要自动地学习特征，假设我们有，我们需要自动地学习特征，假设我们有，我们需要自动地学习特征，假设我们有一堆输入一堆输入一堆输入一堆输入I I I I（如一堆图像或者文本），假设我们设计了一个系统（如一堆图像或者文本），假设我们设计了一个系统（如一堆图像或者文本），假设我们设计了一个系统（如一堆图像或者文本），假设我们设计了一个系统S S S S（有（有（有（有n n n n层），层），层），层），我们通过调整系统中参数，使得它的输出仍然是输入我们通过调整系统中参数，使得它的输出仍然是输入我们通过调整系统中参数，使得它的输出仍然是输入我们通过调整系统中参数，使得它的输出仍然是输入I I I

94、 I，那么我们就可以自动，那么我们就可以自动，那么我们就可以自动，那么我们就可以自动地获取得到输入地获取得到输入地获取得到输入地获取得到输入I I I I的一系列层次特征，即的一系列层次特征，即的一系列层次特征，即的一系列层次特征，即S1S1S1S1，, Sn, Sn, Sn, Sn。深度学习及应用深度学习及应用1.5 1.5 1.5 1.5 深度学习的基本思想深度学习的基本思想深度学习的基本思想深度学习的基本思想对于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为对于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为对于深度学习来说，其思想就是对堆叠多个层，也就是说

95、这一层的输出作为对于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微

96、地放松这个限制，例如放松这个限制，例如放松这个限制，例如放松这个限制，例如我们只要使得输入与输出的差别尽可能地小即可我们只要使得输入与输出的差别尽可能地小即可我们只要使得输入与输出的差别尽可能地小即可我们只要使得输入与输出的差别尽可能地小即可，这个，这个，这个，这个放松会导致另外一类不同的放松会导致另外一类不同的放松会导致另外一类不同的放松会导致另外一类不同的Deep LearningDeep LearningDeep LearningDeep Learning方法。上述就是方法。上述就是方法。上述就是方法。上述就是Deep LearningDeep LearningDeep Learning

97、Deep Learning的的的的基本思想。基本思想。基本思想。基本思想。深度学习及应用深度学习及应用1.6 1.6 1.6 1.6 浅层学习和深度学习浅层学习和深度学习浅层学习和深度学习浅层学习和深度学习1.6.1 1.6.1 1.6.1 1.6.1 浅层学习（浅层学习（浅层学习（浅层学习（Shallow LearningShallow LearningShallow LearningShallow Learning）：机器学习第一次浪潮）：机器学习第一次浪潮）：机器学习第一次浪潮）：机器学习第一次浪潮1.6.2 1.6.2 1.6.2 1.6.2 深度学习（深度学习（深度学习（深度学习（D

98、eep LearningDeep LearningDeep LearningDeep Learning）：机器学习第二次浪潮）：机器学习第二次浪潮）：机器学习第二次浪潮）：机器学习第二次浪潮深度学习及应用深度学习及应用1.6.1 1.6.1 1.6.1 1.6.1 浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮20202020世纪世纪世纪世纪80808080年代末期，用于人工神经网络的反向传播算法（也叫年代末期，用于人工神经网络的反向传播算法（也叫年代末期，用于人工神经网络的反向传播算法（也叫年代末期，用于人工神经网络的反向传播

99、算法（也叫Back Back Back Back PropagationPropagationPropagationPropagation算法或者算法或者算法或者算法或者BPBPBPBP算法）的发明，给机器学习带来了希望，掀起了算法）的发明，给机器学习带来了希望，掀起了算法）的发明，给机器学习带来了希望，掀起了算法）的发明，给机器学习带来了希望，掀起了基于基于基于基于统计模型的机器学习统计模型的机器学习统计模型的机器学习统计模型的机器学习热潮。这个热潮一直持续到今天。热潮。这个热潮一直持续到今天。热潮。这个热潮一直持续到今天。热潮。这个热潮一直持续到今天。人们发现，利用人们发现，利用人们发现，

100、利用人们发现，利用BPBPBPBP算法可以算法可以算法可以算法可以让一个人工神经网络模型从大量训练样本中学习让一个人工神经网络模型从大量训练样本中学习让一个人工神经网络模型从大量训练样本中学习让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件做预测统计规律，从而对未知事件做预测统计规律，从而对未知事件做预测统计规律，从而对未知事件做预测。这种基于统计的机器学习方法比起过去。这种基于统计的机器学习方法比起过去。这种基于统计的机器学习方法比起过去。这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显出优越性。基于人工规则的系统，在很多方面显出优越性。基于人工规则的系统

101、，在很多方面显出优越性。基于人工规则的系统，在很多方面显出优越性。这个时候的人工神经网络，虽也被称作多层感知机（这个时候的人工神经网络，虽也被称作多层感知机（这个时候的人工神经网络，虽也被称作多层感知机（这个时候的人工神经网络，虽也被称作多层感知机（Multi-layer Multi-layer Multi-layer Multi-layer PerceptronPerceptronPerceptronPerceptron），但实际是一种），但实际是一种），但实际是一种），但实际是一种只含有一层隐层节点的浅层模型只含有一层隐层节点的浅层模型只含有一层隐层节点的浅层模型只含有一层隐层节点的浅层模

102、型。深度学习及应用深度学习及应用1.6.1 1.6.1 1.6.1 1.6.1 浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮浅层学习：机器学习第一次浪潮20202020世纪世纪世纪世纪90909090年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机（SVMSVMSVMSVM，Support Vector MachinesSupport Vector MachinesSupp

103、ort Vector MachinesSupport Vector Machines）、）、）、）、 Boosting Boosting Boosting Boosting、最大熵方法（如、最大熵方法（如、最大熵方法（如、最大熵方法（如LRLRLRLR，Logistic RegressionLogistic RegressionLogistic RegressionLogistic Regression）等。）等。）等。）等。这些模型的结构基本上可以看成带有一层隐层节点（如这些模型的结构基本上可以看成带有一层隐层节点（如这些模型的结构基本上可以看成带有一层隐层节点（如这些模型的结构基本上可以看

104、成带有一层隐层节点（如SVMSVMSVMSVM、BoostingBoostingBoostingBoosting），或），或），或），或没有隐层节点（如没有隐层节点（如没有隐层节点（如没有隐层节点（如LRLRLRLR）。这些模型无论是在理论分析还是应用中都获得了巨）。这些模型无论是在理论分析还是应用中都获得了巨）。这些模型无论是在理论分析还是应用中都获得了巨）。这些模型无论是在理论分析还是应用中都获得了巨大的成功。大的成功。大的成功。大的成功。相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个相比之下，由于理论分

105、析的难度大，训练方法又需要很多经验和技巧，这个相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个时期深度人工神经网络反而相对沉寂。时期深度人工神经网络反而相对沉寂。时期深度人工神经网络反而相对沉寂。时期深度人工神经网络反而相对沉寂。深度学习及应用深度学习及应用1.6.2 1.6.2 1.6.2 1.6.2 深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮2006200620062006年，加拿大多伦多大学教授、机器学习领域的泰斗年，加拿大多伦多大学教授、机器学习领域的泰斗年，加拿大多伦多大学教授、机器学习领域的泰斗

106、年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey HintonGeoffrey HintonGeoffrey HintonGeoffrey Hinton和他和他和他和他的学生的学生的学生的学生Ruslan Salak hutdinovRuslan Salak hutdinovRuslan Salak hutdinovRuslan Salak hutdinov在国际顶级期刊科学上发表了一篇文章，在国际顶级期刊科学上发表了一篇文章，在国际顶级期刊科学上发表了一篇文章，在国际顶级期刊科学上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。开启了深度学习在学术界和工业界的浪潮。开启了深

107、度学习在学术界和工业界的浪潮。开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点：这篇文章有两个主要观点：这篇文章有两个主要观点：这篇文章有两个主要观点：1 1 1 1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；有更本质的刻画，从而有利于可视化或分类；有更本质的刻画，从而有利于可视化或分类；有更本质的刻画，从而有利于可视化或分类

108、；2 2 2 2）深度神经网络在训练上的难度，可以通过）深度神经网络在训练上的难度，可以通过）深度神经网络在训练上的难度，可以通过）深度神经网络在训练上的难度，可以通过“逐层初始化逐层初始化逐层初始化逐层初始化”（layer-wise layer-wise layer-wise layer-wise pre-trainingpre-trainingpre-trainingpre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习）来有效克服，在这篇文章中，逐层初始化是通过无监督学习）来有效克服，在这篇文章中，逐层初始化是通过无监督学习）来有效克服，在这篇文章中，逐层初始化是

109、通过无监督学习实现的。实现的。实现的。实现的。深度学习及应用深度学习及应用当前多数分类、回归等学习方法为浅层结构算法，其局限性在于当前多数分类、回归等学习方法为浅层结构算法，其局限性在于当前多数分类、回归等学习方法为浅层结构算法，其局限性在于当前多数分类、回归等学习方法为浅层结构算法，其局限性在于有限样本和有限样本和有限样本和有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能

110、力受到一定制约受到一定制约受到一定制约受到一定制约。深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了入数据分布式表示，并展现了入数据分布式表示，并展现了入数据分布式表示，并展现了强大的从少数样本中集中学习数据集本质特征强大的从少数样本中集中学习数据集本质特征强大的从少数样本中集中学习数据集本质特征强大的从少数样本中集中学习数据集本质特征的能力的能力的能力的

111、能力。（多层的好处是可以用较少的参数表示复杂的函数）。（多层的好处是可以用较少的参数表示复杂的函数）。（多层的好处是可以用较少的参数表示复杂的函数）。（多层的好处是可以用较少的参数表示复杂的函数）1.6.2 1.6.2 1.6.2 1.6.2 深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习及应用深度学习及应用1.6.2 1.6.2 1.6.2 1.6.2 深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习及应用深度学习及应用深度学习的实质，是深度学习的

112、实质，是深度学习的实质，是深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数通过构建具有很多隐层的机器学习模型和海量的训练数通过构建具有很多隐层的机器学习模型和海量的训练数通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性据，来学习更有用的特征，从而最终提升分类或预测的准确性据，来学习更有用的特征，从而最终提升分类或预测的准确性据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，。因此，。因此，。因此，“深深深深度模型度模型度模型度模型”是手段，是手段，是手段，是手段，“特征学习特征学习特征学习特征学习”是目的。是目

113、的。是目的。是目的。区别于传统的浅层学习，深度学习的不同在于：区别于传统的浅层学习，深度学习的不同在于：区别于传统的浅层学习，深度学习的不同在于：区别于传统的浅层学习，深度学习的不同在于：1 1 1 1）强调了）强调了）强调了）强调了模型结构的深度模型结构的深度模型结构的深度模型结构的深度，通常有，通常有，通常有，通常有5 5 5 5层、层、层、层、6 6 6 6层，甚至层，甚至层，甚至层，甚至10101010多层的隐层节点；多层的隐层节点；多层的隐层节点；多层的隐层节点；2 2 2 2）明确突出了）明确突出了）明确突出了）明确突出了特征学习的重要性特征学习的重要性特征学习的重要性特征学习的重

114、要性，也就是说，通过逐层特征变换，将样本在，也就是说，通过逐层特征变换，将样本在，也就是说，通过逐层特征变换，将样本在，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的人工规则构造特征的方法相比，利用大数据来学习特征

115、，更能够刻画数据的人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。丰富内在信息。丰富内在信息。丰富内在信息。1.6.2 1.6.2 1.6.2 1.6.2 深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习：机器学习第二次浪潮深度学习及应用深度学习及应用1.7 Deep learning1.7 Deep learning1.7 Deep learning1.7 Deep learning与与与与Neural NetworkNeural NetworkNeural NetworkNeural Network深度学习是机器学

116、习研究中的一个新的领域，其动机在于深度学习是机器学习研究中的一个新的领域，其动机在于深度学习是机器学习研究中的一个新的领域，其动机在于深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进建立、模拟人脑进建立、模拟人脑进建立、模拟人脑进行分析学习的神经网络行分析学习的神经网络行分析学习的神经网络行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和，它模仿人脑的机制来解释数据，例如图像，声音和，它模仿人脑的机制来解释数据，例如图像，声音和，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习是无监督学习的一种。文本。深度学习是无监督学习的一种。文本。深度学习是无监

117、督学习的一种。文本。深度学习是无监督学习的一种。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习深度学习结构。深度学习深度学习结构。深度学习深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类通过组合低层特征形成更加抽象的高层表示属性类通过组合低层特征形成更加抽象的高层表示属性类通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分

118、布式特征表示别或特征，以发现数据的分布式特征表示别或特征，以发现数据的分布式特征表示别或特征，以发现数据的分布式特征表示。深度学习及应用深度学习及应用Deep learningDeep learningDeep learningDeep learning本身算是本身算是本身算是本身算是machine learningmachine learningmachine learningmachine learning的一个分支，简单可以理解为的一个分支，简单可以理解为的一个分支，简单可以理解为的一个分支，简单可以理解为neural networkneural networkneural networ

119、kneural network的发展。大约二三十年前，的发展。大约二三十年前，的发展。大约二三十年前，的发展。大约二三十年前，neural networkneural networkneural networkneural network曾经是曾经是曾经是曾经是MLMLMLML领域特领域特领域特领域特别火热的一个方向，但是后来确慢慢淡出了，原因包括以下几个方面：别火热的一个方向，但是后来确慢慢淡出了，原因包括以下几个方面：别火热的一个方向，但是后来确慢慢淡出了，原因包括以下几个方面：别火热的一个方向，但是后来确慢慢淡出了，原因包括以下几个方面：1 1 1 1）比较容易过拟合，参数比较难调整，而

120、且需要不少窍门；）比较容易过拟合，参数比较难调整，而且需要不少窍门；）比较容易过拟合，参数比较难调整，而且需要不少窍门；）比较容易过拟合，参数比较难调整，而且需要不少窍门；2 2 2 2）训练速度比较慢，在层次比较少（小于等于）训练速度比较慢，在层次比较少（小于等于）训练速度比较慢，在层次比较少（小于等于）训练速度比较慢，在层次比较少（小于等于3 3 3 3）的情况下效果并不比其它）的情况下效果并不比其它）的情况下效果并不比其它）的情况下效果并不比其它方法更优；方法更优；方法更优；方法更优；1.7 Deep learning1.7 Deep learning1.7 Deep learning1

121、.7 Deep learning与与与与Neural NetworkNeural NetworkNeural NetworkNeural Network深度学习及应用深度学习及应用所以中间有大约所以中间有大约所以中间有大约所以中间有大约20202020多年的时间，神经网络被关注很少，这段时间基本上是多年的时间，神经网络被关注很少，这段时间基本上是多年的时间，神经网络被关注很少，这段时间基本上是多年的时间，神经网络被关注很少，这段时间基本上是SVMSVMSVMSVM和和和和boostingboostingboostingboosting算法的天下。算法的天下。算法的天下。算法的天下。但是，一个痴

122、心的老先生但是，一个痴心的老先生但是，一个痴心的老先生但是，一个痴心的老先生HintonHintonHintonHinton，他坚持了下来，并最终（和其它人一起，他坚持了下来，并最终（和其它人一起，他坚持了下来，并最终（和其它人一起，他坚持了下来，并最终（和其它人一起BengioBengioBengioBengio、Yann.lecunYann.lecunYann.lecunYann.lecun等）提成了一个实际可行的等）提成了一个实际可行的等）提成了一个实际可行的等）提成了一个实际可行的deep learningdeep learningdeep learningdeep learning框

123、架。框架。框架。框架。1.7 Deep learning1.7 Deep learning1.7 Deep learning1.7 Deep learning与与与与Neural NetworkNeural NetworkNeural NetworkNeural Network深度学习及应用深度学习及应用Deep learningDeep learningDeep learningDeep learning与传统的神经网络之间有相同的地方也有很多不同。与传统的神经网络之间有相同的地方也有很多不同。与传统的神经网络之间有相同的地方也有很多不同。与传统的神经网络之间有相同的地方也有很多不同。相同点

124、：相同点：相同点：相同点：deep learningdeep learningdeep learningdeep learning采用了神经网络相似的分层结构，系统由包括输入层、采用了神经网络相似的分层结构，系统由包括输入层、采用了神经网络相似的分层结构，系统由包括输入层、采用了神经网络相似的分层结构，系统由包括输入层、隐层（多层）、输出层组成的多层网络，隐层（多层）、输出层组成的多层网络，隐层（多层）、输出层组成的多层网络，隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接只有相邻层节点之间有连接只有相邻层节点之间有连接只有相邻层节点之间有连接，同一，同一，同一，同一层以及跨层节点

125、之间相互无连接，层以及跨层节点之间相互无连接，层以及跨层节点之间相互无连接，层以及跨层节点之间相互无连接，每一层可以看作是一个逻辑回归模型每一层可以看作是一个逻辑回归模型每一层可以看作是一个逻辑回归模型每一层可以看作是一个逻辑回归模型；这；这；这；这种分层结构，是种分层结构，是种分层结构，是种分层结构，是比较接近人类大脑的结构比较接近人类大脑的结构比较接近人类大脑的结构比较接近人类大脑的结构的。的。的。的。1.7 Deep learning1.7 Deep learning1.7 Deep learning1.7 Deep learning与与与与Neural NetworkNeural Ne

126、tworkNeural NetworkNeural Network深度学习及应用深度学习及应用1.7 Deep learning1.7 Deep learning1.7 Deep learning1.7 Deep learning与与与与Neural NetworkNeural NetworkNeural NetworkNeural Network深度学习及应用深度学习及应用而为了克服神经网络训练中的问题，而为了克服神经网络训练中的问题，而为了克服神经网络训练中的问题，而为了克服神经网络训练中的问题，DLDLDLDL采用了与神经网络很不同的训练机制。采用了与神经网络很不同的训练机制。采用了与神

127、经网络很不同的训练机制。采用了与神经网络很不同的训练机制。传统神经网络中，采用的是反向传播（传统神经网络中，采用的是反向传播（传统神经网络中，采用的是反向传播（传统神经网络中，采用的是反向传播（BPBPBPBP）的方式进行。即采用迭代的算法）的方式进行。即采用迭代的算法）的方式进行。即采用迭代的算法）的方式进行。即采用迭代的算法来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前计算来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前计算来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前计算来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前计算的输出

128、值和实际的标记值之间的差去改变前面各层的参数，直到收敛（整体的输出值和实际的标记值之间的差去改变前面各层的参数，直到收敛（整体的输出值和实际的标记值之间的差去改变前面各层的参数，直到收敛（整体的输出值和实际的标记值之间的差去改变前面各层的参数，直到收敛（整体是一个梯度下降法）。是一个梯度下降法）。是一个梯度下降法）。是一个梯度下降法）。deep learningdeep learningdeep learningdeep learning整体上是一个整体上是一个整体上是一个整体上是一个layer-wiselayer-wiselayer-wiselayer-wise的训练机制。这样做的原因是因为

129、，的训练机制。这样做的原因是因为，的训练机制。这样做的原因是因为，的训练机制。这样做的原因是因为，如果采用如果采用如果采用如果采用back propagationback propagationback propagationback propagation的机制，对于一个的机制，对于一个的机制，对于一个的机制，对于一个deep networkdeep networkdeep networkdeep network（7 7 7 7层以上），残层以上），残层以上），残层以上），残差传播到最前面的层已经变得太小，出现所谓的差传播到最前面的层已经变得太小，出现所谓的差传播到最前面的层已经变得太小，出

130、现所谓的差传播到最前面的层已经变得太小，出现所谓的gradient diffusiongradient diffusiongradient diffusiongradient diffusion（梯度（梯度（梯度（梯度扩散）。这个问题在后面有所讨论。扩散）。这个问题在后面有所讨论。扩散）。这个问题在后面有所讨论。扩散）。这个问题在后面有所讨论。Deep learningDeep learningDeep learningDeep learning与与与与Neural NetworkNeural NetworkNeural NetworkNeural Network异同异同异同异同深度学习及应用

131、深度学习及应用1.8 Deep learning1.8 Deep learning1.8 Deep learning1.8 Deep learning训练过程训练过程训练过程训练过程1.8.1 1.8.1 1.8.1 1.8.1 传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning训练过程训练过程训练过程训

132、练过程深度学习及应用深度学习及应用1.8.1 1.8.1 1.8.1 1.8.1 传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络BPBPBPBP算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练方法就已经很不理想。方法就已经很不理想。方法就已经很不

133、理想。方法就已经很不理想。深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源。部最小是训练困难的主要来源。部最小是训练困难的主要来源。部最小是训练困难的主要来源。深度学习及应用深度学习及应用BPBPBPBP算法存在的问题：算法存在的问题：算法存在的问题：算法存在的问题：（1 1 1 1）梯度越来越稀疏梯度越来越稀疏梯度越来越稀疏梯度越来越稀疏：从顶层越往下，

134、误差校正信号越来越小；：从顶层越往下，误差校正信号越来越小；：从顶层越往下，误差校正信号越来越小；：从顶层越往下，误差校正信号越来越小；（2 2 2 2）收敛到局部最小值收敛到局部最小值收敛到局部最小值收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化：尤其是从远离最优区域开始的时候（随机值初始化：尤其是从远离最优区域开始的时候（随机值初始化：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）；会导致这种情况的发生）；会导致这种情况的发生）；会导致这种情况的发生）；（3 3 3 3）一般，我们）一般，我们）一般，我们）一般，我们只能用有标签的数据来训练只能用有标签的

135、数据来训练只能用有标签的数据来训练只能用有标签的数据来训练：但大部分的数据是没标签的，：但大部分的数据是没标签的，：但大部分的数据是没标签的，：但大部分的数据是没标签的，而大脑可以从没有标签的数据中学习；而大脑可以从没有标签的数据中学习；而大脑可以从没有标签的数据中学习；而大脑可以从没有标签的数据中学习；1.8.1 1.8.1 1.8.1 1.8.1 传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络传统神经网络的训练方法为什么不能用在深度神经网络深度学习及应用深度学习及应用1.8.2 deep le

136、arning1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning训练过程训练过程训练过程训练过程如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递。这会面临跟上面监督学习中相反的问题，会严重欠拟合（因为深逐层传递。这会面临跟上面监督学习中相反的问题，会严重欠拟合（因为深逐层传递。这会面临跟上面监督学习中相反的问题，

137、会严重欠拟合（因为深逐层传递。这会面临跟上面监督学习中相反的问题，会严重欠拟合（因为深度网络的神经元和参数太多了）。度网络的神经元和参数太多了）。度网络的神经元和参数太多了）。度网络的神经元和参数太多了）。深度学习及应用深度学习及应用1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning训练过程训练过程训练过程训练过程2006200620062006年，年，年，年，hintonhintonhintonhinton提出了在非监督数据上建立多层神经网络的一个有效方法，提出了在非监督数据上建立多层神经网

138、络的一个有效方法，提出了在非监督数据上建立多层神经网络的一个有效方法，提出了在非监督数据上建立多层神经网络的一个有效方法，简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示x x x x向上向上向上向上生成的高级表示生成的高级表示生成的高级表示生成的高级表示r r r r和该高级表示和该高级表示和该高级表示和该高级表示r r r r向下生成的向下生成的向下生成的向下生成的xxxx尽可能一致。方法是：

139、尽可能一致。方法是：尽可能一致。方法是：尽可能一致。方法是：1 1 1 1）首先逐层构建单层神经元，这样每次都是训练一个单层网络。）首先逐层构建单层神经元，这样每次都是训练一个单层网络。）首先逐层构建单层神经元，这样每次都是训练一个单层网络。）首先逐层构建单层神经元，这样每次都是训练一个单层网络。2 2 2 2）当所有层训练完后，）当所有层训练完后，）当所有层训练完后，）当所有层训练完后，HintonHintonHintonHinton使用使用使用使用wake-sleepwake-sleepwake-sleepwake-sleep算法进行调优。算法进行调优。算法进行调优。算法进行调优。深度学习

140、及应用深度学习及应用1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning训练过程训练过程训练过程训练过程将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其它层则变为了图模型。向上的权重用于网络，而其它层则变为了图模型。向上的权重用于网络，而其它层则变为了图模型。向上的权重用于

141、网络，而其它层则变为了图模型。向上的权重用于“认知认知认知认知”，向下的权重用，向下的权重用，向下的权重用，向下的权重用于于于于“生成生成生成生成”。然后然后然后然后使用使用使用使用Wake-SleepWake-SleepWake-SleepWake-Sleep算法调整所有的权重算法调整所有的权重算法调整所有的权重算法调整所有的权重。让认知和生成达成一致，也就是。让认知和生成达成一致，也就是。让认知和生成达成一致，也就是。让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。保证生成的最顶层表示能够尽可能正确的复原底层的结点。保证生成的最顶层表示能够尽可能正确的复原底

142、层的结点。保证生成的最顶层表示能够尽可能正确的复原底层的结点。比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。深度学习及应用深度学习及应用1.8.2 d

143、eep learning1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning训练过程训练过程训练过程训练过程Wake-SleepWake-SleepWake-SleepWake-Sleep算法分为醒（算法分为醒（算法分为醒（算法分为醒（wakewakewakewake）和睡（）和睡（）和睡（）和睡（sleepsleepsleepsleep）两个部分。）两个部分。）两个部分。）两个部分。1 1 1 1）wakewakewakewake阶段阶段阶段阶段：认知过程（从现实到概念），通过外界的特征和向上的权重：认知过程（从现实到概念），通过

144、外界的特征和向上的权重：认知过程（从现实到概念），通过外界的特征和向上的权重：认知过程（从现实到概念），通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改层间的下行权重（生成权重）。层间的下行权重（生成权重）。层间的下行权重（生成权重）。层间的下行权重（生成权重）。如：如：如：如：“如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这如果现实跟我想象

145、的不一样，改变我的权重使得我想象的东西就是这如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这样的样的样的样的”。深度学习及应用深度学习及应用1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning1.8.2 deep learning训练过程训练过程训练过程训练过程2 2 2 2）sleepsleepsleepsleep阶段阶段阶段阶段：生成过程（从概念到现实），通过顶层表示（醒时学得的概：生成过程（从概念到现实），通过顶层表示（醒时学得的概：生成过程（从概念到现实

146、），通过顶层表示（醒时学得的概：生成过程（从概念到现实），通过顶层表示（醒时学得的概念）和向下权重（生成权重），生成底层的状态，同时修改层间向上的权重。念）和向下权重（生成权重），生成底层的状态，同时修改层间向上的权重。念）和向下权重（生成权重），生成底层的状态，同时修改层间向上的权重。念）和向下权重（生成权重），生成底层的状态，同时修改层间向上的权重。如：如：如：如：“如果梦中的景象不是我脑中的相应概念，改变我的向上的权重（认知如果梦中的景象不是我脑中的相应概念，改变我的向上的权重（认知如果梦中的景象不是我脑中的相应概念，改变我的向上的权重（认知如果梦中的景象不是我脑中的相应概念，改变我的向

147、上的权重（认知权重）使得这种景象在我看来就是这个概念权重）使得这种景象在我看来就是这个概念权重）使得这种景象在我看来就是这个概念权重）使得这种景象在我看来就是这个概念”。深度学习及应用深度学习及应用deep learningdeep learningdeep learningdeep learning具体训练过程具体训练过程具体训练过程具体训练过程1 1 1 1）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）使用自下上升非监督学习（就是从底层开始，一层一层

148、的往顶层训练）2 2 2 2）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）对网络进行微调）对网络进行微调）对网络进行微调）深度学习及应用深度学习及应用1 1 1 1）使用自下上升非监督学习）使用自下上升非监督学习）使用自下上升非监督学习）使用自下上升非监督学习采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是采用无标定数据（有标定数据也可）

149、分层训练各层参数，这一步可以看作是采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看作是作是作是作是feature learningfeature learningfeature learningfeature learning过程）：过程）：过程）：过

150、程）：具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由于模型于模型于模型于模型capacitycapacitycapac

151、itycapacity的限制以及稀疏性约束，使得得到的模型能够学习到数据本的限制以及稀疏性约束，使得得到的模型能够学习到数据本的限制以及稀疏性约束，使得得到的模型能够学习到数据本的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到第身的结构，从而得到比输入更具有表示能力的特征；在学习得到第身的结构，从而得到比输入更具有表示能力的特征；在学习得到第身的结构，从而得到比输入更具有表示能力的特征；在学习得到第n-1n-1n-1n-1层后，层后，层后，层后，将将将将n-1n-1n-1n-1层的输出作为第层的输出作为第层的输出作为第层的输出作为第n

152、 n n n层的输入，训练第层的输入，训练第层的输入，训练第层的输入，训练第n n n n层，由此分别得到各层的参数；层，由此分别得到各层的参数；层，由此分别得到各层的参数；层，由此分别得到各层的参数；深度学习及应用深度学习及应用2 2 2 2）自顶向下的监督学习）自顶向下的监督学习）自顶向下的监督学习）自顶向下的监督学习基于第一步得到的各层参数进一步调整整个多层模型的参数，这一步是一个基于第一步得到的各层参数进一步调整整个多层模型的参数，这一步是一个基于第一步得到的各层参数进一步调整整个多层模型的参数，这一步是一个基于第一步得到的各层参数进一步调整整个多层模型的参数，这一步是一个有监督训练过

153、程；第一步类似神经网络的随机初始化初值过程，由于有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于DLDLDLDL的第的第的第的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；更接近全局最优，从而能够取得更好的效

154、果；更接近全局最优，从而能够取得更好的效果；更接近全局最优，从而能够取得更好的效果；所以，所以，所以，所以，deep learningdeep learningdeep learningdeep learning效果好很大程度上归功于第一步的效果好很大程度上归功于第一步的效果好很大程度上归功于第一步的效果好很大程度上归功于第一步的feature learningfeature learningfeature learningfeature learning过过过过程。程。程。程。深度学习及应用深度学习及应用1.9 Deep Learning1.9 Deep Learning1.9 Deep L

155、earning1.9 Deep Learning的常用模型或者方法的常用模型或者方法的常用模型或者方法的常用模型或者方法1.9.1 AutoEncoder 1.9.1 AutoEncoder 1.9.1 AutoEncoder 1.9.1 AutoEncoder 自动编码器自动编码器自动编码器自动编码器1.9.2 Sparse Coding 1.9.2 Sparse Coding 1.9.2 Sparse Coding 1.9.2 Sparse Coding 稀疏编码稀疏编码稀疏编码稀疏编码1.9.3 Restricted Boltzmann Machine (RBM) 1.9.3 Restr

156、icted Boltzmann Machine (RBM) 1.9.3 Restricted Boltzmann Machine (RBM) 1.9.3 Restricted Boltzmann Machine (RBM) 限制波尔兹曼机限制波尔兹曼机限制波尔兹曼机限制波尔兹曼机1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络1.9.5 Convolutional Neural N

157、etworks1.9.5 Convolutional Neural Networks1.9.5 Convolutional Neural Networks1.9.5 Convolutional Neural Networks卷积神经网络卷积神经网络卷积神经网络卷积神经网络深度学习及应用深度学习及应用1.9.1 AutoEncoder 1.9.1 AutoEncoder 1.9.1 AutoEncoder 1.9.1 AutoEncoder 自动编码器自动编码器自动编码器自动编码器Deep LearningDeep LearningDeep LearningDeep Learning最简单的一种

158、方法是利用人工神经网络的特点，人工神经网络最简单的一种方法是利用人工神经网络的特点，人工神经网络最简单的一种方法是利用人工神经网络的特点，人工神经网络最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANNANNANNANN）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。输

159、出与输入是相同的，然后训练调整其参数，得到每一层中的权重。输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入自然地，我们就得到了输入自然地，我们就得到了输入自然地，我们就得到了输入I I I I的几种不同表示（每一层代表一种表示），这些的几种不同表示（每一层代表一种表示），这些的几种不同表示（每一层代表一种表示），这些的几种不同表示（每一层代表一种表示），这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了表示就

160、是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像就像就像就像PCAPCAPCAPCA那样，找到可以代表原信息的主要成分。那样，找到可以代表原信息的主要成分。那样，找到可以代表原信息的主要成分。那样，找到可以代表原信息的主要成分。深度学习及应用深度学习及应用具体过程具体过程具体过程具体过程1 1 1 1）给定无标签数据，

161、用非监督学习学习特征）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习特征2 2 2 2）通过编码器产生特征，然后训练下一层，这样逐层训练）通过编码器产生特征，然后训练下一层，这样逐层训练）通过编码器产生特征，然后训练下一层，这样逐层训练）通过编码器产生特征，然后训练下一层，这样逐层训练3 3 3 3）有监督微调）有监督微调）有监督微调）有监督微调深度学习及应用深度学习及应用1 1 1 1）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习

162、特征在我们之前的神经网络中，如第一个图，我们输入的样本是有标签的，即在我们之前的神经网络中，如第一个图，我们输入的样本是有标签的，即在我们之前的神经网络中，如第一个图，我们输入的样本是有标签的，即在我们之前的神经网络中，如第一个图，我们输入的样本是有标签的，即（input, targetinput, targetinput, targetinput, target），这样我们根据当前输出和），这样我们根据当前输出和），这样我们根据当前输出和），这样我们根据当前输出和targettargettargettarget（labellabellabellabel）之间的差去）之间的差去）之间的差去）之

163、间的差去改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边的图。那么这个误差怎么得到呢？的图。那么这个误差怎么得到呢？的图。那么这个误差怎么得到呢？的图。那么这个误差怎么得到呢？深度学习及应用深度学习及应用1 1 1 1）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习特征）给定无标签数据，用非监督学习学习特征如下图，我们将

164、如下图，我们将如下图，我们将如下图，我们将inputinputinputinput输入一个输入一个输入一个输入一个encoderencoderencoderencoder编码器，就会得到一个编码器，就会得到一个编码器，就会得到一个编码器，就会得到一个codecodecodecode，这个，这个，这个，这个codecodecodecode也就是输入的一个表示，那么我们怎么知道这个也就是输入的一个表示，那么我们怎么知道这个也就是输入的一个表示，那么我们怎么知道这个也就是输入的一个表示，那么我们怎么知道这个codecodecodecode表示的就是表示的就是表示的就是表示的就是inputinputi

165、nputinput呢呢呢呢？我们加一个？我们加一个？我们加一个？我们加一个decoderdecoderdecoderdecoder解码器，这时候解码器，这时候解码器，这时候解码器，这时候decoderdecoderdecoderdecoder就会输出一个信息，那么如果就会输出一个信息，那么如果就会输出一个信息，那么如果就会输出一个信息，那么如果输出的这个信息和一开始的输入信号输出的这个信息和一开始的输入信号输出的这个信息和一开始的输入信号输出的这个信息和一开始的输入信号inputinputinputinput是很像的（理想情况下就是一样的）是很像的（理想情况下就是一样的）是很像的（理想情况下就

166、是一样的）是很像的（理想情况下就是一样的），那很明显，我们就有理由相信这个，那很明显，我们就有理由相信这个，那很明显，我们就有理由相信这个，那很明显，我们就有理由相信这个codecodecodecode是靠谱的。所以，我们就通过调整是靠谱的。所以，我们就通过调整是靠谱的。所以，我们就通过调整是靠谱的。所以，我们就通过调整encoderencoderencoderencoder和和和和decoderdecoderdecoderdecoder的参数，使得重构误差最小，这时候我们就得到了输入的参数，使得重构误差最小，这时候我们就得到了输入的参数，使得重构误差最小，这时候我们就得到了输入的参数，使得重

167、构误差最小，这时候我们就得到了输入inputinputinputinput信号的第一个表示了，也就是编码信号的第一个表示了，也就是编码信号的第一个表示了，也就是编码信号的第一个表示了，也就是编码codecodecodecode了。因为是无标签数据，所以误了。因为是无标签数据，所以误了。因为是无标签数据，所以误了。因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。差的来源就是直接重构后与原输入相比得到。差的来源就是直接重构后与原输入相比得到。差的来源就是直接重构后与原输入相比得到。深度学习及应用深度学习及应用1.9.4 Deep Belief Networks 1.9.4 Deep

168、 Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络DBNsDBNsDBNsDBNs是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对建立一个观察数据和标签之间的联合分布，对建立一个观察数据和标签之间的联合分布，对建立一个观

170、bel|Observation)P(Label|Observation)P(Label|Observation)。对于在深度神经网络应用传统的。对于在深度神经网络应用传统的。对于在深度神经网络应用传统的。对于在深度神经网络应用传统的BPBPBPBP算法的时候，算法的时候，算法的时候，算法的时候，DBNsDBNsDBNsDBNs遇到了以下问题：遇到了以下问题：遇到了以下问题：遇到了以下问题：（1 1 1 1）需要为训练提供一个有标签的样本集；）需要为训练提供一个有标签的样本集；）需要为训练提供一个有标签的样本集；）需要为训练提供一个有标签的样本集；（2 2 2 2）学习过程较慢；）学习过程较慢；

171、）学习过程较慢；）学习过程较慢；（3 3 3 3）不适当的参数选择会导致学习收敛于局部最优解。）不适当的参数选择会导致学习收敛于局部最优解。）不适当的参数选择会导致学习收敛于局部最优解。）不适当的参数选择会导致学习收敛于局部最优解。深度学习及应用深度学习及应用1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络深度学习及应用深度学习及应用1.9.4 Deep Belief Networ

172、ks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络DBNsDBNsDBNsDBNs由多个限制玻尔兹曼机（由多个限制玻尔兹曼机（由多个限制玻尔兹曼机（由多个限制玻尔兹曼机（Restricted Boltzmann MachinesRestricted Boltzmann MachinesRestricted Boltzmann MachinesRestricted Boltzmann Machines）层组成，一）层组成，一）层组成

173、，一）层组成，一个典型的神经网络类型如图三所示。这些网络被个典型的神经网络类型如图三所示。这些网络被个典型的神经网络类型如图三所示。这些网络被个典型的神经网络类型如图三所示。这些网络被“限制限制限制限制”为一个可视层和一为一个可视层和一为一个可视层和一为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。捉在可视层表现出来的高阶数据的

174、相关性。捉在可视层表现出来的高阶数据的相关性。捉在可视层表现出来的高阶数据的相关性。深度学习及应用深度学习及应用深度学习及应用深度学习及应用1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络在最高两层，权值被连接到一起，这样更低层的输出将会提供一个参考的线在最高两层，权值被连接到一起，这样更低层的输出将会提供一个参考的线在最高两层，权值被连接到一起，这样更低层的输出将会提供一个参考的

175、线在最高两层，权值被连接到一起，这样更低层的输出将会提供一个参考的线索或者关联给顶层，这样顶层就会将其联系到它的记忆内容。而我们最关心索或者关联给顶层，这样顶层就会将其联系到它的记忆内容。而我们最关心索或者关联给顶层，这样顶层就会将其联系到它的记忆内容。而我们最关心索或者关联给顶层，这样顶层就会将其联系到它的记忆内容。而我们最关心的，最后想得到的就是判别性能，例如分类任务里面。的，最后想得到的就是判别性能，例如分类任务里面。的，最后想得到的就是判别性能，例如分类任务里面。的，最后想得到的就是判别性能，例如分类任务里面。深度学习及应用深度学习及应用1.9.4 Deep Belief Networ

176、ks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络在预训练后，在预训练后，在预训练后，在预训练后，DBNDBNDBNDBN可以通过利用带标签数据用可以通过利用带标签数据用可以通过利用带标签数据用可以通过利用带标签数据用BPBPBPBP算法去对判别性能做调整。在算法去对判别性能做调整。在算法去对判别性能做调整。在算法去对判别性能做调整。在这里，一个标签集将被附加到顶层（推广联想记忆），通过一个自下向上的，这里，一个标签集将被附加到顶

177、层（推广联想记忆），通过一个自下向上的，这里，一个标签集将被附加到顶层（推广联想记忆），通过一个自下向上的，这里，一个标签集将被附加到顶层（推广联想记忆），通过一个自下向上的，学习到的识别权值获得一个网络的分类面。学习到的识别权值获得一个网络的分类面。学习到的识别权值获得一个网络的分类面。学习到的识别权值获得一个网络的分类面。这个性能会比单纯的这个性能会比单纯的这个性能会比单纯的这个性能会比单纯的BPBPBPBP算法训练的网络好。这可以很直观的解释，算法训练的网络好。这可以很直观的解释，算法训练的网络好。这可以很直观的解释，算法训练的网络好。这可以很直观的解释，DBNsDBNsDBNsDBNs

178、的的的的BPBPBPBP算法只需要对权值参数空间进行一个局部的搜索，这相比前向神经网络来说，算法只需要对权值参数空间进行一个局部的搜索，这相比前向神经网络来说，算法只需要对权值参数空间进行一个局部的搜索，这相比前向神经网络来说，算法只需要对权值参数空间进行一个局部的搜索，这相比前向神经网络来说，训练是要快的，而且收敛的时间也少。训练是要快的，而且收敛的时间也少。训练是要快的，而且收敛的时间也少。训练是要快的，而且收敛的时间也少。深度学习及应用深度学习及应用1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belie

179、f Networks 1.9.4 Deep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络DBNsDBNsDBNsDBNs的灵活性使得它的拓展比较容易。一个拓展就是卷积的灵活性使得它的拓展比较容易。一个拓展就是卷积的灵活性使得它的拓展比较容易。一个拓展就是卷积的灵活性使得它的拓展比较容易。一个拓展就是卷积DBNsDBNsDBNsDBNs（Convolutional Deep Belief Networks(CDBNs)Convolutional Deep Belief Networks(CDBNs)Convolutional Deep Belief Netwo

180、rks(CDBNs)Convolutional Deep Belief Networks(CDBNs)）。）。）。）。DBNsDBNsDBNsDBNs并没有考虑到并没有考虑到并没有考虑到并没有考虑到图像的图像的图像的图像的2 2 2 2维结构信息，因为输入是简单的从一个图像矩阵一维向量化的。而维结构信息，因为输入是简单的从一个图像矩阵一维向量化的。而维结构信息，因为输入是简单的从一个图像矩阵一维向量化的。而维结构信息，因为输入是简单的从一个图像矩阵一维向量化的。而CDBNsCDBNsCDBNsCDBNs就是考虑到了这个问题，它利用邻域像素的空域关系，通过一个称为卷就是考虑到了这个问题，它利用邻

181、域像素的空域关系，通过一个称为卷就是考虑到了这个问题，它利用邻域像素的空域关系，通过一个称为卷就是考虑到了这个问题，它利用邻域像素的空域关系，通过一个称为卷积积积积RBMsRBMsRBMsRBMs的模型区达到生成模型的变换不变性，而且可以容易得变换到高维图的模型区达到生成模型的变换不变性，而且可以容易得变换到高维图的模型区达到生成模型的变换不变性，而且可以容易得变换到高维图的模型区达到生成模型的变换不变性，而且可以容易得变换到高维图像。像。像。像。DBNsDBNsDBNsDBNs并没有明确地处理对观察变量的时间联系的学习上，虽然目前已经有这并没有明确地处理对观察变量的时间联系的学习上，虽然目前

182、已经有这并没有明确地处理对观察变量的时间联系的学习上，虽然目前已经有这并没有明确地处理对观察变量的时间联系的学习上，虽然目前已经有这方面的研究，例如堆叠时间方面的研究，例如堆叠时间方面的研究，例如堆叠时间方面的研究，例如堆叠时间RBMsRBMsRBMsRBMs，以此为推广，有序列学习的，以此为推广，有序列学习的，以此为推广，有序列学习的，以此为推广，有序列学习的dubbed dubbed dubbed dubbed temporal convolutionmachinestemporal convolutionmachinestemporal convolutionmachinestempor

183、al convolutionmachines刺激颞叶卷积机，这种序列学习的应用，给刺激颞叶卷积机，这种序列学习的应用，给刺激颞叶卷积机，这种序列学习的应用，给刺激颞叶卷积机，这种序列学习的应用，给语音信号处理问题带来了一个让人激动的未来研究方向。语音信号处理问题带来了一个让人激动的未来研究方向。语音信号处理问题带来了一个让人激动的未来研究方向。语音信号处理问题带来了一个让人激动的未来研究方向。深度学习及应用深度学习及应用1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 Deep Belief Networks 1.9.4 D

184、eep Belief Networks 深度信念网络深度信念网络深度信念网络深度信念网络目前，和目前，和目前，和目前，和DBNsDBNsDBNsDBNs有关的研究包括堆叠自动编码器，它是通过用堆叠自动编码器有关的研究包括堆叠自动编码器，它是通过用堆叠自动编码器有关的研究包括堆叠自动编码器，它是通过用堆叠自动编码器有关的研究包括堆叠自动编码器，它是通过用堆叠自动编码器来替换传统来替换传统来替换传统来替换传统DBNsDBNsDBNsDBNs里面的里面的里面的里面的RBMsRBMsRBMsRBMs。这就使得可以通过同样的规则来训练产生深度。这就使得可以通过同样的规则来训练产生深度。这就使得可以通过同

185、样的规则来训练产生深度。这就使得可以通过同样的规则来训练产生深度多层神经网络架构，但它缺少层的参数化的严格要求。与多层神经网络架构，但它缺少层的参数化的严格要求。与多层神经网络架构，但它缺少层的参数化的严格要求。与多层神经网络架构，但它缺少层的参数化的严格要求。与DBNsDBNsDBNsDBNs不同，自动编不同，自动编不同，自动编不同，自动编码器使用判别模型，这样这个结构就很难采样输入采样空间，这就使得网络码器使用判别模型，这样这个结构就很难采样输入采样空间，这就使得网络码器使用判别模型，这样这个结构就很难采样输入采样空间，这就使得网络码器使用判别模型，这样这个结构就很难采样输入采样空间，这就

186、使得网络更难捕捉它的内部表达。更难捕捉它的内部表达。更难捕捉它的内部表达。更难捕捉它的内部表达。但是，降噪自动编码器却能很好的避免这个问题，并且比传统的但是，降噪自动编码器却能很好的避免这个问题，并且比传统的但是，降噪自动编码器却能很好的避免这个问题，并且比传统的但是，降噪自动编码器却能很好的避免这个问题，并且比传统的DBNsDBNsDBNsDBNs更优。更优。更优。更优。它通过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪它通过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪它通过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪它通过在训练过程添加随机的污染并堆叠产生场泛化性能。训练单一的降噪自动编码器的过程和自动编码器的过程和自动编码器的过程和自动编码器的过程和RBMsRBMsRBMsRBMs训练生成模型的过程一样。训练生成模型的过程一样。训练生成模型的过程一样。训练生成模型的过程一样。

展开阅读全文

机器人的学习研究进展深度学习及应用ppt课件

最新文档