深度学习理论研究讲解

上传人:我** 文档编号:112800705 上传时间:2019-11-07 格式:DOC 页数:19 大小:70.50KB
返回 下载 相关 举报
深度学习理论研究讲解_第1页
第1页 / 共19页
深度学习理论研究讲解_第2页
第2页 / 共19页
深度学习理论研究讲解_第3页
第3页 / 共19页
深度学习理论研究讲解_第4页
第4页 / 共19页
深度学习理论研究讲解_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《深度学习理论研究讲解》由会员分享,可在线阅读,更多相关《深度学习理论研究讲解(19页珍藏版)》请在金锄头文库上搜索。

1、【王晓刚】深度学习在图像识别中的研究进展与展望标签: 深度学习机器学习LinJM2015-06-03 20:37 4728人阅读 评论(2) 收藏 举报算法与理论研究(31) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)+深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。本文将重点介绍深度学习在物体识别、物体检测、视频分析的最新研究进展,并探讨其发展趋势。1. 深度学习发展历史的回顾现有的深度学习模型属于神经网络。神经网络的历史可追述到上世纪四十年代,曾经在八九十年代流行。神经网络试

2、图通过模拟大脑认知的机理,解决各种机器学习的问题。1986 年Rumelhart,Hinton 和Williams 在自然发表了著名的反向传播算法用于训练神经网络1,直到今天仍被广泛应用。但是后来由于种种原因,大多数学者在相当长的一段的时间内放弃了神经网络。神经网络有大量的参数,经常发生过拟合问题,即往往在训练集上准确率很高,而在测试集上效果差。这部分归因于当时的训练数据集规模都较小。而且计算资源有限,即便是训练一个较小的网络也需要很长的时间。总体而言,神经网络与其它模型相比并未在识别的准确率上体现出明显的优势,而且难于训练。因此更多的学者开始采用诸如支持向量机、Boosting、最近邻等分类

3、器。这些分类器可以用具有一个或两个隐含层的神经网络模拟,因此被称作浅层机器学习模型。它们不再模拟大脑的认知机理;相反,针对不同的任务设计不同的系统,并采用不同的手工设计的特征。例如语音识别采用高斯混合模型和隐马尔可夫模型,物体识别采用SIFT 特征,人脸识别采用LBP 特征,行人检测采用HOG特征。2006 年,Geoffrey Hinton 提出了深度学习。之后深度学习在诸多领域取得了巨大成功,受到广泛关注。神经网络能够重新焕发青春的原因有几个方面。首先是大数据的出现在很大程度上缓解了训练过拟合的问题。例如ImageNet2训练集拥有上百万有标注的图像。计算机硬件的飞速发展提供了强大的计算能

4、力,使得训练大规模神经网络成为可能。一片GPU 可以集成上千个核。此外神经网络的模型设计和训练方法都取得了长足的进步。例如,为了改进神经网络的训练,学者提出了非监督和逐层的预训练。它使得在利用反向传播对网络进行全局优化之前,网络参数能达到一个好的起始点,从而训练完成时能达到一个较好的局部极小点。深度学习在计算机视觉领域最具影响力的突破发生在2012 年,Hinton 的研究小组采用深度学习赢得了ImageNet 2 图像分类的比赛3。ImageNet 是当今计算机视觉领域最具影响力的比赛之一。它的训练和测试样本都来自于互联网图片。训练样本超过百万,任务是将测试样本分成1000 类。自2009

5、年,包括工业界在内的很多计算机视觉小组都参加了每年一度的比赛,各个小组的方法逐渐趋同。在2012 年的比赛中,排名2 到4 位的小组都采用的是传统的计算机视觉方法,手工设计的特征,他们准确率的差别不超过1%。Hinton 的研究小组是首次参加比赛,深度学习比第二名超出了10%以上。这个结果在计算机视觉领域产生了极大的震动,掀起了深度学习的热潮。计算机视觉领域另一个重要的挑战是人脸识别。Labeled Faces in the Wild (LFW) 4 是当今最著名的人脸识别测试集,创建于2007 年。在此之前,人脸识别测试集大多采集于实验室可控的条件下。LFW 从互联网收集了五千多个名人的人脸

6、照片,用于评估人脸识别算法在非可控条件下的性能。这些照片往往具有复杂的光线、表情、姿态、年龄和遮挡等方面的变化。LFW的测试集包含了6000 对人脸图像。其中3000 对是正样本,每对的两张图像属于同一个人;剩下3000 对是负样本,每对的两张图像属于不同的人。随机猜的准确率是50%。有研究表明5,如果只把不包括头发在内的人脸的中心区域给人看,人眼在LFW 测试集上的识别率是97.53%。如果把整张图像,包括背景和头发给人看,人眼的识别率是99.15%。经典的人脸识别算法Eigenface 6 在这个测试集上只有60%的识别率。在非深度学习的算法中,最好的识别率是96.33% 7。目前深度学习

7、可以达到99.47%的识别率8。在学术界收到广泛关注的同时,深度学习也在工业界产生了巨大的影响。在Hinton 的科研小组赢得ImageNet 比赛之后6 个月,谷歌和百度发都布了新的基于图像内容的搜索引擎。他们沿用了Hinton 在ImageNet 竞赛中用的深度学习模型,应用在各自的数据上,发现图像搜索的准确率得到了大幅度的提高。百度在2012 年就成立了深度学习研究院,于2014 年五月又在美国硅谷成立了新的深度学习实验室,聘请斯坦福著名教授吴恩达担任首席科学家。Facebook 于2013 年12 月在纽约成立了新的人工智能实验室,聘请深度学习领域的著名学者,卷积网路的发明人YannL

8、eCun 作为首席科学家。2014 年1 月,谷歌四亿美金收购了一家深度学习的创业公司,DeepMind。鉴于深度学习在学术和工业界的巨大影响力,2013 年MIT Technology Review将其列为世界十大技术突破之首。2. 深度学习有何与众不同?许多人会问,深度学习和其它机器学习方法相比有哪些关键的不同点,它成功的秘密在哪里?我们下面将对这此从几个方面作简要的阐述。2.1 特征学习深度学习与传统模式识别方法的最大不同在于它是从大数据中自动学习特征,而非采用手工设计的特征。好的特征可以极大提高模式识别系统的性能。在过去几十年模式识别的各种应用中,手工设计的特征处于同统治地位。它主要依

9、靠设计者的先验知识,很难利用大数据的优势。由于依赖手工调参数,特征的设计中只允许出现少量的参数。深度学习可以从大数据中自动学习特征的表示,其中可以包含成千上万的参数。手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉发展的历史,往往需要五到十年才能出现一个受到广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。一个模式识别系统包括特征和分类器两个主要的组成部分,二者关系密切,而在传统的方法中它们的优化是分开的。在神经网络的框架下,特征表示和分类器是联合优化的,可以最大程度发挥二者联合协作的性能。以2012 年Hinton 参加ImageNet 比赛所

10、采用的卷积网络模型9为例,这是他们首次参加ImageNet 图像分类比赛,因此没有太多的先验知识。模型的特征表示包含了6 千万个参数,从上百万样本中学习得到。令人惊讶的是,从ImageNet 上学习得到的特征表示具有非常强的泛化能力,可以成功地应用到其它的数据集和任务,例如物体检测、跟踪和检索等等。在计算机视觉领域另外一个著名的竞赛是PSACAL VOC。但是它的训练集规模较小,不适合训练深度学习模型。有学者将ImageNet 上学习得到的特征表示用于PSACALVOC 上的物体检测,将检测率提高了20%10。既然特征学习如此重要,什么是好的特征呢?一幅图像中,各种复杂的因素往往以非线性的方式

11、结合在一起。例如人脸图像中就包含了身份、姿态、年龄、表情和光线等各种信息。深度学习的关键就是通过多层非线性映射将这些因素成功的分开,例如在深度模型的最后一个隐含层,不同的神经元代表了不同的因素。如果将这个隐含层当作特征表示,人脸识别、姿态估计、表情识别、年龄估计就会变得非常简单,因为各个因素之间变成了简单的线性关系,不再彼此干扰。2.2 深层结构的优势深度学习模型意味着神经网络的结构深,由很多层组成。而支持向量机和Boosting 等其它常用的机器学习模型都是浅层结构。有理论证明,三层神经网络模型(包括输入层、输出层和一个隐含层)可以近似任何分类函数。既然如此,为什么需要深层模型呢?理论研究表

12、明,针对特定的任务,如果模型的深度不够,其所需要的计算单元会呈指数增加。这意味着虽然浅层模型可以表达相同的分类函数,其需要的参数和训练样本要多得多。浅层模型提供的是局部表达。它将高维图像空间分成若干局部区域,每个局部区域存储至少一个从训练数据中获得的模板。浅层模型将一个测试样本和这些模板逐一匹配,根据匹配的结果预测其类别。例如在支持向量机模型中,这些模板就是支持向量;在最近邻分类器中,这些模板是所有的训练样本。随着分类问题复杂度的增加,图像空间需要被划分成越来越多的局部区域,因而需要越来越多的参数和训练样本。深度模型能够减少参数的关键在于重复利用中间层的计算单元。例如,它可以学习针对人脸图像的

13、分层特征表达。最底层可以从原始像素学习滤波器,刻画局部的边缘和纹理特征;通过对各种边缘滤波器进行组合,中层滤波器可以描述不同类型的人脸器官;最高层描述的是整个人脸的全局特征。深度学习提供的是分布式的特征表示。在最高的隐含层,每个神经元代表了一个属性分类器,例如男女、人种和头发颜色等等。每个神经元将图像空间一分为二,N 个神经元的组合就可以表达2N 个局部区域,而用浅层模型表达这些区域的划分至少需要个2N 模板。由此我们可以看到深度模型的表达能力更强,更有效率。2.5 提取全局特征和上下文信息的能力深度模型具有强大的学习能力,高效的特征表达能力,从像素级原始数据到抽象的语义概念逐层提取信息。这使

14、得它在提取图像的全局特征和上下文信息方面具有突出的优势。这为解决一些传统的计算机视觉问题,如图像分割和关键点检测,带来了新的思路。以人脸的图像分割为例。为了预测每个像素属于哪个脸部器官(眼睛、鼻子、嘴、头发),通常的作法是在该像素周围取一个小的区域,提取纹理特征(例如局部二值模式),再基于该特征利用支持向量机等浅层模型分类。因为局部区域包含信息量有限,往往产生分类错误,因此要对分割后的图像加入平滑和形状先验等约束。事实上即使存在局部遮挡的情况下,人眼也可以根据脸部其它区域的信息估计被遮挡处的标注。这意味着全局和上下文的信息对于局部的判断是非常重要的,而这些信息在基于局部特征的方法中从最开始阶段

15、就丢失了。理想的情况下,模型应该将整幅图像作为输入,直接预测整幅分割图。图像分割可以被当作一个高维数据转换的问题来解决。这样不但利用到了上下文信息,模型在高维数据转换过程中也隐式地加入了形状先验。但是由于整幅图像内容过于复杂,浅层模型很难有效地捕捉全局特征。深度学习的出现使这一思路成为可能,在人脸分割11、人体分割12、人脸图像配准13和人体姿态估计等各个方面都取得了成功14。2.4 联合深度学习一些计算机视觉学者将深度学习模型视为黑盒子,这种看法是不全面的。事实上我们可以发现传统计算机视觉系统和深度学习模型存在着密切的联系,而且可以利用这种联系提出新的深度模型和新的训练方法。这方面一个成功的

16、例子是用于行人检测的联合深度学习15。一个计算机视觉系统包含了若干关键的组成模块。例如一个行人检测器就包括了特征提取、部件检测器、部件几何形变建模、部件遮挡推理、分类器等等。在联合深度学习中15,深度模型的各个层和视觉系统的各个模块可以建立起对应关系。如果视觉系统中一些有效的关键模块在现有深度学习的模型中没有与之对应的层,它们可以启发我们提出新的深度模型。例如大量物体检测的研究工作证明对物体部件的几何形变建模可以有效地提高检测率,但是在常用的深度模型中没有与之相对应的层。于是联合深度学习15及其后续的工作16都提出了新的形变层和形变池化层实现这一功能。从训练方式上看,计算机视觉系统的各个模块是逐一训练或手工设计的;在深度模型的预训练阶段,各个层也是逐一训练的。如果我们能够建立起计算机视觉系统和深度模型之间的对应关系,在视觉研究中积累的经验可以对深度模型的预训练提供指导。这样预训练后得到的模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号