卷积神经网络及其在手写体数字识别中的应用

上传人:小** 文档编号:34135702 上传时间:2018-02-21 格式:DOC 页数:12 大小:151.50KB
返回 下载 相关 举报
卷积神经网络及其在手写体数字识别中的应用_第1页
第1页 / 共12页
卷积神经网络及其在手写体数字识别中的应用_第2页
第2页 / 共12页
卷积神经网络及其在手写体数字识别中的应用_第3页
第3页 / 共12页
卷积神经网络及其在手写体数字识别中的应用_第4页
第4页 / 共12页
卷积神经网络及其在手写体数字识别中的应用_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《卷积神经网络及其在手写体数字识别中的应用》由会员分享,可在线阅读,更多相关《卷积神经网络及其在手写体数字识别中的应用(12页珍藏版)》请在金锄头文库上搜索。

1、卷积神经网络及其在手写体数字识别中的应用 马媛媛 史加荣 西安建筑科技大学理学院 摘 要: 深度学习是机器学习领域的研究热点, 它使机器学习更加接近人工智能。作为深度学习的一类经典模型, 卷积神经网络已被广泛应用于语音识别、图像识别和自然语言处理等领域中。本文探讨了卷积神经网络的基本原理、实现及应用。首先回顾了卷积神经网络的发展历史, 阐述了它的基本原理, 研究了卷积层和下采样层;其次总结了卷积神经网络的三大重要特性:稀疏连接、权值共享和池采样, 并将卷积神经网络应用在 MNIST 手写体数字识别任务中;最后指出了卷积神经网络未来的重点研究方向。关键词: 卷积神经网络; 深度学习; 卷积; 下

2、采样; 手写体数字识别; 作者简介:马媛媛 (1991-) , 女, 陕西富平人, 西安建筑科技大学理学院硕士研究生。作者简介:史加荣 (1979-) , 男, 山东东阿人, 西安建筑科技大学理学院副教授, 博士收稿日期:2017-08-15基金:国家自然科学基金青年科学基金 (61403298) Convolution Neural Network and Its Application in Handwritten Digits RecognitionMa Yuanyuan Shi Jiarong School of Science, Xian University of Architec

3、ture and Technology; Abstract: Deep learning is a new research focus in the field of machine learning and its emergence makes machine learning closer to the goal of artificial intelligence.As a classical model in deep learning, convolution neural network has been widely applied in the fields of spee

4、ch recognition, image recognition, natural language processing, etc.This paper discussed the basic principle, realization and applications of convolution neural network.Firstly, it reviewed the history of convolution neural network and elaborated its basic principle of convolution neural network and

5、 investigated the convolution layer and the sub-sampling layer.Secondly, it summarized the three important characteristics of convolution neural network, i.e., sparse connection, weight sharing and sub-sampling.The handwritten digits recognition task of convolution neural network was also realized i

6、n the MNIST database.Finally, it gave future key research directions for convolution neural network.Keyword: convolution neural network; deep learning; convolution; sub-sampling; handwritten digits recognition; Received: 2017-08-15人工智能是一门研究开发模拟、延伸和扩展人类智能的技术, 其主要研究内容可归纳为四个方面:机器感知、机器思维、机器行为和机器学习1。而机器学

7、习是利用计算机、概率论、统计学等知识, 通过给计算机程序输入数据, 让计算机能够学习新知识和新技能, 其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能2。深度学习是基于学习特征的更广泛的机器学习方法, 它试图在多个层次中进行学习, 其中较高层次的概念是从较低层次的概念中定义的, 而较低层次的概念可以帮助定义许多更高层的概念3。随着研究的不断深入, 深度学习技术已经被应用到数以百计的实际问题中, 且超出了传统的多层神经网络的内涵。2006 年机器学习领域泰斗 Hinton 教授提出了利用受限的玻尔兹曼机进行预训练的方法4-5, 主要观点为:人工神经网络模型的层数越深, 其特征学

8、习能力越强;可通过“逐层训练”的学习算法解决深度神经网络在训练上的难题。该方法引发了深度学习在研究和应用领域中的浪潮。同年, Hinton 等人还提出了一种贪婪的逐层学习算法:深度置信网络, 该网络先采用无监督学习对整个网络进行预训练, 再采用监督学习对整个网络进行反向微调6。此后, 深度学习的各种模型被相继提出, 主要包括:自编码器7、稀疏自编码器8、卷积神经网络9、循环神经网络10等, 其中, 卷积神经网络 (Convolutional Neural Network, CNN) 是深度学习的一种较为经典的神经网络模型。卷积神经网络是一类特殊的用于数据处理的神经网络, 它受视觉系统结构的启发

9、, 由生物学家 Hubel 和 Wiesel 于 1962 年提出。他们通过对猫的实验发现:人的视觉系统的信息处理是分级的, 初级视觉皮层提取边缘特征, 中级视觉皮层提取形状或者目标, 更高层的视觉皮层得到特征组合11。受此启发, Lecun等人12于 1989 年提出了卷积神经网络。此后, 卷积神经网络被广泛地应用于图像处理、语音识别和时间序列分析13等领域中, 并衍生出许多改进模型。2012 年, Krizhevsky 等14提出了 AlexNet 模型, 该模型为包含 8 个学习层的卷积神经网络, 并在该年 ImageNet15国际计算机视觉挑战赛中夺得冠军, 这使卷积神经网络成为学术界

10、关注的焦点。此后, 每年的 ImageNet 挑战赛中都出现了新的卷积神经网络模型, 这些模型不断地刷新着 AlexNet 在 ImageNet 上创造的记录。深度卷积神经网络已成为众多学科研究的热点, 被广泛地应用于图像识别16、语音识别17和自然语言处理18等领域中。1 卷积神经网络的基本原理卷积神经网络是一类特殊的深度前馈神经网络, 主要由输入层、隐层、全连接层和输出层组成, 而隐层是由卷积层和下采样层交替连接的。一个经典的卷积神经网络模型如图 1 所示, 该模型共七层, 其中包括一个输入层、两个卷积层、两个采样层、一个全连接层和一个输出层。卷积层通过卷积操作提取特征, 再通过下采样操作

11、将提取的特征组合成更加抽象的特征, 接着将组合的特征输入到一个或多个全连接层, 而全连接层的每一个神经元与前一层的所有神经元进行全连接, 最后一个全连接层连接到输出层。下面分别介绍卷积神经网络的各个模块19。图 1 卷积神经网络架构图 下载原图1.1 输入层与输出层在输入层中, 一般输入数据是图像。对于灰度图像或 RGB 图像, 像素的取值范围为 0255, 它代表像素灰度。输出层一般采用 softmax 逻辑回归函数进行分类。1.2 卷积层卷积是数学分析中一种重要的线性运算, 是两个变量在某范围内逐点相乘求和的结果20-21。在图像处理中, 图像通常表示成二维矩阵的形式。因此只考虑离散序列情

12、形, 且只对二维卷积做阐述。图 2 给出了一个二维卷积操作的例子 (不包含卷积核的翻转) 。在图 2 中, 左上角为输入数据 (44 矩阵) , 右上角为卷积核 (22 滤波器) , 下方为卷积操作结果 (33 矩阵) 。由该图可以看出, 卷积核被重复地应用于整个输入数据中, 最终得到卷积的输出结果。图 2 二维卷积运算示意图 下载原图在卷积层中, 输入图像先与卷积核进行卷积, 再通过一个非线性函数输出特征图20-22。假设第 l 层为卷积层, 第 l+1 层为下采样层。令 xi表示第 l-1 层中的第 i 个特征映射所对应的像素值, k ij表示卷积核, M j表示某个特征图像的子集。于是,

13、 第 l 层的第 j 个特征图的激活值为:式中:f 是一个非线性传递函数, 通常取 sigmoid 函数或 tanh 函数;b j表示第 j个单元所对应的偏置;“*”号表示卷积核在第 l-1 层所关联的特征图上做卷积运算。卷积层通过卷积操作提取到鲁棒性较高的特征, 每一个卷积核相当于一个特征提取器, 但该层提取到的特征维数依旧较高, 容易出现过拟合问题。为此, 可在卷积层后面加入一个下采样层, 从而有效地避免过拟合问题。1.3 下采样层下采样层也称池化层19-24, 它可以大大减少神经元的个数, 在一定程度上降低网络的拟合程度。下采样层旨在通过降低特征维数来获得具有空间不变性的特征。池化就是将

14、输入图像进行缩小, 这在一定程度上保留了一些重要或者突出的信息。常用的池化方法有最大池化 (max pooling) 或均值池化 (average pooling) 24-25。最大池化是指取采样区域中的最大值作为像素值, 该方法特别适用于分离特别稀疏的特征的情形。图 3 给出了最大池化运算示意图。在图 3 中, 99 的原始数据按 22 的大小大致被分成 33 的分块矩阵, 而每个子块矩阵用其最大值来代替。通过最大池化运算, 99 的矩阵被缩小为 33的矩阵。图 3 最大池化运算示意图 下载原图均值池化是指取采样区域内所有值的均值作为结果的输出值, 该方法用到了采样区域内所有的采样点。图 4

15、 给出了均值池化运算示意图, 其左边为输入数据, 右边为经过均值池化运算后的输出矩阵。在进行均值池化运算时, 取输入图像中每一个大小为 22 的子块的平均值作为输出像素值, 如果子块大小不足, 则用 0 补充。经过均值池化操作后, 一幅图像大约也缩小为原来的四分之一。图 4 平均池采样运算示意图 下载原图考虑第 l-1 层为卷积层、第 l 层为下采样层, 此时下采样层的输入为上一层的输出。如果下采样层有 N 个输入特征图, 那么下采样层就有 N 个输出特征图, 只不过下采样层输出的每个特征图的尺寸会变小。记 xj为第 l-1 层的输出, N为第 l 层所输入的特征图的大小。采样层的计算公式如下

16、:式中:f 是一个非线性传递函数, j和分别表示每个输出的特征图对应的乘性偏置和加性偏置, 是一个下采样函数, 通常取最大池化或平均池化函数。下采样层把卷积层的输出作为其输入, 并输出一个维数较少的特征, 从而减少了参数的计算量。1.4 全连接层全连接层可以整合卷积层或者下采样层中具有类别判别性的局部信息26。为了提升卷积神经网络的性能, 全连接层的每个神经元的激励函数可采用 ReLU 函数27或者其他非线性函数, 其中, ReLU 函数为 f (x) =max (0, x) 。与sigmoid、tanh 等函数相比, ReLU 的数学公式简单, 且只有一个阈值 0, 因此它可以避免梯度弥散现象。全连接层的主要目的是维度变换, 即把高维分布式特征表示变成低维的样本标记。在这个过程中, 有用的信息被保留下来, 但会损失特征的位置信息。2 卷积神经网络的重要特性卷积神经网络有三大重要特性:稀疏连接、权值共享和

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号