基于卷积神经网络的自然图像分类技术研究

资源描述

《基于卷积神经网络的自然图像分类技术研究》由会员分享，可在线阅读，更多相关《基于卷积神经网络的自然图像分类技术研究（23页珍藏版）》请在金锄头文库上搜索。

1、- 0 -基于卷积神经网络的自然图像分类技术研究摘要：卷积神经网络已在图像分类领域取得了很好的效果，但其网络结构及参数的选择对图像分类的效果和效率有较大的影响。为改善卷积网络的图像分类性能，本文对卷积神经网络模型进行了详细的理论分析，并通过大量的对比实验，得出了影响卷积网络性能的因素。结合理论分析及对比实验，本文设计了一个卷积层数为 8 层的深度卷积网络，并结合 Batch Normalization、dropout 等方法，在 CIFAR-10 数据集上取得了 88.1%的分类精度，有效地提高了卷积神经网络的分类效果。关键词：卷积神经网络，图像分类，Batch Normalization，D

2、ropoutResearch on Natural Image Classification Based on Convolution Neural NetworkAbstract: Convolution neural network has achieved very good results in image classification, but its network structure and the choice of parameters have a greater impact on image classification efficiency and efficienc

3、y. In order to improve the image classification performance of the convolution network, a convolutional neural network model is analyzed in detail, and a large number of contrastive experiments are conducted to get the factors that influence the performance of the convolution network. Combining the

4、theory analysis and contrast experiment, a convolution layer depth convolution network with 8 layers is designed. Combined with Batch Normalization and dropout, 88.1% classification accuracy is achieved on CIFAR-10 dataset. Which improves the classification effect of convolution neural network.Key W

5、ords: Convolution neural network(CNN), image classification, Batch Normalization, Dropout- 1 -目录目录基于卷积神经网络的自然图像分类技术研究 - 1 -1 引言- 3 - 2 卷积神经网络的模型分析- 4 - 2.1 网络基本拓扑结构.- 4 - 2.2 卷积和池化.- 5 - 2.3 激活函数.- 6 - 2.4 Softmax 分类器与代价函数.- 7 - 2.5 学习算法.- 8 - 2.6 Dropout- 10 - 2.7 Batch Normalization- 11 - 3 模型设计与实

6、验分析- 12 - 3.1 CIFAR-10 数据集.- 12 - 3.2 模型设计- 13 - 3.3 实验结果与分析- 15 - 4 结论- 22 - 参考文献- 23 - 2 -1 引言1986 年, Rumelhart 等提出人工神经网络的反向传播算法 (Back propagation, BP), 掀起了神经网络在机器学习中的研究热潮。但是由于 BP 神经网络存在容易发生过拟合、训练时间长的缺陷, 90 年代兴起的基于统计学习理论的支持向量机具有很强的小样本学习能力。学习效果也优于 BP 神经网络，导致了神经网络的研究再次跌入低估。2006 年, Hinton 等人在 Science

7、上提出了深度学习. 这篇文章的两个主要观点是: 1) 多隐层的人工神经网络具有优异的特征学习能力, 学习到的数据更能反映数据的本质特征，有利于可视化或分类;2) 深度神经网络在训练上的难度, 可以通过逐层无监督训练有效克服。理论研究表明为了学习到可表示高层抽象特征的复杂函数, 需要设计深度网络。深度网络由多层非线性算子构成, 典型设计是具有多层隐节点的神经网络。但是随着网络层数的加大, 如何搜索深度结构的参数空间成为具有挑战性的任务。近年来, 深度学习取得成功的主要原因有：1) 在训练数据上, 大规模训练数据的出现 (如 ImageNet), 为深度学习提供了好的训练资源; 2) 计算机硬件

8、的飞速发展 (特别是 GPU 的出现) 使得训练大规模神经网络成为可能。卷积神经网络 (Convolutional neural networks, CNN) 是一种带有卷积结构的神经网络, 卷积结构采用权值共享的方式减少了深层网络占用的内存量, 也减少了网络的参数个数, 缓解模型的过拟合问题。为了保证一定程度的平移、尺度、畸变不变性, CNN 设计了局部感受野、共享权重和空间或时间下采样, 提出用于字符识别的卷积神经网络 LeNet-5。LeNet-5 由卷积层、下采样层、全连接层构成, 该系统在小规模手写数字识别中取得了较好的结果。2012 年, Krizhevsky 等采用称为 Al

9、exNet 的卷积网络在 ImageNet 竞赛图像分类任务中取得了最好的成绩, 是 CNN 在大规模图像分类中的巨大成功。AlexNet 网络具有更深层的结构, 并设计了 ReLU (Rectified linear unit) 作为非线性激活函数以及 Dropout 来避免过拟合。在 AlexNet 之后, 研究者由提出了网络层数更深的神经网络，例如 Google 设计的 GoogLeNet 和 MSRA 设计的 152 层的深度残差网络等。表 1 是 ImageNet 竞赛历年来图像分类任务的部分领先结果,可以看出，层数越深的网络往往取得的分类效果更好。为了更好地改进卷积神经网络, 本文

10、在 CIFAR10 数据集上研究毕业设计论文代做平台 580 毕业设计网是专业代做团队也有大量毕业设计成品提供参考 QQ 3449649974了不同的- 3 -网络层设计、损失函数的设计、激活函数的选择、正则化等对卷积网络在图像分类效果方面的影响，本文引入了 Batch Normalization 与 dropout 结合的方法，通过加深卷层神经网络的层数，有效地提高了卷积神经网络在图像分类准确率。表 1-1 ImageNet 历年图像分类任务结果公布时间机构Top-5 错误率（%）网络名称网络深度 2015.12.10MSRA3.57ResNet1522014.8.18Google6.

11、66GoogLeNet222013.11.14NYU7.33Clarifai102012.10.13U.Toronto11.7Alexnet82 卷积神经网络的模型分析2.1 网络基本拓扑结构网络基本拓扑结构卷积神经网络与其他神经网络模型最大的区别是卷积神经网络在神经网络的输入层前面连接了卷积层，这样卷积层就变成了卷积神经网络的数据输输入。LeNet-5 是 Yan Lecun 开发的用于手写字符识别的经典卷积神经网络模型，图2-1 是其结构图。图2-1 LeNet-5结构图LeNet-5 的体系结构有 7 层，其中有 3 个卷积层。第一卷积层由 6 个特征图 (Feature Maps,

12、FM)组成，故 C1 包含 156 可训练参数(6 个 5X5 内核加上 6 偏值)来创建 122304 (156* (28*28) -122, 304)个连接。在 C1 层 FM 的尺寸为 28 x 28，由于边界条件，第二卷积层，C3 包含 1500 权重和 16 偏置，C3 层共有 1516 个可训练参数以及 151600 个连接。S2 和 C3 之间的连接如表 2-1 所示。Lecun 设计这些连接最大化的特征由 C3 提取的数目，同时减少权重的数目。在最后的卷积层 C5 包含 120 个 FM，输出尺寸为 1X1。LeNet-5 的体系结构还包含有两个子采样层:S2 和 S4，S2

13、包含 6 个特征图- 4 -和 S4 有 16 个特征图。层 S2 有 12 个可训练的参数与 5880 连接，而层 S4 有 32个可训练参数与 156000 连接。表2-1 S2与S3之间的连接总结 LeNet-5 的网络结构，我们得到卷积神经网络的基本结构可以分为四个部分:输入层，卷积层，全连接层和输出层四个部分：输入层:卷积输入层可以直接作用于原始输入数据，对于输入是图像来说，输入数据是图像的像素值。卷积层:卷积神经网络的卷积层，也叫做特征提取层，包括二个部分。第一部分是真正的卷积层，主要作用是提取输入数据特征。每一个不同的卷积核提取输入数据的特征都不相同，卷积层的卷积核数量越多，就能

14、提取越多输入数据的特征。第二部分是 pooling 层，也叫下采样层（Subsamping），主要目的是在保留有用信息的基础上减少数据处理量，加快训练网络的速度。通常情况下，卷积神经网络至少包含二层卷积层(这里把真正的卷积层和下采样层统称为卷积层)，即卷积层-pooling 层-卷积层-pooling 层。卷积层数越多，在前一层卷积层基础上能够提取更加抽象的特征。全连接层:可以包含多个全连接层，实际上就是多层感知机的隐含层部分。通常情况下后面层的神经节点都和前一层的每一个神经节点连接，同一层的神经元节点之间是没有连接的。每一层的神经元节点分别通过连接线上的权值进行前向传播，加权组合得到下一层

15、神经元节点的输入。输出层:输出层神经节点的数目是根据具体应用任务来设定的。如果是分类任务，卷积神经网络输出层通常是一个分类器，通常是 Softmax 分类器。- 5 -2.2 卷积和池化卷积和池化2.2.1 卷积卷积，一般利用卷积核对图像进行特征提取，其中最重要的就是卷积核。卷积核的设计一般涉及卷积核的大小(size)，卷积核的数目(number)以及卷积核的步长(stride)。从理论上来说，卷积核的个数表示从上层中通过卷积滤波得到特征图的个数，提取的特征图越多，网络表示特征空间就越大，学习能力也就越强，最后识别结果就比较准。但卷积核太多(特征图太多)，增大网络的复杂度，增加参数的个数，加大

16、了计算的复杂度，易出现过拟合现象，所以有时候卷积核也不并是越多越好，而应根据具体的数据集图像的大小确定卷积核的个数。图像卷积特征提取，通过设定的一个卷积核尺寸为的滤波器，步长w w(stride）为个像素，对一幅新的图像进行卷积处理，得到一个大小为k()hwnn的特征图，如图 2-2 所示。一般来说卷积核尺寸越小，特征提hwnwknwk kk取的质量也就越高，具体大小还应根据输入图像的尺寸决定。图2-2 图像卷积示意图2.2.2 池化对输入的图像邻域进行卷积处理得到图像的邻域特征图(Feature Map)，再通过亚采样层使用池化(pooling)技术将小邻域内进行下采样得到新的特征。通过对上层池化，特征结果可以使得参数减少(降低了特征维数)，且增强特征使得最后的特征表达保持了某些不变性(旋转、平移、伸缩等)，所以说池化的本质是一个降纬的过程。常用的有均值采样(mean- pooling )、最大采样( max - pooling)。据相关理论，特征提取的误差主要来自两个方面：（1）邻域大小受限造成的

展开阅读全文