字符识别的神经网络方法研究

资源描述

《字符识别的神经网络方法研究》由会员分享，可在线阅读，更多相关《字符识别的神经网络方法研究（28页珍藏版）》请在金锄头文库上搜索。

1、目录前言1第一章绪论21.1研究背景及意义21.2深度学习的发展现状31.3字符识别发展及研究41.4本文的主要组织结构6第二章神经网络基础介绍82.1引言82.2神经网络介绍82.2.1神经元基本简介82.2.2前向传播算法（Forward propagation）92.2.3反向传播算法与梯度下降算法112.3手写字符数据集简介132.4本章小结14第三章基于卷积神经网络的手写字符识别153.1引言153.2卷积153.3权值共享163.4池化163.5LetNet识别手写字符173.5.1使用LeNet进行训练173.5.2神经网络模型改进183.5.3改进模型实验结果193.5

2、.4识别错误原因分析203.5.5对影响收敛速度因素的实验测试213.6本章小结21第四章总结与展望234.1本文工作总结234.2后续工作展望23参考文献25致谢27摘要深度学习（Deep Learning）在机器学习领域中是一种重要的方法，也是在近年来越来越受到关注的一门机器学习算法。随着神经网络技术的飞速发展，在目标检测、语义检测、情感识别、图像分割、图像分类等领域取得了不少突破性的进展。卷积神经网络是深度学习领域中的一项非常重要的网络结构，它是一个前馈神经网络。人工神经元可以响应周围的神经单元，具有许多传统神经网络结构所不具备的优异特性。本文针对手写数字字符数据集，利用深度神经网

3、络构建了LeNet网络进行训练、识别，并对数据进行了不同的数据增强(Data Augmentation)，以此来研究比较最终网络结构的识别准确率。本文的网络结构对手写字符数据集的识别率达到了97.65%，并且在测试其他测试集时表现出了良好的适应性。关键词：深度学习，字符识别，卷积神经网络，模式识别，数据增强AbstractDeep learning is a significant method in machine learning, and it is also a machine learning algorithm that has attracted more and more at

4、tention in recent years. With the rapid development of neural network technology, many breakthroughs have been made in the fields of target detection, semantic detection, emotion recognition, image segmentation, image classification and so on. Convolution neural network is a very important network s

5、tructure in the field of deep learning. It is a feedforward neural network. Artificial neurons can respond to the surrounding neural units, and have many excellent features that many traditional neural network structures do not possess.In this paper, for handwritten digital character data sets, the

6、LeNet network is trained and identified by using deep neural network, and different Data Augmentation is carried out to the data to compare the recognition accuracy of the final network structure.The recognition rate of the network structure in this paper for handwritten character dataset reaches 97

7、.65%, and it shows good adaptability in testing other test sets.Keywords: Deep learning, character recognition, convolution neural network, pattern recognition, machine learning前言AI，也就是我们所说的人工智能，是人类所探求了许多年的终极理想。在最近几年，随着技术的飞跃，我们的生活已经大大地被人工智能技术所改变，但是在目前，还没有任何一台计算机可以达到真正像人类一样拥有自我意识的阶段。图灵在自己1950年的论文中曾经提

8、出过这样一个理论，即被测试者与测试的人或机器分隔在两个不同的房间，如果超过百分之三十的被测试人无法区分开与自己交流对话的是人类还是机器人，那么可以说这台机器已经通过了“图灵测试”，可以认为它一定程度上拥有了人类的智能。但是，人工智能的发展并没有人们预料的那么顺利，因为技术的发展并没有达到图灵测试的标准，许多计算机科学家对此感到心灰意冷，渐渐开始冷落这项技术，还有些技术员认为这完全是一项遥不可及的伪科学。但是依旧有很多像LeCun这样的计算机科学家没有放弃对这一技术的追求，他们引领了深度学习的重新崛起，在多个领域取得了突破性的进展。利用深度学习的相关算法，让计算机可以从海量的数据集中归纳出相应的

9、特征，在用之前归纳得出的结果模型去匹配其他的样本数据。从网络结构和算法的角度来分类的话，我们大致可以把机器学习的发展分为两个阶段：浅层学习与深度学习。阶段一：浅层学习（shallow learning）BP算法，即反向传播算法是三十年前广受关注的一种算法，科研人员发现它可以在人工神经网络（ANN）中发挥巨大的作用，并且大大的加快了机器学习领域的发展，在那之后有大量的研究人员投身于机器学习的研究和发展之中。并且在当今学术界，仍然有不少的计算机科学家在从事这方面的研究工作。事实上，在一些问题的解决上，BP算法反而有着更加适宜的应用场景。因为在之前更多使用的是基于人工规则的方式，所以这样一种基于统计

10、规则的机器学习算法在很多地方表现出了更加优越的特性。阶段二：深度学习（Deep Learning）2006年时，多伦多大学教授Geoffrey Hinton发表了一篇产生了巨大影响的论文，在文中提出了以下两个重要的观点：1.当需要处理分类和图像问题时，使用多层神经网络可以对数据的特征进行更充分的学习和表达。2.如果神经网络的隐层层数较多，应该使用逐层训练的方式来解决。本文也主要采用了卷积神经网络来解决图像训练和识别的相关问题。第一章绪论本章首先介绍了深度学习相关领域的研究背景以及研究意义，并陈述了国内外学者的研究现状，主要包括了深度学习以及字符识别的发展历程、目前的研究成果。其次介绍了当前

11、深度学习存在的一些不足，最后简述了论文的组织结构和主要工作。1.1研究背景及意义在机器学习领域中，深度学习（Deep Learning）是一种很重要的方法，它在语音及图像识别领域已经进行了大规模的商业应用。在过去的几十年中，计算机科学家们一直致力于让计算机变得更加智能，可以像人一样进行思考或用有感情的变化，总而言之，更加近似于人类大脑。目前，深度学习是一个正在飞速发展的领域，许多和我们生活息息相关的应用以及研究方向也随之诞生。在2016年的3月，Google的DeepMind团队与围棋排名世界第一的韩国选手李世石展开了一场举世瞩目的围棋大赛，最终AlphaGo 4:1大胜李世石，为深度学习的广

12、泛传播和快速发展提供了一次极佳的机遇。众所周知，围棋在所有棋类游戏中是属于最复杂的一类，它拥有许多苦难复杂的数学问题，因此不得不说深度学习的发展速度之快令所有人感到震惊。在机器学习的早期发展阶段，它研究和处理的主要内容是对于人类十分困难而对于计算机却又比较简单的任务。在1997年，IBM科学计算中心研究发明的AI超级计算机“深蓝”击败了国际象棋世界冠军加里卡斯帕罗夫。因为国际象棋的基本规则相对围棋来说更加简单，仅仅含有32个棋子以及64个位置，并且它们的移动方式是限定的，所以使用计算机针对性的建模也更加容易。然而随着科技的不断发展，计算机科学家认为机器学习要解决的问题并不仅仅是数学与公式，而是

13、人类平时需要面对的问题，并且传统上这些问题难以用计算机来解决。如果我们把机器学习的发展方向定为让机器也能像人一样做到认人脸、辨语音，那么首先要解决的是如何让计算机可以像人类一样通过认知，即根据某些先验知识来发展出自己的认知体系，以表达出事物、工作的相关特征。最开始，计算机科学家们想到的解决方案是尽可能多地来提取一些特征，以供计算机学习。但他们面临的最大挑战是无法有效地提取一些事物的特征，比如科学家想要识别一幅画面中的电脑。电脑都有键盘，所以计算机科学家想要把电脑的键盘作为识别的特征。但是计算机面对图像与人类的思维并不一致，在像素的角度我们很难说一块键盘到底应该如何来组成。即使键盘的按键形状比较

14、规则和简单，在实际检测中它们却经常会受到各种其他因素的影响，比如光线的照射、屏幕投射下的阴影造成遮蔽、甚至键盘的各种颜色所造成的差异都会对识别造成影响。因为我们不可能把键盘在所有情况下的图像数据全部收录到学习数据中，我们必须根据电脑的相关特征来推断出一台电脑应该具有的样子。为了解决以上的问题，深度学习为我们提供了一种良好的方案。以上面的计算机识别为例，原始输入的数据是训练集组成的像素矩阵，想要直接创造一个把它们映射到目标的函数是不太现实的，因此，神经网络把这一过程分解成一个个的简单的映射，在神经网络中一个这种简单的映射看作是一层网络，把最开始输入数据的那一层称之为输入层，最后输出结果的称之为输

15、出层，在他们之间的称之为隐层。在隐层中包含了许多层，每一层都在逐步提取之前输入层传递的特征，最终提取出可以用于分类的特征信息。在学习结束后，原始输入的图像已经被神经网络重构成一个新的特征。最后，隐层输出到分类器，由分类器对训练样本进行分类。总而言之，深度学习是一种将复杂的数据映射到相对简单的特征的很好的方法，它的每一层都只是比较简单的输入和映射，但经过一层层的迭代，可以表达出符合我们预期的相对精确的输出。1.2深度学习的发展现状卷积神经网络（CNN）是一种十分重要的深度学习算法，在人工神经网络中已经成为了图像识别与融合、自然语言处理等最常用的手段之一。与之前比较常见的检测分类方法相比，它提供了

16、更多的优良特性，因为它采用了一种比较简洁易懂的网络模型，使用全新的网络结构从而将权值的数量减少。我们接下来测试的手写字符训练数据是多维的，如果采用老式的检测方法的话，首先无法避免的是要检测多维数据的特征，而这过于复杂以至于接下来重建时常常遇到无法预料的问题，而如果使用CNN就可以避免这些问题，将图像数据直接输入，解决了复杂度带来的许多问题。LeNet-51是由加拿大多伦多大学教授LeCun等人于1998年推出的7级的创新神经网络模型，这种网络模型投入了几家银行应用，用于识别32x32像素图像中的手写数字(支票)。然而，当处理高分辨率图像的能力需要更大、更复杂的层次，因此这种技术明显受到了当时计算资源可用性的限制，但它的诞生为后来更加复杂的深度卷积神

展开阅读全文