基于MATLAB的手写体数字识别算法的实现与分析&ampamp;#x2d;毕业论文.

资源描述

《基于MATLAB的手写体数字识别算法的实现与分析&ampamp;#x2d;毕业论文.》由会员分享，可在线阅读，更多相关《基于MATLAB的手写体数字识别算法的实现与分析&ampamp;#x2d;毕业论文.（34页珍藏版）》请在金锄头文库上搜索。

1、基于MATLAB的手写体数字识别算法的实现与分析摘要手写体数字识别是利用计算机自动辨认手写体阿拉伯数字的一种技术，是光学字符识别技术的一个分支。手写体数字识别在邮政编码、财务报表、银行票据、各种凭证是及调查表格的识别等等方面有着重要应用，山于数字识别经常涉及财会、金融领域，其严格性更是不言而喻的所以，对识另刂系统的可靠性和识别率要求很高，构成了手写体数字识别面临的主要困难，大批量数据处理对系统速度又有相当高的要求。本文基于集通过Matlab平台对决策树算法、SVM算法和人工神经网络(ANN)算法进行实，并对分类算法的准确率进行评估。实验结果表明，人工神经网络(ANN)的准确率最高，为9969

2、SVM算法次之，准确率为9453，决策树算法的准确率为8巧3三种分类算法中决策树算氵去的速度最快，SVM算法的速度最、另外，针对每一种分类算法在MNIST数据集上的实验结果，本文还得出以下结论：第一，MNIST数据集的归一化与否对决策树的分类效果几乎没有影响，对 SVM的分类效果影响较大，未归一化时的准确率为1135 归一化z后的准确率为9453对人工神经网络的分类效果影响较小未归一化时的准确率为 8211，归一化之后的准确率为9969 。这说明三种分类算法对数据的不平衡分布的敏感程度各不相同。第二，对于svrvl分类算法，当训练数据集的样本容量小于6（MNIST 训练数据集的最大样本容量）时

3、，该算法对测试数据集分类预测的准确率样本容量的增大而增大。第三，针对人工神经网络，数据类标签的表示形式对分类预的准确率的影响较大“使用10位数据表示类标签是的准确率为99，69远远高于使用1位数据表示类标签时的准确率6024。关键词：手写体数字识别；决树算法；SVM算法；人工神经网络算法ABSTRACTHandwritten numeral recognition is a technique that uses computer to recognize handwritten Arabic numerals automatically and is a branch of optical

4、character recognition technology. Handwritten numeral recognition has important applications in postal codes, financial sbtements, bank notes, various kinds of vouchers and the identification of survey forms. Since digital identification often involves accounting and finance, its strictness is self-

5、evident. The demand for identification system of the reliability and recognition rate is very high, constituting a handwritten digital identification facing major difficulties, high-volume data processing on the system speed and a very high demand.In this paper, we use Matlab to implement decision t

6、ree algorithm, SVM algorithm and artificial neural network (ANN) algorithm based on MNIST dataset, and the accuracy of classification algorithms is calculated by using the real data tag. Experimental results show that the artificial neural network (ANN) the highest accuracy rate for 99.69%, SVM algo

7、rithm, followed by 94.53 percent accuracy rate, decision tree algorithm accuracy is 83.53%. In terms of decision tree algorithm is the fastest, SVM algorithm is the slowest. In addition, for each classification algorithm we also concl uded that: Firstly, whether or not the MNIST dataset is pormalize

8、d has no effect in the classification tree; While it has a great impact on SVM classification. When it is not normalized the accuracy is 11.35%, and after normalized the accuracy is 94.53% ; The artificial neural network classification is less affected, and when it is not normalized the accuracy is

9、82.11% while after normalized the accuracy is 99-69%, This shows the sensitivity of the three classification algorithms to unbalanced distribution of data.Secondly, for the SVM classification algorithm, when the sample size is less than Size Of MNIST test data set), the accuracy increases With the i

10、ncreasing Of sample Size.Thirdly, for the artificial neural network, the impact of class label representation is large on the classification accuracy. When using 10 bits to represent class labels, the accuracy is 99.69%, far higher than the accuracy of 60.24% when using 1 bit to represent data label

11、s.KEY WORDS:Handwritten numeral recognition; Decision tree algorithm; SVM algorithm; Artificial neural network algorithm目录231引言2 33 335 4 结论的比较SVM算4神4，1三种分类42决策树算法的分析4、3 4 经网参考文献一. .C.OCli0 .0 com1 .1 . 1手写数字识别手写数字识别是模式识别领域的一个重要分支它研究的核心问题是：如何利用计算机自动识别人手写在纸张上的阿拉伯数字。手写体数字识别问题，简而言之就是识别出10个阿拉伯数字，山于数字的清

12、晰程度或者是个人的写字习惯抑或是其他，往往手写体数字的性状、人小、深浅、位置会不人一样。手写体识别一般包括3个阶段，预处理特征提取分类识别。手写数字识别前景广阔，广泛应用于表格中数字的识别、汽车牌照的数字自动识别和成绩单的识别等。实现数字的自动识别能够给人们的工作和生活带来很大的方使。对于该领域的研究具有重要的理论价值：一方面，阿拉亻白数字是唯一的被世界各国通用的符号，对手写数字识别的研究与文化背景无关，这样就为各国各地区的研究工作者提供了一个自由平等的舞台，大家可以在这一领域施展才智，各抒己见。另一方面，由于数字识别的类别数较少（只有0到9十个类别，有助于做深入分析及验证一些新的理论。这方面

13、最明显的例子就是人工神经网络，相当一部分的人工神经网络模型都以手写数字识别作为具体的实验平台，验证理论的有效性，评价各种方法的优缺点。 0数字识别的算法较多，当前运用较好的主流算法以统诳聚类和分类算法为主，如Bagging算法、支持向量机算法、神经网络等。手写数字识别难度在于、数字相似性大，但字形相差不大：二、数字虽然只有10种，但笔划简单，同一个数字写法差别大三、手写数字存在断笔和毛刺，对识别造成影吭0本文选择分类算法中的决策树算法、支持向量机算氵去、神经网络对MNIST数据集进行数字识别，并对分类效果进行比较分析。2 分类算法分类器识别是实现手写体数字识别的最终关键，基于距离的分类器和神经

14、网络分类器这两太类是目前现有的最主要的分类器。分类是数据挖掘的重要分支，可用于提取、描述重要数据的模型或预测未来的数据趋势12，1决策树决策树也称为判定树，是一种有监督的学习方法。决策树代表着决策树的树形结构，可以根据训练集数据构造出决树。如果该树不能对所有对象给出正确的分类，就选择一些例外加入到训练集数据中。重复该过程，直到形成正确的决筻集生，决策树方法首先对数据进行处理，利用归纟内算法生成可读的规则和决筻树，然后亻吏用决筑树对新数据进行分析，本质上是通过一系列规则对数据进行分类的过程。决策树的典型算法有D3，C4丐，CART等。根据训练集构建决策树，决策树中的结点逐层展开：每展廾一层了结点

15、，并将其设为叶结点就得到一棵决策树，然后采用测试集对所得决策树的分类性能进行统计。重复一上述过程，可以得到决筑树在测试集上的学习曲线。根据学习曲线，选择在测试集上性能最佳的决树为最终的决树 2、1.1 11)3算法J.Ross Quin n在1g86年将信息论引入到决策树算法中，提出了们引2算法，算法思想如下、设样本集E共有c类训练集，每类样本数为PI,且= 1，2，3， 0如果以属性A作为测试属性，属性A的v个不同的值为vipv2,vvb,可以用属性A 将E划分成v个了集(El,E2,Ev,假定Ei中含有第j类样本的个数为Pj, j：1，2，3，一，c，那么子集Ei的熵为；/b00加亻巪丿一一乥一一og、一一0 属性众的信息熵为.ClOCl i0 om忸肋、片一一力咖r E D尹丐丿将加0肋0叩y代入公式的后可得、0/厂07 0，片一乥一（乥log)（3）一棵决策树对一实例做出正确类别判断所需的信息为c 信息增益/可“一G底，4）二7可“伍）一7呼“一0t0叩y）3旧3 存在属性偏向对噪声敏感等问题。2、1.2 C45算法在旧3算法的基础上，Quinlan在1993年提出了一种改进的算法，即C4 5 算法3,信息增益率计算如下Gainvatiod)一（5）唏片一E logC45算法克服了03算属性偏向的问题，增加了对连续属性的处理

展开阅读全文

基于MATLAB的手写体数字识别算法的实现与分析&ampamp;#x2d;毕业论文.

最新文档