(正版)手写体数字识别中的特征提取和特征选择研究[76页]

上传人:哈**** 文档编号:137451195 上传时间:2020-07-08 格式:DOCX 页数:74 大小:938.50KB
返回 下载 相关 举报
(正版)手写体数字识别中的特征提取和特征选择研究[76页]_第1页
第1页 / 共74页
(正版)手写体数字识别中的特征提取和特征选择研究[76页]_第2页
第2页 / 共74页
(正版)手写体数字识别中的特征提取和特征选择研究[76页]_第3页
第3页 / 共74页
(正版)手写体数字识别中的特征提取和特征选择研究[76页]_第4页
第4页 / 共74页
(正版)手写体数字识别中的特征提取和特征选择研究[76页]_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《(正版)手写体数字识别中的特征提取和特征选择研究[76页]》由会员分享,可在线阅读,更多相关《(正版)手写体数字识别中的特征提取和特征选择研究[76页](74页珍藏版)》请在金锄头文库上搜索。

1、北京邮电大学硕士学位论文手写体数字识别中的特征提取和特征选择研究姓名:董慧中请学位级别:硕士专业:信号与信息处理指导教师:盛立东20070308手写体数字识别中的特征提取和特征选择研究手写数字识别是文字识别中的一个重要的研究课题,数字的类别 只有十种,笔划又简单,其识别问题似乎不是很困难。但事实上,一 些测试结果表明,数字的正确识別率并不如印刷体汉字识别正确率 高,甚至也不如联机手写体汉字识别率高,而只仅仅优于脱机手写体 汉字识别。手写数字识别的难度在于其变体极多,而且对数字识别单 字识别正确率的要求要比文?要苛刻得多。目前对各类字体的数字识 别特别是脱机手写数字识别仍然处在发展阶段,识别效果

2、仍然不够理 想。因此,研究简单高效的手写数字识别依然是一个重要的研究方向。本文主要对手写体数字识别的关键问题特征提取和特征选 择进行了探讨和实验。本文的工作主要有以下几个方面:1 在研究了多种手写数字特征的基础上,本文提取了轮廓特征. 笔划密度特征、粗网格特征.重心及重心矩特征.首个黑点位置特征.投影特征及傅立叶变换特征等七种手写数字的结构和统计特征。2从多种特征选择方法中,采用了类内类间比、KW检验及爛函数这三种特征选择方法对特征进行了选择。3通过大量实验,对手写体数字的特征降维问题进行了分析研 究。4 建立了一个基于BP神经网络的手写体数字识别系统,将原始特 征和选择后的特征经过该BP神经

3、网络检验,取得了较好的系统性能, 从而证明上面提出的方法是可行的。关键词手写数字识别BP算法神经网络特征提取特征选择ABSTRACTtrch subject inHandwriting digits recognition is an important res character recognition. The difficulties of handwriting digits recognition are due to its various anamorphosis. At present, the digits recognitions of different letterfo

4、rms, especially the offline handwriting digits recognition,1.are still under development, and the recognition effect is not idTherefore, it is still a very important research direction to study simple and high-efficient handwriting digits recognitionThe thesis probes into the key issue of handwritin

5、g digits recognition一feature extraction and feature selection. The main work of the thesis includes the following aspects:1. Based on the researches on the features of several handwriting digits, the thesis extracts the structures and statistic features of seven kinds of handwriting digits, i.e. out

6、line feature, stroke density feature, wide grid feature, barycenter and barycenter distance feature, the first black point position feature, project feature, and Fourier switch feature2. From different feature selection methods, this thesis adopts three methodsinner and outer analogy, K-W checking a

7、nd entropy function一 to select the features.3 This thesis analyzes the feature dimension decrease issue of the handwriting digits through a lot of experiments4. This thesis establishes a handwriting digit recognition system based on BP neural network The original features and selected features both

8、have good systematic performance after checked through BP neural network, which proves the above mentioned method feasibleKEY WORDS: Handwriting Digits RecognitionBP Algorithms Neural NetworkFeature Extraction Feature Selection.独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容

9、以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教行机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意.申请学位论聲资料若有不实之处,本人承担一切相关责任本人签名:专瓠日期:2心皿关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被査阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存

10、、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在_年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。H 期: 一 一 日期:砂7皿本人签名:导师签名:北京邮电大学硕士学位论文手写体数字识别中的特征提取和特征选择研究第一章引言1.1模式识别本文研究的脱机手写数字识别是模式识别的一个分支,因此先对模式识别作 一个简单的讨论什么是模式和模式识别呢?从广义地说.存在于时间和空间中 可观察的事物,具有时间或空间分布的信息,如果可以区别它们是否相同或相似, 都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的 具有时间和

11、空间分布的信息;把模式所屈的类别或同一类中模式的总体称为模式 类(或简称为类)而“模式识别则是用计算机实现人对各种事物或现象的分析, 描述,判断,识别,在某些一定量度或观测基础上把待识模式划分到各自的模式 类中去。回顾模式识别的发展历史,模式识别诞生于二十世纪二十年代,随着四 十年代计算机的出现,五十年代人工智能的兴起,六十年代初迅速发展成为一门 学科。它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,推动 了人工智能系统的发展,扩大了计算机应用的可能性,其中也包括了文字识别系 统的迅速发展。模式识别的研究主要集中在两方面,即研究生物体(包括人)是如何感知对象 的,以及在给定的任务下

12、,如何用计算机实现模式识别的理论和方法。前者是生于认知科学的范畴;理学家.心理学家、生物学家.神经生理学家的研究内容, 后者通过数学家.信息学专家和计算机科学工作者近几十年来的努力,已经取得 了系统的研究成果.12手写数字识别的综述1.2.1手写数字识别的研究背景和研究意义字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国 家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息,目前在印刷体 和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息, 主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、 统计报表.财务报表、银行票据等等,处理这

13、类信息的核心技术是手写数字识别。 北京邮电大学硕士学位论文手写体数字识别中的特征提取和特征选择研究这几年来我国开始大力推广的“三金”工程在很大程度上要依赖数据信息的输入, 如果能通过手写数字识别技术实现信息的自动录入,无疑会促进这一事业的进 展。因此,手写数字的识别研究有着重大的现实意义,一旦研究成功并投入应用, 将产生巨大的社会和经济效益。手写数字识别作为模式识别领域的一个重要问题,也有着重要的理论价值:1. 阿拉伯数字是唯一的被世界各国通用的符号,对手写数字识别的研究基 本上与文化背景无关,这样就为各国,各地区的研究工作者提供了一个施展才智 的大舞台.在这一领域大家可以探讨,比较各种研究方

14、法.2. 由于数字识别的类别数较小.有助于做深入分析及验证一些新的理论。 这方面最明显的例子就是人工神经网络(A 相当一部分的ANN模型和算 法都以手写数字识别作为具体的实验平台,验证理论的有效性,评价各种方法的 优缺点3. 尽管人们对手写数字的识别已从事了很长时间的研究,并已取得了很多 成果,但到目前为止机器的识别本领还无法与人的认知能力相比,这仍是一个有 难度的问题。4. 手写数字的识别方法很容易推广到其它一些相关问题,一个直接的应用 是对英文这样的拼音文字的识别。事实上,很多学者就是把数字和英文字母的识 别放在一块儿研究的。1.2.2手写数字识别的难点数字的类别只有十种,笔划又简单,其识

15、别问题似乎不是很困难。但事实上, 一些测试结果表明,数字的正确识别率并不如印刷体汉字识别正确率高,甚至也 不如联机手写体汉字识别率高,而只仅仅优于脱机手写体汉字识别。这其中主要 原因是:第一,数字笔划简单而平滑,字形相差不大,使得准确区分某些数字相 当困难;第二,数字虽然只有十种,而且笔划简单,但同一数字写法千差万别, 全世界各个国家各个地区的人都用,其书写上带有明显的区域特性,很难完全做 到兼顾世界各种写法的极高识别率的通用性数字识别系统。另外,在实际应用中, 对数字识别单字识别正确率的要求要比文字要苛刻得多这是因为,数字没冇上 下文关系,每个单字的识别都事关重要,而且数字识别经常涉及的财会

16、、金融领 域,其严格性更是不言而喻的。因此,用户的要求不是单纯的奇正确率,更重要 的是极低的、千分之一甚至万分之一以下的误识率。此外,大批虽数据处理对系 统速度又有相当的要求,许多理论上很完美但速度过低的方法是行不通的因此, 研究高性能的手写数字识别算法是一个有相当的挑战性的任务。1.2.3学习和测试样本库的选择正如前一部分提到的,手写数字的写法带有明显的地区性和民族性,因而选 择一个可供系统训练和测试使用的样本库是手写数字识别研究的重要基础之一. 对识别系统的性能也有重要的影响。研究者对所需的样本库有两种选择:一是自 己根据需要建立专门的样本库,二是选用其它机构做好的现成的样本库.前者的 优点是帖近自己的应用,缺点也是明显的:要费相当的精力且

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号