汉字识别技术研究－金锄头文库

资源描述

《汉字识别技术研究》由会员分享，可在线阅读，更多相关《汉字识别技术研究（28页珍藏版）》请在金锄头文库上搜索。

1、中国人民公安大学本科毕业论文(设计) I汉字识别技术研究摘要：本文主要在研究当前光学字符识别系统及相关识别技术的基础上，利用 matlab 编程语言设计了一套简单的相对具有较高识别率的汉字识别程序。首先，将 RGB 图像转化为二值图像(即仅有黑白二种颜色的图像)，而后经平滑处理，滤除混入的噪声，得到清晰完整的文字图像，其次，进行行字切分使整篇文字图像成为单个文字图像，最后提取汉字的横竖撇捺特征与现有的汉字特征库进行比较匹配从而进一步输出汉字的数码形式。实验结果表明，本文研究的方法能够识别汉字，准确率较高。关键词：印刷体汉字识别；预处理；特征提取；特征匹配目录1 绪论 .11

2、.1 汉字识别的研究背景与现实意义 .11.2 我国汉字识别技术发展历史与现状 .21.3 本文研究的主要内容 .32 汉字识别技术的相关基础知识 .42.1 概述 .42.2 汉字识别流程 .52.2.1预处理 .52.2.2 特征提取 .62.2.3 特征匹配与汉字识别 .72.2.4 后处理 .72.3 汉字识别模式 .82.3.1 结构模式识别 .8 中国人民公安大学本科毕业论文(设计) II2.3.2 统计模式识别 .83 汉字识别系统 .93.1汉字图像增强 .93.1.1 二值化处理 .93.1.2 平滑去噪 .103.1.3 行字切分 .103.2 特征提取 .123.2.1

3、统计特征 .123.2.2 特征提取方法 .133.3 特征匹配识别 .133.4 后处理 .144 系统仿真与实验结果 .154.1实验环境 .154.2实验过程 .154.2.1预处理 .154.2.2 特征提取与特征识别 .194.2.3 比对实验 .214.3仿真结果分析 .224.4 本章小结 .225 总结与展望 .235.1总结 .235.2展望 .23致谢 .25参考文献 .26 中国人民公安大学本科毕业论文(设计) 11 绪论1.1 汉字识别的研究背景与现实意义据文献记载，印刷体汉字的识别最早可以追溯到 60 年代。1966 年，IBM 公司发表了第一篇关于印刷体汉字识别的

4、论文，在这篇论文中他们利用简单的模板匹配法识别了 1000 个印刷体汉字。70 年代以来，日本学者做了许多工作，其中有代表性的系统有 1977 年东芝综合研究所研制的可以识别 2000 个汉字的单体印刷汉字识别系统；80年代初期，日本武藏野电气研究所研制的可以识别 2300 个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平 1。此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。但价格过于昂贵，没有得到广泛应用。80 年代初期，日本武藏野电气研究所研制的可以识别 2300 个多体汉字的印刷体汉字识别系统, 识别率为 99.88%，识别速度大于 100 字/ 秒，代

5、表了当时汉字识别的最高水平。80 年代中期以来，以软件为主并使用通用高档微机的产品走向市场。汉字作为中华民族文明发展的信息载体，已有数千年的历史，也是世界上使用人数最多的文字，它记录了璀璨的民族文化，展示了我国独特的思维和认知方法。随着计算机技术的推广应用，尤其是互联网的日益普及，人类越来越多地以计算机获得各种信息，大量的信息处理工作也都转移到计算机上进行。因此，对于我国而言，在日常工作尤其是和我们接触颇多的警务工作中，存在着大量的文字信息处理问题，因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富，其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的，这使得以键盘输

6、入为主要手段的计算机输入设备变得相形见绌，输入速度低已经成为信息进入计算机系统的主要瓶颈，影响着整个系统的效率，值得一提的是，这对于处理案件等警务工作的影响尤为明显 2。因此，要求有一种能将文字信息高速、自动输入计算机的方法。这种快速，准确的自动处理方式将在很大程度上推动我国信息化的发展进程，对公安工作也有着相当深远的意义。1.2 我国汉字识别技术发展历史与现状我国对印刷汉字识别的研究始于 70 年代末、80 年代初，大致可以分为三大阶段中国人民公安大学本科毕业论文(设计) 22：第一阶段，从 70 年代末期到 80 年代末期，主要是算法和方案探索。第二阶段，90 年代初期，汉字识别技术由实

7、验室走向市场，初步实用。第三阶段，主要是印刷汉字识别技术和系统性能的提高，包括汉英双语混排识别率的提高和稳健性的增强。同国外相比，我国的印刷体汉字识别研究起步较晚。中国是使用汉字最久远和最广泛的国家。因此，能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现，它不仅与人工智能的研究有关，而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。因此针对于我国当前的状况而言，实现在高速率，高效率的汉字识别技术方面的突破是目前的棘手问题，虽然我国印刷体汉字识别技术的发展和应用已经有了长足进步：从简单的单体识别发展到多种字

8、体混排的多体识别，从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析，同时汉字识别率已达到 98%以上。但是就汉字本身属性而言，仍然面临着以下方面的困难：(1)类别较大目前我国常用汉字约 30004000 个。国标 GB2312 一 80 常用汉字字符集中共有，6763 个常用字，分为两级。第一级 3，755 个汉字，使用频度为 99.7%，第二级有3，008 个汉字，两级汉字总使用频度为 99.99%，识别系统一般应能正确识别这些常用字，才能满足实际应用的需要。目前的研究目标一般

9、都着眼于解决国标一级 3755 个汉字，即使是这样，汉字识别也属于大类别数的模式识别问题。(2)结构复杂汉字是一种结构性很强的文字，每个汉字都具有特定分布的若干笔划构成，笔划是汉字最基本的组成部分，汉字也可以看成是由部件组合而成的，部件是笔划有意义的组合，一般称之为偏旁、部首或字根。笔划和部首的不同排列组合，构成了表达不同含义的结构异常复杂的汉字字符。(3)相似字多部分汉字字符之间只存在着很细小的差别，具有相同笔划数目的汉字字符之间的中国人民公安大学本科毕业论文(设计) 3差异有的表现为某一个笔划位置或形态的微小变化，又比如“干”和“于”仅在字符的下部有一细微的差别。即使由人来辨认印刷体的这些汉字，在无上下文信息的帮助时，也很容易出错 3。识别算法和系统必须能够正确判定这些细微的差异，否则就会发生错误。当前，我国较为先进，也是应用较为广

展开阅读全文