汉字篆字识别系统文献综述

资源描述

《汉字篆字识别系统文献综述》由会员分享，可在线阅读，更多相关《汉字篆字识别系统文献综述（5页珍藏版）》请在金锄头文库上搜索。

1、汉字篆字识别系统文献综述机械工程学院研 1201 班吴金明1.1概述汉字识别是用计算机自动辨识写在纸(或介质) 上的汉字, 是智能计算机接口的一个重要组成部分, 也是中文信息处理中汉字自动、高速输人的一种最重要手段. 作为模式识别和人工智能学科的一个分支一文字(汉字) 识别技术在我国自 70 年代末起步, 至今已有 30 多年了, 目前正向实用化大步迈进。在本文中所要解决的问题是对汉字中的篆字进行识别，对于汉字篆字识别系统目前国内还没有成熟的研究，但是其基本原理同其他字体的识别相似。篆字是很古老的一种汉字，在我国汉文字发展史上，篆字是大篆、小篆的统称，亦称篆书。大篆指甲骨文、金文、籀文、

2、六国文字，它们保存着古代象形文字的明显特点。小篆也称“ 秦篆 ”，是秦国的通用文字，大篆的简化字体，其特点是形体匀逼齐整、字体较籀文容易书写。它是大篆由隶、楷之间的过渡。所以研究篆字文化具有十分重要的历史意义。掌握了篆字的特征是汉字识别很重要的前提。目前，对于汉字识别系统应用最广泛的就是光学字符识别(Optical Character Recognition)，自从 1929 年Tausheck 取得光学字符识别(Optical Character Recognition)专利以来，经过近一个世纪的发展，OCR 已经成为当今模式识别领域中最活跃的研究内容之一。它综合了数字图像处理、计算机图形学

3、和人工智能等多方面的知识，并在计算机及其相关领域中得到了广泛应用。汉字识别过程大体如下：1.2 光学字符识别方法及分类光学字符识别过程首先使识别设备学习、记忆将要辨识字符的特征，使这些特征成为识别系统自身的知识，然后再利用这些先验知识对输入图像进行判决，得到字符的识别结果。字符的特征不仅仅局限于平面上的点阵位置信息，在频率空间、投影空间，甚至语义空间字符都有各自的特征。这些特征在识别字符时又有各自的特点及优势。根据识别字符所采用具体特征的不同便衍生出了不同的识别技术。通常，根据不同的技术策略，识别方法可以分为如下 3 类：统计特征字符识别技术、结构字符识别技术和基于神经网络的识别技术。1.3

4、光学字符识别的近期发展1.采用激光作为扫描光源。这是因为激光光束集中, 方向性强, 扫描光点极小, 因而能显著地提高分辨能力。另外, 激光光源的寿命比普通光源长许多倍,光学系统比较简单, 不需要特制的高精度高压电源 ,因此, 其造价也可大幅度降低。但其缺点是扫描系统大都采用机械式的光点偏转机构, 对激光束控制不够灵活, 扫描速度较慢。除激光扫描法外, 还有用半导体光敏元件组成的二维面板来实现光电转换的。其原理是将照射在纸面上的反射光加以放大, 或用光导纤维投影到光敏元件板上, 从而对文字进行顺序扫描 ,并产生相应的输出电信号。半导体光敏元件具有寿命长.稳定性高, 结构简单, 扫描速度快等优点。

5、2.OCR 与传真扫描技术相结合。这就是用 OCR 来识别页面上的文字 , 用传真扫描技术来扫描图像, 然后再用信息压缩技术将信息进行压缩。在这种情况下, 计算机既能接收可识别文字的标准编码, 也能接收传真扫描的图像信息。这种由 OCR 与传真扫描相结合的机器 , 已由美国 Burroughs 公司制造出来了, 别的公司也有同类的装置, 用在建立电子文档上。3.在软件设计方面, 使用了识别逻辑 ,从而改进了文字的特征抽取与判决的方法, 增加了可识别字符的种类, 提高了识别速度, 降低了误识率与拒识率, 因此改进了数据输入的质量与灵活性。4.对汉字字符识别的研究, 尤其是对手写体汉字识别技术的研

6、究工作十分活跃。如日本东芝公司在 1977 年首先研制成功了可识别 2000 个印刷体汉字的OCR 样机 , 输入速度为 100 字符/ 秒, 基本达到了实用水平。接着, 日立公司也相继研制成功了同类的样机。在手写体汉字识别方面, 仅日本发表的特征抽取方式就达数十种, 虽然许多问题尚待解决, 但一般预测在 80 年代内会达到实用水平。5.实现 OCR 的标准化。其中包括 OCR 可识别的字符字型与字号的标准化 ,字符编码的标准化,打印质量与打印规格的标准化,打印用纸与油墨的标准化。 OCR 的标准化工作对于评比各类 OCR 设备的性能与提供适合 OCR 用的文件方面都具有重要的意义与作用 ,并

7、将使这项技术得到进一步的推广与应用。 1.4 光学字符识别技术的展望(1)基于模糊技术的识别方法由于字符本身，特别是手写字符，在字型字体上的变化很大，导致在文字识别中存在着很大的不确定性，因此模糊数学的观念便很自然地被引用到了模式识别领域中。1976 年 A.Rosenfeld 等人提出了一种景物标识松弛算法，1977年， R.Jain 等人运用模糊集的理论对复杂图像进行了分析，实现了运动目标的检测，同时开始了模糊数学在图像识别中的应用。朱学芳等通过对文字中直线、折线和圆进行模糊定义，提出了一种无约束的手写数字识别方案，有效地克服了手写数字变化大的问题。(2)结合语义理解的后处理技术与识别前的

8、预处理相对，可以对识别的结果进行后期处理，提高识别的正确率。分析人类在识别文字的过程，文字一般都是结合上下文进行理解的，因此，计算机在识别文字时也可以在识别单字的基础上，结合单字的上下文信息对识别结果进行校正，以单词甚至句子作为一次识别的结果。依据对语言文字的统计信息，可以确定某个文字后可能跟随的候选字符集，达到缩小搜索范围、简化计算的目的。基于这个原理，姜珊提出了汉字集群识别的思想。如果把候选字符集中可能出现的字符赋于一定的出现概率，每识别完一个字符便赋于一个新的状态，则可以采用数学中隐性马尔可夫模型(HMM)加以描述。秦娇华8介绍了一种利用 HMM 描述汉语文本识别过程并指导后处理的典型过

9、程。这种结合上下文信息识别的技术存在的问题主要集中在如何高效组织候选字符子集、实现候选字符的快速定位上。(3)多种策略的综合集成在 OCR 领域，虽然新的算法思路不断涌现，但是在一个高效的 OCR 系统中仅仅采用一种识别方式是无法满足现实要求的。单个识别策略的能力有限，因此采用多种策略实现优势互补，多角度利用字符的特征信息是 OCR 发展的方向。在这个方向上经常采用的集成策略有投票法、概率法、DempsterShafer 法以及行为知识空间法等多种综合方法。以投票法为例，顾名思义，每种识别策略都拥有一张选票，对于同一个字符不同策略各自产生自己的结果即投票，所有策略投票之后，得票最多的识别结果就

10、是最终的识别结果。显然，在这种综合方式中需要大量资源。一方面要使各种算法都能够完成，另一方面，如果各种算法间的并行性不好，总的执行时间就要成倍增长。1.5汉字识别现状分析汉字识别方法尽管多种多样洲, 但关键问题是特征提取和分类器的设计 , 稳定的特征提取方法和良好性能的分类器设计是整个识别系统的核心,它们直接决定了识别系统的能。目前,有许多汉字特征提取的方法, 例如基于模糊方向像素的特征提取、基于弹性网格方向的分解特征提取、基于梯度的特征提取、基于笔画和笔顺的特征提取、基于结构的特征提取等特征提取的方法。另外, 也有人把小波变换技术用于汉字的识别。再者, 随着人工神经网络技术的日益发展 , 基

11、于 RBF-DDA神经网络、Hopfield 网络、 ART 网络、自组织特征映射网络、认知器模型等的汉字识别技术也越来越被人们重视。总的来说, 汉字识别方法按特征提取和分类器设计不同, 通常可分为统计模式识别法、结构模式识别法( 或称句法识别法) 、统计与结构相结合的识别法( 或称语义句法识别法) 及人工神经网络识别法等。1.6我国汉字识别技术的展望当前汉字识别的发展非常迅速, 许多成果均已走向实用 , 但是不少成果还不成熟, 主要问题是识别率还不很令人满意, OCR 输出结果还需要费力校对才可, 这大大限制了其实用性。此外我国对汉识别成果缺乏公共的评价材料和手段, 即对汉字识别成果没有建立

12、一种公共的测试方法,也没有公共的测试数据库 , 因此其成果缺乏可比性, 难以判断成果的实际水平。对于汉字识别未来的发展前途, 我们应抱着乐观的态度。因为无论是脑机能的研究( 主要是指人的文字识别机制的研究) 还是计算机性能的提高都会不断促进文字识别理论和技术发展, 并最终达到理想的目标。1识别方法上仍走统计和结构方法相结合的道路一种汉字识别的方法就是指特征选择抽取、分类判别的方法. 特征抽取、分类判别是汉字识别的核心, 决定了识别系统的品质。尽管不同的识别系统具体的识别方法各不相同, 但就本质而言, 可以归纳为统计和结构两类基本方法。目前汉字识别在结构方法中应用了统计方法的模式分布性质, 而在

13、统计方法中, 模式的表示也体现了模式结构特征.统计法宜识别有噪声的文字, 特征抽取容易且稳定, 但不能很好地利用结构信息; 而结构法可利用汉字字形的结构关系来识别, 对文字变体、变形适应性好, 但抗干扰能力低。所以, 对汉字识别来说, 着重汉字字形结构特点, 把统计和结构方法结合起来 , 存优去劣, 是当前基本识别方法的主要发展方向.2多种识别方法、环节集成国家 863 高科技计划项目由国家智能计算机研究开发中心将我国三个实用的印刷体识别系统(北信 O C R、沈阳 O C R 、清华 O c R ) 在系统中构成的集成系统, 用简单表决法实现了一个误识率接近 0.1% 的识别系统, 初步显示

14、了集成式系统的优势。进一步要在识别方法和系统各环节集成. 在识别各环节间, 不是简单的串联, 而是加人级与级之间的反馈信息; 在系统间 , 不是简单的组合表决, 而是对各系统扬长避短, 互相补偿形成最佳组合. 这种集成系统才能大大提高识别系统的品质。3前、后处理在系统中的作用不断加强随着印刷体汉字识别系统的实用化和单字识别率的提高, 提出了对整页文本识别效率和识别率的越来越高的要求. 在单字识别前, 对整页文本进行图文分离, 抽取文字块 , 按标题组织文本, 对倾斜文本自动纠正, 消除背景干扰等. 目前在系统前处理中不少人机交互的操作将被整页文本的分析与理解所代替, 其结果是提高了系统效率,

15、扩大了识别系统的应用范围 . 在单字识别以后, 目前的系统停留在用汉语词进行上下文匹配. 要进一步扩大语言学知识的利用, 把语言学知识和模式识别知识结合起来, 把单字识别扩展到字段、句子的识别 . 用大量语料库统计相邻字、词的同现概率提高纠错率也是一个方向. 这些将使识别系统对文本的自动纠错和改错的功能大大加强.4表格识别目前少数系统虽有表格功能, 但距实用要求尚远. 今后, 将不断增加表格识别的智能性和适应范围. 例如: 复杂表格的分析与理解, 字符与表格线相接或相交的处理, 提高表格栏目中字符、数字的识别率, 大幅面表格输人, 不同格式表格栏目内容自动输人数据库等.5科技印刷文本的识别除了

16、对公式、图形等版面分析与理解的难点以外, 对汉字、英文、数字、符号混排文本有高识别率是另一个难点. 先判别字符类型再转人不同的识别系统和利用反馈或多次切分增加混排文本切分的正确率是解决这个问题的两条有效途径.6印刷体汉字识别系统今后要从“ 能用” 走向“好用”增强适应性和“ 傻瓜” 性, 提高品质和效率, 扩大识别输人的印刷文本范围, 开拓大陆、台湾和国际市场.7手写印刷体汉字识别将努力接近初步实用水平研究新的识别方法和改善已有的识别方法是核心, 希望不久能达到 90 % 以上的识别率, 满足部分实用的需求. 除了通用型以外 , 专用型(即特定人手写汉字识别) 也将大力发展.特定人手写汉字识别是指对每个限定的人书写汉字的识别, 它可以通过自己专用的特征库, 经过自学习不断地提高识别率 . 和通用手写体汉字识别相比, 它不但可以放松书写限制, 可根据自己的习惯和风格较自由的书写, 而且能在同等技术水平下取得更高的识别

展开阅读全文