手写文字识别技术的研究

上传人:自*** 文档编号:79689994 上传时间:2019-02-17 格式:DOCX 页数:7 大小:29.89KB
返回 下载 相关 举报
手写文字识别技术的研究_第1页
第1页 / 共7页
手写文字识别技术的研究_第2页
第2页 / 共7页
手写文字识别技术的研究_第3页
第3页 / 共7页
手写文字识别技术的研究_第4页
第4页 / 共7页
手写文字识别技术的研究_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《手写文字识别技术的研究》由会员分享,可在线阅读,更多相关《手写文字识别技术的研究(7页珍藏版)》请在金锄头文库上搜索。

1、手写文字识别技术的研究关 兵 摘要:随着计算机性能的提高和科技的不断发展,随着信息时代的到来,为适应社会的需要,文字识别技术也将更完善。OCR技术,利用光学技术对文字或字符进行扫描并转换成计算机内码,其工作原理是通过扫描仪或数码相机等输入设备获取文字、表格、图片等信息,利用各种模式算法分析文字形态特征,判断出文字的标准编码存储在文件中。在现实生活中有着广泛的应用价值。 关键词:手写文字识别 OCR技术 形态特征 模式识别 引 言计算机文字识别,俗称光学文字识别,其英文术语为Optical Character Recognition(缩写为OCR),是指通过计算机技术及光学技术对印刷或书写的文字

2、进行自动的识别,达到认知的目的,是实现文字高速自动录入的一项关键技术。到目前为止,汉字OCR是模式识别技术的一个分支,其主要目的是将汉字(手写体与印刷体)自动读入计算机。而手写文字识别技术,是指通过计算机来识别手写文字的一种识别文字的技术。随着信息化的到来,OCR文字识别技术发展很快,在日常生活中日益重要。文字识别是中文信息录入的快捷手段,由于汉字是非字母、非拼音化的文字,笔划复杂多样,人工键入速度慢而劳动强度大,计算机自动识别文字或语言方式解决了这一难题,能快速高效地将汉字输入进计算机;文字识别技术是提高办公自动化水平的主要因素。办公自动化就是要借助计算机来进行文档的处理,以代替人们日常的办

3、公活动,在现代社会,图像信息占有较大的比重,存在大量文字信息,因此,文字的自动识别对图像的处理有重要的意义;文字识别技术丰富和完善了文字识别理论。现在人们已可通过手写文件经OCR产品的识别录入计算机,大大推动发展了文字识别理论;文字识别是智能计算机智能接口的重要组成部分,智能计算机能认识文字、图像和景物,能听懂语音、理解文字。视觉是智能计算机接受外界信息的主要手段,而识别文字是智能计算机必备的功能。一 、OCR技术的发展OCR概念的诞生,要早于计算机的问世。早期的OCR多以文字的识别方法研究为主,识别的文字当时仅为0-9这几个数字。后来随着计算机的出现和发展,OCR研究才在全球范围内广泛研究和

4、发展。OCR发展至今,可分为三个阶段:1、第一代OCR产品出现于60年代初期,在此期间,IBM公司、NCR等公司分别研制出了自己的OCR软件,最早的OCR产品应该是IBM公司的IBM1418。它们只能识别印刷体的数字,英文字母及部分符号,而且都是指定的字体。60年代末,日立公司和富士通公司也研制出了各自的OCR产品。2、第二代OCR系统是基于手写体字符的识别,前期只限于手写体数字,从时间上来看,是60年代中期到70年代初期。 1965年IBM公司研发出IBM1287,并在纽约世界博览会上展出,开始能识别印刷体数字、英文字母及部分简单的符号。第一个实现信函自动分拣系统的是东芝公司,两年后NEC公

5、司也推出了这样的系统,到1974年,分拣率达到92%-93%。3、第三代OCR系统要解决的技术问题是对于质量较差的文稿及大字符集的识别,例如汉字的识别。1966年,IBM公司开发的OCR系统利用简单的模板匹配法识别了1000个复杂的印刷体汉字,到了1977年,东芝公司又制出可识别2000多印刷体汉字的单字汉字识别系统。我国在OCR的研究方面起步相对较晚,70年代开始进行数字、英文及符号的识别研究,70年代末开始进行汉字的研究,到1986年,汉字的识别进入了一个具有成果性的阶段,不少单位推出了中文OCR产品。到目前为止,印刷体汉字的识别率达到了98%以上,手写体的识别率也在70%以上,并且可对多

6、种字体、不同字号混排识别,国家“863”计划对该方面的研究给予了很大的资助。目前,我国正在争取实现OCR产品识别精度更高、识别速度更快,能同时支持单机和网络操作,使得使用更方便,应用更广泛,达到不同用户的使用要求。二、文字识别的原理与方法汉字OCR的原理是将文字通过光电输入设备,如扫描仪、摄像机、写字板等,转换成二维的点阵信息后,通过对相应的识别方法转换成汉字文字。完成这一套转换工作的是汉字识别系统。文字的识别是指通过一定的方法和技术提取文字的特征并将其存储于机器设备中,实现对文字的自动判别。1、汉字识别系统的组成汉字识别系统主要包括以下几个步骤:汉字图形输入、预处理、单字识别及后处理。汉字图

7、形输入是指通过录入设备将文稿录入到计算机中,也就是说实现原始稿件的数字化,现在用的比较普遍的设备是数字化扫描仪、数字相机等;预处理是指在进行文字识别之前的一些准备工作,主要包括版面分析、图像净化及二值化处理、文字切分、正规化处理等,这一阶段的工作是很重要的,处理的效果如何,直接影响到识别的准确率;单字识别则体现着文字识别的核心技术,主要包括文字特征抽出的方法及分类判别算法。人能够通过大脑很简单地认识文字,是因为在人的大脑中已经保存了文字的特征,像文字的结构,笔画等。要想让计算机去认识文字,首先也要存储类似的信息,那么,存储什么样的信息及如何提取这些信息,则是一个比较复杂的事情,而且要求达到很高

8、的识别率。通常的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析,常用的方法是结构分析方法和统计分析方法;后处理是指对识别出的文字,或者多个识别结果采用词语进行上下文匹配,即将单字识别的结果进行分词,与词库中的词进行比较,以提高系统的识别率,减少误识率。 2、汉字识别方法对于文字的识别,从文字类型上划分,通常分为印刷体文字的识别和手写体文字的识别;从识别的方式划分,通常分为在线识别和脱机识别。由于印刷体与手写体的文字特征差异较大,所以在软件识别上,其处理方法是不同的。下图描述了文字识别系统的组成:特征匹配输出结果特征选取预处理模式输入特征抽取模型字符特征图1 文字识别系统组成图在

9、汉字识别系统中最为重要的部分是识别器,识别器的质量可以说基本决定了汉字识别系统的性能。目前汉字的识别还只停留在模式识别上,模式识别主要有两种,即统计模式识别和结构模式识别。OCR的应用主要表现在以下几个方面:在线式的文字识别,是指书写完一个文字后立刻进行识别,如在PDA中文字的录入,汉字手写板等;表格文字识别,是指对在固定印刷的表格中填写的数据进行识别,如税务申报表的录入;纯文本文字识别,如文件的录入,报刊杂志的录入等。统计模式识别是指提取待识别汉字的一组特征值,然后按经一定准则所建立的统计函数进行数值分析,根据数值分析的结果确定汉字。由于统计分析理论比较成熟,因此,这种方法对单个汉字的识别准

10、确率高,但对不同字体的混排,特别是手写文稿的识别,效果不理想。结构模式识别与统计模式识别相比,有比较严格的规律性。中国的汉字量虽然很大,但是汉字是图形字符,含有丰富的结构信息 。结构模式识别就是设法提取汉字结构的特征信息及其组字的特定规律,然后根据特征信息及其特定规律进行汉字的识别。结构识别是将汉字看作是若干个简单结构的集合,这个简单的结构叫做基元,每一个汉字都可以由这些基元组成,汉字识特定基元的集合。汉字的识别则是将汉字分解成若干个基元。由于印刷体文稿汉字字体规整,结构清晰,从理论上讲,结构模式特别适用。利用结构信息,吸取统计模式的优点,近几年统计结构识别法得到广泛的确认和应用,为解决汉字识

11、别这个难题提供了一条新思路。由于集成电路技术的飞速发展,今后研究方向主要集中于吸收和应用先进技术,如神经网络、人工智能等方面的成果,促进汉字识别技术发展。3、实现数据自动录入的几种技术手段信息时代的到来,将会很大程度的改变人们的生活方式与工作方式。信息也变成了当今社会的热门话题。信息的来源及所表达的含义也是各种各样的,尤其是近几年因特网的迅猛发展,为信息的传递提供了绝好的工具。政府、企业对计算机的依赖程度越来越激烈,以计算机为核心工具的办公及业务处理的时代已经到来。只有信息被电子化之后,它才能得到快速地处理与传递。所谓信息电子化,其实是以计算机能够处理的数字的形式来表达信息。那么大量的信息如何

12、录入到计算机里呢?总结起来,应该有以下几种方式:人工键盘录入、数据自动采集设备、数字化处理设备、智能录入系统等。自动录入设备方面主要有传感器,A/D设备,扫描仪,数字相机,图像处理卡等,它们主要应用在一些特殊的场合。智能录入系统有OCR系统及语音识别录入系统,这些系统经过几十年的研究与发展,在很多场合完全能够达到实用的程度,比传统的手工录入方式的速度提高几十倍或上百倍。像税务、银行、工商、海关、教育等部门都有大量的报表数据需要录入到计算机中,这不是一个简单问题,而是一个影响整个计算机应用系统的瓶颈。传统的做法是聘用大量的录入人员,这种做法不但成本高,而且录入的数据错误比较多,为了避免录入错误,

13、通常的做法是多个人分别录入,由软件来比较去发现可能出现的错误。另外,还有OCR录入方式、IC卡方式、远程数据交换方式等。现以税务行业的纳税申报表的录入为例,说明它们的优缺点。IC卡方式其实就是人工键盘录入方式,只不过是把大量需要集中录入的数据,分散到由纳税人各自完成录入工作,存储到IC卡(或软盘)中,报税时将此卡里的数据拷贝到税务部门的服务器里。每个纳税人需要购买一个报税器的IC卡读写器,这种方式唯一的特点是通过增加纳税人的负担,而减轻了税务部门的负担。远程数据交换方式其实就是EDI(Electronic Data Lnterchange)的一个具体应用,从数据录入技术的发展来看,未来的模式应

14、该是EDI,尤其是近几年,网络技术的发展很迅速,未来若干年后,计算机网络应该像现在的电话网络,计算机的普及程度会像现在的电话一样,那时EDI就变得现实了,但是,这一时刻何时能到来呢?现在已经有一些用户在考虑EDI的应用,通过已经应用的单位的结果看,太超前了,不是技术不行,而是整个社会计算机应用的层次没有达到。从数据录入方式来看,OCR技术是一种比较直观的,原业务方式不需要做多大变革的,现阶段较为现实的替代手工录入的一种方式。目前,OCR的技术较为成熟,识别率较高,而且还有专用的OCR录入设备,在软件支持上,通过逻辑运算,算数运算等多种后处理手段,使数据在高速路入的同时,保证了准确性。三、OCR

15、技术的应用OCR技术,在现实生活中有着广泛的应用价值。通过它可完成高速的文字录入任务,在很多场合可替代键盘录入。文件的识别录入是很多办公部门经常使用的工具,国内已有很多这样的产品,而且已经实用;邮件的自动分拣系统更能快速地解决大量信函的分拣问题,国外已普遍使用,国内也有很多大型邮局在使用;在线手写电子记事本等也在人们的生活中发挥重要的作用;手写体表格数据自动录入系统,则可应用在具有大量人工填表的行业,如税务申报表、海关申报表、财务发票、财务报表、社会调查表等的录入。这类系统在发达国家已经发挥着作用,在我国,随着计算机在各部门的应用,这方面的需求已经开始。目前国内市场能见到的中文OCR产品有近1

16、0种,但真正进入市场,并占有一定份额的产品主要有以下几种:清华文通公司的TH-OCR系列、北京北信工程学院的BI-OCR系列、中自智能公司的ICR系列、沈阳自动化所的SY-OCR系列、北京曙光公司的NI-OCR系列,可根据需要选择应用。汉字是一种图形符号,且数量大,一、二级常用汉字就有几千个,随着信息交流速度的加快,汉字输入的瓶颈问题日益严重,因此,汉字OCR技术有着广泛的发展前途及使用价值。1、手写体汉字单字识别方面手写体汉字单字识别技术主要解决汉字的手工输入问题。到目前为止,汉字的手工输入方法种类繁多,但无论是声码还是形码输入,都必须进行必要的汉字拼法(结构码)的记忆,记忆量多少不一,必须进行必要的学习,且容易遗忘。一旦手写体汉字识别技术进入实用化,汉字的输入将变得易如反掌,因为,再不需要为输入汉字进行任何的前期培训和必要的记忆,汉字的输入同

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号