储蓄凭条中手写体的提取与净化

上传人:jiups****uk12 文档编号:40727924 上传时间:2018-05-27 格式:PDF 页数:93 大小:2.14MB
返回 下载 相关 举报
储蓄凭条中手写体的提取与净化_第1页
第1页 / 共93页
储蓄凭条中手写体的提取与净化_第2页
第2页 / 共93页
储蓄凭条中手写体的提取与净化_第3页
第3页 / 共93页
储蓄凭条中手写体的提取与净化_第4页
第4页 / 共93页
储蓄凭条中手写体的提取与净化_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《储蓄凭条中手写体的提取与净化》由会员分享,可在线阅读,更多相关《储蓄凭条中手写体的提取与净化(93页珍藏版)》请在金锄头文库上搜索。

1、黑龙江大学硕士学位论文储蓄凭条中手写体的提取与净化姓名:付洪威申请学位级别:硕士专业:计算机软件与理论指导教师:洪海2003.6.1中文摘要 摘要孵修么目前,我国银行普遍应用电子计算机处理储蓄业务,大量的票据靠V 一 手工输入,速度慢,录入人员数量大,劳动强度大:J 银行票据自动识别系统能够对票据中的数据信息进行识别,由手工录入转化为计算机的自动处理。国内外已经对银行票据自动识别系统作了很多的研究工作,但是,在对储蓄凭条中的手写体处理方面约束性强,而且只能够处理手写体的小写和大写金额,在分割手写体汉字时会出现丢失笔划的情况,还没有能够同时处理不同类别的储蓄凭条的嚣统。( 本文在现有的研究成果的

2、基础上,) 设计了一种基于先验知识的二值化方法,可以减小二值化处理对手写体笔划的宽度所产生的影响,并且针对于手写体汉字的结构特征,提出了一种新的图象分割方法,该方法解决了手写体汉字笔划丢失的问题,同时,本文还克服了手写体与基线或印刷体文本交叠的局限性,在进行基线去除时,如果手写体与基线交叉,则会出现笔划断开的问题,本文可以对笔划中的裂缝进行弥合处理,而且能够将手写体从印刷体中分离出来,此外,本文通过模板匹配的方法扩大了处理对象的范围,能够将不同类别的储蓄凭条中的手写体填充项提取出来。关键宇:储蓄凭条处理:图象分割手写体提取外文摘要A b s t r a c t1 o d a y ,m o r

3、e 锄dm o r cw o t k sh 船b e e nd o n ea u t o n 枷c d l yb yd e v e l o p i I l go fs c i 髓c et e c h n o l o g y A 5 e s 始n t i a lo p e 觚o ni nm a n yb u s i n e s s 锄dg o v 豇n m e mo r g 锄l i 荭呖o n so nt e l e c o l I m l u I l i c a t i o I l h e a l mc a r e,f i n a n c e ,i n s u m c c ,强dp u b

4、l i cl n i l m e s ,f b 加p m c e s s i n gr e m a i l 塔al 籼r - 劬奠1 s i v et a s k ,a I l dt h e 咖砸o no f t h i sp r o c e d u r ch 嚣a 钍r t e di I n c 釉i v er e s e a r c hh l t c 托s t S C 1 1 i n e s eb a I l d w 矗血1 9 sa 阳i m p o n a n t 抽f 0 栅t i o ni nb a n :kc h e c k s ,w em l l s ts 印a r a _ t

5、 e 也e m 丹o mt h ei m a g ea n d 鞠V e 也e mi I lb i I l a r yi n l a g ei I lo r d e rt or e c o g n i z ei t nc 锄b el l s e df o re i t l l c rO C Rs y s t c mo r 姗蹦n ge l e c t r i c硒l a g ed o c u m c n t T h es y s t e mi sp r o p o s e dt oa m o m a t i c a l 】ye x 打a c t 锄dc l e a nh a n d w r i

6、 t t e ni t e m sf 洒b I I s i n e s sf o n 璐H 如d w r i t t e nd a t au s u a I l yt o u c ho rc f o s sp r e p r i m c df b r m 曲m c s 龃dt 咖T h ep a p 盯d e s c r i b e sc o m p o n e m sa n d耐也m e d ci I lt h es ) r s t c m T h ea u t o m a t i cb a n kc h e c kp m c e s s m gs y s 忙mi n c l u d e s

7、s i ) 【i n l p m 恤tp a r t s :锄o o t h i n g ,b 幻e l i n c1 0 c a t i o n ,b 勰e l i n ed e l e t e ,i 1 1 南帆n a d o nr e s t 0 他,i m a g es e g m e n t ,c l e 趾h 咂帕r t a ma r i m m e t i c :m o r p h o l o g i c a le r o s i o n ,m o r p b o l o g i c a ld i l a t c ,o p e n锄dd o s e , 王o u g h仃a I

8、l s f b n n ,r e g i o ni n c r e 丛c ,p 喇e c 廿o n ,e t c w t 幛nt h eh 习皿d w r i t i n g sa r ef o l l I l dt o u c 矗血塔o rc s s i n gp 1 e l 妇t c dt e ) ( t s ,m o r p h o l o g i c a lo p 盯a l i o mb 船e do ns 僦s t i c a l 角翻1 聆sa r cI l S e dt oc l 锄t h 锄I f 丘U e d - i m a g e sa r es Ia n _ t ,W I

9、l i c hc a nb cr e c 镒e db yH o u 曲订a n s f o 玎n 1 1 l cs u 巧e c t i v ee v a l u 撕。璐s h o wp m m i s i n gr 豁u l t so f t h ep l 印o s e ds ) ,s t 锄K e yw o r d s:c h e c kp m c 姻s i n gi m 曩g es e g m e n th a n d w 一_ t i n ge I t I t c 6 H第l 章引言 第1 章引言在许多商业和政府机构,通讯,医院,保险中,表格处理是个繁重的劳动。在日常生活中接触最多的是

10、银行的储蓄凭条。根据朱比特媒体( J u p i t c rM e d i a ) 的统计,美国银行业2 0 0 1 年7 月网络银行数据流量比一年前增长了7 7 6 ,数据监测公司 a t am o n i t o r ) 预测,今后两年欧洲网络银行帐户数量将每年增加3 4 ,在美国和欧洲,这个比例还在迅速增加,但是网络银行交易量只占到整个零售银行业务量的5 到1 0 【”。银行每时每刻所产生的大量纸张票据凭证对于银行来说是至关重要的宝贵资料和财富,同时商业银行中还存在大量的诸如会计、人事档案,诉讼和照片声像等需要长期保存的资料,银行储蓄所的日常工作中有一项是要将客户的存取款信息输入计算机,

11、支行以上级别的银行还需将从储蓄所收到的大量票据再输入计算机并进行复核。长期以来,银行档案管理工作因管理手段落后而一直困扰着银行界,各类档案的打印、整理、装订和归档需要花费大量的人力和物力,同时各类凭证的事后监督与归档的分离也浪费了大量的人力和物力。随着银行帐务处理集中化模式的出现,如何实现凭证的高效录入、查询和可靠保管已成为银行界面临的一大课题,引起了人们强烈的研究兴趣。银行票据自动识别系统的研究具有重要的实际意义和理论价值,有着广阔的应用前景,也是图象处理领域的一个重要的研究方向。9 0 年代的计算机多媒体技术对计算机的图象处理,图象信息的压缩和图象档案的传输以及计算机声音信号的处理等都提出

12、了更高的要求,对计算机图象处理技术也要求向更高级方向发展,对图象处理的要求不断提高,在提取图象中特征的处理方面做出了显著成果,这对于银行票据自动识别系统的开发提供了理论基础。银行票据自动识别系统通常包含三大部分:预处理,字符识别和后黑龙江大学硕士学位论文期处理。其中预处理部分负责获取储蓄凭条的影像数据,并为o c R 系统提供手写体信息。K o d a l ( 9 5 0 0 和K o d a l c 3 5 2 0 扫描仪扫描速度快,K o d a l c 9 5 0 0日处理量达1 万张天,K o d a k 3 5 2 0 日处理量达5 0 0 0 张,天,保证了系统能处理大、中规模的票

13、据量。字符识别部分将手写体的图象信息转换为文本信息。手写体汉字识别以其巨大的困难性与广阔的应用前景,向人们提出了严峻的挑战,成为当今文字识别领域的一个重要热点。国外从7 0 年代初研制成“光学字符识别机( O C R ) ”,能够自动识别印刷体的英文文字及阿拉伯数字,在7 0年代末,又开发出能识别手写体的英文字母的O C R ,我国从7 0 年代就开始进行了字符识别的研究,8 0 年代末已经进入实用阶段( 数字识别) ,主要应用于邮政信函自动分检及报表的处理,可以达到7 0 - 8 0 的成功率。由于中文汉字结构复杂,而且要考虑到书写的规范性,目前还没有确定统一的手写体识别标准,已经开发出的中

14、文手写体识别系统准确率还没有达到实际应用的标准,现有的手写体o c R 系统的平均正识率还不到8 0 。1 ,由汉王科技开发的银行票据自动识别系统对大写金额和小写金额可以达到8 5 的识别率,这显然不能满足金融系统对正识率的要求,所以目前对储蓄凭条的处理的实际用途还只能停留在存储电子图象文档的阶段和对特定的手写体汉字的识别。后期处理部分包括为储蓄凭条建立索引,形成光盘库以供查询和保存,以及完成事后监督工作。典型的银行票据自动识别系统的组成都分如下图1 1 所示。由于预处理部分位于银行票据自动识别系统的最前端,它对于整个系统的正确率有着直接影响,本文所要讲述的储蓄凭条中手写体的提取与净化系统(

15、b 姐k c h e c ke X 乜佻t i o n 孤dc l e a 血gs y s t c m 简称B E C s ) 即是第1 章弓l 言预处理部分。图1 1B E c s 作为预处理部分同样是一个非常有意义的研究领域。首先,B E C S 可以取代保存大量的纸张介质的储蓄凭条,将整张的储蓄凭条分割为只包含手写体信息的子图象,尽可能的减小每张储蓄凭条所需的存取空间,并且为手写体的识别做前期处理,为o C R 系统提供无干扰的手写体信息。其次,每个银行所使用的储蓄凭条的表格形式都不一样,而且同一家银行内所使用的存款单与取款单的结构设计也不相同。B E c S 充分考虑到它的适应性,能够

16、处理不同类别的储蓄凭条,提高了系统的通用性。最后,由于课题中要处理的对象是储蓄凭条的图象,即由银行的工作人员将储蓄凭条通过扫描仪批量输入到计算机中,在扫描图片时,可能会产生一定的倾斜角度。该课题能够对倾斜角度在( 一l O ,l O ) 范围内的图象进行校正,不会因此而影响手写体的提取功能,可以避免工作人员的手工校正。1 1 银行票据识别系统研究概述在美国,英国,巴西等发达国家手写体提取技术发展较快,在银行票据识别系统的研究领域也有很多成果。美国的R a f 硷lP a l a c i o s 和A d l s h uS i n h a 【3 4 】开发的B 越q K C 耻C KR E A D 矾Gs Y s T E M 能够对银行票据中的手写体金额部分进行识别,正确率达到8 4 左右。该系统是通过票据中的金额区的固定位置来对手写体数字定位的,对于没有固定位置的银行票据则无法处理。加拿大的) ( i a I l g Y e 和M o h a m e dC h e r i e t 【5 l 开发的系统的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号