中文复杂版面分析方法

上传人:E**** 文档编号:113631489 上传时间:2019-11-09 格式:PDF 页数:56 大小:2.73MB
返回 下载 相关 举报
中文复杂版面分析方法_第1页
第1页 / 共56页
中文复杂版面分析方法_第2页
第2页 / 共56页
中文复杂版面分析方法_第3页
第3页 / 共56页
中文复杂版面分析方法_第4页
第4页 / 共56页
中文复杂版面分析方法_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《中文复杂版面分析方法》由会员分享,可在线阅读,更多相关《中文复杂版面分析方法(56页珍藏版)》请在金锄头文库上搜索。

1、南开大学 硕士学位论文 中文复杂版面分析方法 姓名:程蕾 申请学位级别:硕士 专业:模式识别与智能系统 指导教师:王庆人 20030501 摘要: 文档图像理解( D o c u m e n tI m a g eU n d e r s t a n d i n g ) 是把纸介质上的信息转变成讨算机 能够理解和编辑的信息,以方便保存和使用。在O C R 技术已经相当完善的今天,版面分 析成为文档图像理解工作中一个十分关键的问题。中文版面分析研究历史比较短,再加 之中文在字符和排版方式上不同于英文使得中文版面分析有其自身的难点,所以对中文 版面分析方法的研究是很有价值的。 本文针对报纸等复杂版面提

2、出了一个新的中文版面分析方法。该方法是自底向七和自 顶向下方法的结合,吸取两种方法的优点。本文的一个突出特点是把造成中文版面分析 困难的原因分为四类:1 字符的不连通性的影响;2 标题的影响;3 文字方向不确定 的影响;4 复杂区域结构的影响。本文针对以上四类困难分别提出了解决方案,并将这 些方案结合在一个完整的版面分析流程中。试验结果表明该版面分析方法有相当好的效 果。 关键字: 文档图像理解、版面分析、中文版面分析、自底向上与自项向下结合 A b s t r a c t : D o c u m e n tI m a g eU n d e r s t a n d i n g ( D I U

3、) t r a n s f o r m st h ei n f o r m a t i v ec o n t e n to fad o c u m e n t f r o mp a p e ri n t oa ne l e c t r o n i cf o r m a tf o rt h ec o n v e n i e n c eo ft h es t o r a g ea n du s a g eo ft h e i n f o r m a t i o n N o wt h a tt h eO C Rt e c h n i q u eh a sb e e np o w e r f u le

4、 n o u g ht Om e e tt h ec o m m e r c i a l r e q u e s t ,t h eL a y o u tA n a l y s i sb e c o m e s a k e yp r o b l e m i nD I U C o m p a r e dw i t hE n g l i s hd o c u m e n t s C h i n e s ed o c u m e n t sh a v et h e i ro w nc h a r a c t e r i s t i ci nt h ea s p e c to ft h ec o n n

5、 e c t i v i t yo fc h a r a c t e r s a n dt h es t y l eo fl a y o u t I na d d i t i o n ,o n l ys e v e r a ly e a r sa g o ,r e s e a r c h e r ss e tt h e i rf e e to nt h ef i e l d o fL a y o u tA n a l y s i so fC h i n e s ed o c u m e n t s T h e r e f o r e ,t h e r ei sm u c hr o o mf o

6、 rt h er e s e a r c ho f L a y o u tA n a l y s i so f C h i n e s eD o c u m e n t T h i s p a p e rp r o p o s e d an e w L a y o u tA n a l y s i sm e t h o d ,a i m i n ga tt h er e l a t i v e l yc o m p l e xl a y o u t o fd o c u m e n t s ,s u c ha s n e w s p a p e r T h i sn e wm e t h o

7、de m p l o y sb o t hb o t t o m u pa n dt o p d o w n a p p r o a c h e st ot a k ea d v a n t a g eo ft h e s et w oa p p r o a c h e s T h ep r o m i n e n tf e a t u r eo ft h i sp a p e ri s c l a s s i f y i n gt h ed i f f i c u l t i e s i nt h eL a y o u tA n a l y s i so fC h i n e s ed o

8、c u m e n t si n t o f o l l o w i n gf o u r c a t e g o r i e s :1 d i f f i c u l t i e sc o m i n g f r o mt h ep o o r c o n n e c t i v i t yo f C h i n e s ec h a r a c t e r s ;2 d i f f i c u l t i e s c o m i n gf r o mt h ee f f e c to fh e a d l i n e s ;3 d i f f i c u l t i e sc o m i

9、n gf r o mt h eu n c e r t a i nf l o wo ft h et e x t l i n e s ;4 d i f f i c u l t i e sc o m i n gf r o mt h ev e r s a t i l ei n n e rs t r u c t u r eo ft h et e x t r e g i o n s F o re a c h c a t e g o r yo fd i f f i c u l t i e s ,t h i sp a p e rg i v e st h ec o r r e s p o n d i n gr

10、e s o l v e n ta n di m p l e m e n t si ti na n i n t e g r a t i v eL a y o u tA n a l y s i sS y s t e m T h i sn e wL a y o u tA n a l y s i sm e t h o di sp r o v e nt ob ee f f i c i e n t a n d p r a c t i c a lb y t h ee x p e r i m e n t a lr e s u l t s T e r m s : D o c u m e n t I m a g

11、eU n d e r s t a n d i n g ,L a y o u tA n a l y s i s ,L a y o u tA n a l y s i so fC h i n e s eD o c u m e n t s B o t t o m u pa n dT o p d o w n 第一章弓l 言 第一章引言 1 。 。文档溪像璎髂豹意义 在辔兰滔酌各个方筒中,我 f j 都需要传邋接惑。蕊错惑豹传遴总燕鬻癸一定酾余震。院 颤,我们糖声音介蕨记录猩磁带上,我们整文字溪靖倚惑记袋在缀章杂悫上a 麓蓉人类 文明随不断进步,承载僖怠的介质也在不傍魂更鞭抉代。扶豢石,竹简等初级介灏发麟

12、 到恕纸作为主攥的信息记录介质,蕊来又出现了磁带,唱片等柬承羧声裔信恿e 到计算 撬鹣出璇,为僚惑鹃传递,保存和检索掇珙了藤匏飞越。蕊今,瞧子媒体琶经娥为人们 获取镲惑酶羹袋渠邋,电子媛奉以旗方便、抉犍、铃廉、可震复馕臻、节省资源簿特 点,受裂了人嬲黪广滋欢遴。 键楚在入炎文麓妖淫串,蠢上千霉豹耩尊润娣蔗镬瓣纸奔矮寒黎载镶惑鹣,覆麓这憋承 载蔼息瀚羝夯臻静数爨还程戳缀麓的瀵度蹭长。绦存这鏊缎夯震释梭索其串色雷憨傣慧 已经变成了一谗十分囡滚的事情。箍翔纂能把这些纸介质上煞髂怠转燮为电子媒体傣 惑,会极大方便绉怠的保存和使爝。骚凳成遽任务,使髑人工输入的方法浸然是不磷 行的。所以我们簧寻求耪方法让

13、计辫极能够固韵竞成纸介质锫塞戮憩予媒体锖惠骢转 化。 文档燃稼溅解( D o c u m e n tI m a g eU n d e r s t a n d i n g ) 技术黢遁麓生。文撼豳豫理解娩称 邃渤文攫处臻A u t o m a t i cD o c u m e n tP r o c e s s i n g ) ,窀熬整要点睬是撼纸会震土煞偿 患,辩缀绥,象惑, 誊藉,攘凌等,转黛戒诗冀藏熬够联鼹瓣编辑豁嵇惑,熬W o r d 文 襁,T X T 文档等,蔽者黻数瓣霹方蕊缀缀黻方畿检索。 交辎溺稼壤瓣妻簧筵建立在光学字符谈象( O C R ,O p t i c a lC h a r

14、 a c t e rR e c o g Mt i o n 技术的蒸獭之上。孤零瞧缀六十年代起,人 、j 簸在O C R 方蕊做了太鬣骢研究,魏筒,O C R 技术已经糊当成熟,对予印剩体豹英文,识掰率般都能繇9 8 p A 上,究垒可以满足熨 际的鬻要* 健怒O C R 技零圭嚣是钵对文零瓣识剃,它只鼹娥壤投食文字愚文字规则撼蹶 的文档图像,箍程实际应餍申,这撵的缎竣鼹然跫不成立熬。髓饕穗版羧拳的不凝撬 蕊t 印剃菇瓣舨瑟继橡越来越复杂。鼗戬,大绞二卡零瓣,入镪瑟始了篷硝救嚣鲶遴 ( A u t o m a t i cL a y o u tP r o c e s s i n g ) 拣磷究。

15、第一章引言 1 1 2 自动版面处理 自动版面处理的主要作用有两个方面:首先,自动版面处理要把输入文档图像切割成 若干简单文本( 即只包含- - 个字或几个字的图像) 区域,以便于O C R 的识别工作。另 外,文档图像理解的目的并不仅仅是为了把纸介质上的字转化为计算机能理解的机器编 码,我们还希望从文档图像中得到更多的信息,比如标题和正文的区分、阅读顺序的确 定、那些文字区域属于同一篇文章等。在相当多的应用中,要求文档图像理解系统的结 果( 如W o r d 文件、P D F 文件等) 能保持和输入的文档图像有相同的版面结构。自动版面 处理的第二个作用就是抽取出文档图像的版面结构。 所有的文

16、档有两种版面结构:物理结构和逻辑结构。物理结构( P h y s i c a l S t r u c t u r e ) ,也称为几何结构( G e o m e t r i cS t r u c t u r e ) ,是由图像中物理组件及其关 系决定的。物理组件包括:字符,文字行,文字区域,图像区域,或者表格区域等。物 理组件之间的关系包括:位置关系( 如:部件l 在部件2 的左边) 和包含关系( 如:字 符包含在文字行中、文字行包含在文字区域中) 。文档图像的逻辑结构在一定程度上是 由阅读者决定的,它包含了各个物理组件逻辑关系:部件在文档中角色( 如:标题、正 文或插图) ,哪些部件属于同一篇文章,以及阅读顺序等。 自动版面处理分析文档图像的版面结构,所以由文档图像的两种类型的版面结构就得 出了自动版面处理的两个阶段:版面分析( L a y o u tA n a l y s i s ) 和版面理解( L a y o u t U n d e r s t a n d i n g ) 。版面分析是抽取文

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号