中英文混排字符切分方法研究

上传人:E**** 文档编号:113648942 上传时间:2019-11-09 格式:PDF 页数:45 大小:947.04KB
返回 下载 相关 举报
中英文混排字符切分方法研究_第1页
第1页 / 共45页
中英文混排字符切分方法研究_第2页
第2页 / 共45页
中英文混排字符切分方法研究_第3页
第3页 / 共45页
中英文混排字符切分方法研究_第4页
第4页 / 共45页
中英文混排字符切分方法研究_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《中英文混排字符切分方法研究》由会员分享,可在线阅读,更多相关《中英文混排字符切分方法研究(45页珍藏版)》请在金锄头文库上搜索。

1、河北大学 硕士学位论文 中英文混排字符切分方法研究 姓名:安艳辉 申请学位级别:硕士 专业:计算机应用技术 指导教师:田学东;郭宝兰 20040501 摘 要 1 摘 要 目前大多数 OCR 是基于对单个字符的逐个识别字符切分是影响 O C R系 统识别的关键因素之一它直接影响到识别的正确率 本文对中英文混排文档图像 提出了基于字符类别的识别反馈混排字符切分 方法首先利用投影方法对字符进行初步切分判断字符类别然后结合识别技 术进行精细切分判断字符是否为标点符号或汉字部件对汉字部件进行合并 依据识别结果是否可信确定切分结果提取粘连字符判断粘连字符的类型对 于汉字粘连字符和搭接粘连英文字符分别采用

2、不同的切分方法 调用识别模块切 分粘连字符实验表明该方法对中英文混排文档有较好的切分效果 关键词 O C R 字符识别字符切分字符类别判断粘连字符 Abstract 2 A b s t r a c t At present, most OCR systems are based on single character recognition. The characters segmentation is one of the key factors which affect character recognition in OCR system It affects the recogniti

3、on rate directly. In this paper, here presented a method of feedback recognition for mixed arranging segmentation based on character language discrimination. At first, to segment the character introductorily by projection, so as to discriminate character language; then with the help of recognition t

4、echnique to segment the characters further and precisely, to judge whether the character is punctuation or parts of the character, to merge the parts of characters, and the result is confirmed after the recognition. To extract the conglutination characters, judging its type so as to carry out differ

5、ent segmentation method according to conglutination Chinese characters or English characters, and then to transfer to the module of recognition to segment the conglutination characters. The results of the experiments show that the method has a satisfying segmentation effect for mixed arranging of Ch

6、inese and English characters. Keywords: OCR; Character Recognition; Character Segmentation; Character Language Discrimination; Conglutination Character 第 1 章 引言 1 第 1章 引言 1 1 课题的研究背景 人类社会已开始进入信息时代 信息产业的发展将对国家的发达和民族的兴 旺产生重大的影响 因此世界各国对信息产业的发展都给予了极大的重视和关 注 人类社会的不断进步带来了信息空间的增长和积累而计算机的出现为现代 化信息处理提供了有效的手段

7、在当今高度信息化的社会里如何快速高效地将 字符输入到计算机已成为影响人机交流信息效率的一个重要瓶颈也关系到 计算机能否真正在我国得到普及应用 文字是人类信息最集中的表现和最重要的载体 目前字符输入主要分为人 工键盘输入和机器自动识别输入两种其中人工键入速度慢而且劳动强度大一 般的使用者每分钟只能输入 4050 个汉字这种方法不适用于需要处理大量文 字资料的办公自动化文档管理图书情报管理等场合而且随着劳动力价格的 升高 利用人工方法进行字符输入也将面临经济效益的挑战机器自动识别输入 分为语音识别和字符识别两种其中语音识别由于不同人的口音差别较大故识 别的准确率较低字符识别Chinese Char

8、acter Recognition简称 CCR是用计 算机自动辨识印刷在纸上或人写在纸上的汉字 是模式识别的一个重要分支也 是文字识别领域最为困难的问题它的一项关键技术是光学字符识别Optical Character Recognition简称 OCR涉及模式识别图像处理数字信号处理 自然语言理解人工智能模糊数学信息论计算机中文信息处理等学科 是一门综合性技术在中文信息处理办公室自动化机器翻译人工智能等高 技术领域都有着重要的实用价值和理论意义 1 2 O C R 技术发展及课题研究意义 在 1 9 2 9 年德国的科学家 T a u s h e c k 首先提出了O C R 的概念O C R

9、 技术是光 学字符识别的缩写( O p t i c a l C h a r a c t e r R e c o g n i t i o n ) 是通过扫描等光学输入 方式将各种票据报刊书籍文稿及其它印刷品的文字转化为图像信息再利 用文字识别技术将图像信息转化为可以使用的计算机输入技术O C R 技术包括图 河北大学工学硕士学位论文 2 像处理技术识别技术文本理解技术与还原技术表格/ 票据处理技术可应 用于银行票据大量文字资料档案卷宗文案的录入和处理等领域 O C R 技术对于我们的信息处理非常重要使大量的文字资料能快速方便 省时省力和及时地自动输入计算机真正实现信息处理的电子化 同时 O C

10、R 系统可以与其他应用系统进行集成 使 O C R 技术具有更加广泛的应用前景作为 文本信息的一种输入方式O C R 的主要优点是速度快所以 O C R 最适合于从打印 稿报刊书籍进行扫描识别高速度大规模地输入文字 我国在 O C R 技术方面的研究工作起步较晚在 7 0年代才开始对数字英文 字母及符号的识别进行研究 1 7 0 年代末开始进行汉字识别的研究到 1 9 8 6 年 汉字识别的研究进入一个实质性的阶段取得了较大的成果不少研究单位相继 推出了中文 O C R 产品在中文信息处理领域有代表性的清华大学汉王公司等都 推出了各自有代表性的产品其中包括汉王的尚书五号六号汉王表格自动录 入系

11、统蒙恬 O C R文字扫描辨识系统清华文通的 T H - O C R 9 7 T H - O C R 2 0 0 0 清 华紫光的紫光 O C R 这些软件在文字识别方面从识别速度和识别率上看基本 上都达到了实用的效果 到目前为止印刷体汉字识别技术和系统性能有了长足 进步系统的稳健性也得到进一步提高 印刷体汉字识别主要包括的技术 图像输入原始图像通过光电扫描仪数码摄像机CCD 器件或电子传 真机等获得二维图像信息 图像预处理包括对原始图像去噪倾斜校正或各种滤波处理 版面分析和理解包括对文本图像的整体分析区分出文本段落及排版 顺序图像表格的区域对文本区域将进行识别处理对表格区域进行专用的 表格分

12、析及识别处理对图像区域进行压缩或简单存储 文本行字切分它是将版面分析得到的文本块先切分成行再将把图像 行切分成单字的过程 单字图像的特征抽取是从单个字符图像上提取统计特征或结构特征的 过程包括为此而做的细化(Thinning)归一化(Normalization)等步骤 文字识别处理是从学习得到的特征库中找到与待识字符相似度最高的 字符类的过程 第 1 章 引言 3 识别后处理是利用词义词频语法规则或语料库等语言先验知识对 识别结果进行校正的过程 文档重构R T F H T M L 文件生成文档重构生成的文件基本反映原文面 貌并具有通用性能够供 W O R D W P S 等广泛使用的字处理软件

13、编辑使用 印刷体汉字识别过程如图 1-1 所示 其中的椭圆部分是整个识别系统的核心 部分 图 1 - 1 印刷体汉字识别的简单流程图 字符切分 C h a r a c t e r S e g m e n t a t i o n 是字符识别过程中众多决策环节之一 对最终识别系统性能有极大影响 2 文本行字切分是将版面分析得到的文本块先 切分成行再将图像行切分成单字图像以利于 OCR 处理基于分离字符的识 别系统在过去的几十年中已取得令人瞩目的成绩 许多有效的技术被提出并解决 了许多问题但随着文件格式的发展各种文件中包含的信息也越来越多这就 要求 O C R 系统不仅能自动切分识别字符还必须区分出

14、文件中各个不同的部分 例如图片表格横排字符竖排字符多语种字符混排多字体混排O C R 技术发展至今不仅有了相当成熟的技术基础同时也开发了不同种类适合不 同条件的 O C R 产品 目前印刷体汉字识别已经实用化单字识别技术已经相当成 熟识别率达到或接近实用水平但实验结果表明系统最终识别结果的错误大 部分是由切分错误引起的 1 2 因此对于中英文混排文档图像切分问题的研 河北大学工学硕士学位论文 4 究就日显重要 本文对字符切分处理的各个方面做了深入的研究对于中英文混排文档图 像 提出了基于字符类别的识别反馈混排字符切分方法利用字符特征及分类规 则判断出文档中的汉字类英文数字和标点符号类部件类对各

15、字符类别借 助识别技术分别进行处理 3 4 本课题来源于河北省自然科学基金资助项目 基于 Gabor 理论的智能版式识 别与重构研究(资助编号602127)本论文中的研究成果已经在项目中得到应 用基本上达到了项目的设计要求 1 3 论文的主要内容与组织结构 本文共分四章 第一章 有关背景的介绍简要叙述了课题的研究背景O C R技术的发展及 现状课题的研究意义及字符切分的重要性 第二章 简要介绍了国内外对字符切分方法的研究本章全面介绍了已有的 切分方法指出了各种切分方法的优缺点简要列出了字符切分过程中所存在的 问题以及切分错误 对于中英文混排文档图像提出了基于字符类别的识别反馈 混排字符切分方法

16、 第三章 主要介绍了中英文混排印刷体字符切分方法的设计与实现用投影 方法对字符进行初步切分利用字符特征和判别规则初步判断字符类别结合识 别技术的精细切分依据字符间的信息判断字符是否为标点符号或汉字部件对 汉字部件进行合并依据识别结果是否可信确定切分结果提取粘连字符确定粘 连字符的类型对汉字粘连的再切分依据汉字的平均高度判断出汉字的可能宽 度找到汉字的边界调用识别模块切分粘连字符确定切分结果对搭接的英 文数字使用边缘搜索算法再切分对粘连字符计算可能的 x_高依据这一高度 通过一个阈值的调整后作为字母的可能宽度 调用识别模块切分粘连字符根据 识别结果确定切分位置保存正确的切分结果 第四章 结论与展望本章总结了所完成的工作及对未来研究工作的建议 第 2 章 字符切分技术简介 5 第 2章 字符切分技术简介 字符切分是将版面分析得到的文本块先切分成行再将图像行切分成单字 图像以利于 OCR 处理它是 O C R系统中非常重要的一环 5 6 7 字符切分 主要有三类基本方法其一是基于结构分析的切分即从图像特征中寻找

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号