复杂背景图像中文本定位算法设计-final.doc

资源描述

《复杂背景图像中文本定位算法设计-final.doc》由会员分享，可在线阅读，更多相关《复杂背景图像中文本定位算法设计-final.doc（46页珍藏版）》请在金锄头文库上搜索。

1、毕业设计（论文）说明书题目：复杂背景图像中文本定位算法设计系名信息工程系专业电子信息工程学号 6008202349 学生姓名杨宇指导教师冀中 2012年6月8日摘要随着多媒体技术的飞速发展，复杂背景图像中的文本定位研究不仅丰富了图像处理理论，而且在诸如Internet环境下的图像检索、交通管理中的车牌识别等具有重大的价值。复杂背景文本定位是一个具有较大难度性的研究课题，原因是文本图像的背景非常复杂，图像大多在室外拍摄，光照条件变化较大，其中不同文字的颜色、亮度、字体、大小、间距、对比度、排列方向和背景纹理等有很大差别。要提取具有复杂背景的文本，首先要找到包含文本的

2、区域，然后才能利用文本识别模块进行识别。本文综述了现有的主要文本定位方法，分析了其中的优缺点，实现了一种基于边缘检测和支持向量机的图像文本定位方法。其中，基于边缘检测的文本定位主要由金字塔分解、基于改进Canny算子的边缘检测、边缘提取和二值化、连通区域分析、以及文本区域鉴定与合并几部分组成。首先运用改进的Canny边缘检测算法检测出文本边缘，然后对检测结果进行连通区域分析、文本区域鉴定与合并得到候选的文本区域。进一步，通过将定位出的候选文本区域运用支持向量机的分类器训练的方法来提高文本定位的准确性。实验结果表明，该文本定位方法不但可以较准确的定位出相应的文本区域，而且具有一定的意义和较大的实

3、用价值。关键词：文本定位；边缘检测；特征提取；支持向量机ABSTRACT With the development of the multimedia technology, the study of locating texts under complicated background has not only enriched image processing theoretically, but also has enormous value in practical application. For example, the image retrieval under Internet

4、 environment and the discernment of the plate number in traffic administration. The location and extraction of text from complex background is an important research problem in the computer visionThe variation of the text in terms of characters font, size, style, orientation alignment, texture color

5、and complex background makes the problem of text localization very difficult. The scene content is unconstrained and maybe both indoor and outdoor scenes under any lighting or contrast conditions To extract complex background text, text areas should be located firstCurrent text location methods ale

6、researched in this paper, and the advantage and disadvantage of them are analyzedThen text location method based on edge detection and support vector machines is implemented.Edge detection based text location method is composed by Pyramid decomposition, improved Canny algorithm-based edge detection,

7、 edge abstracting and binary, connected component analysis, text region identifying and combination. First, the improved Canny algorithm is used to detect the text edge, then connected component and text region identifying and combination is used to get the candidate text regionThis paper uses the m

8、ethod of support vector machines classifier training to improve the correctness of text location. The support vector machine is applied to reduce the number of examples effectively, and the result of the experiment is goodThe result of the experiment shows that this algorithm can well and exactly lo

9、cate the text, this algorithm is valuable in theory and application. Keywords: text location；edge detection；feature extraction；support vector machines目录第一章绪论11.1 研究背景及意义11.2 文本定位研究的现状21.3 论文的主要研究内容及结构4第二章复杂背景图像中的文本定位的一般方法62.1 文本特征及类别62.2 文本流程定位72.3 文本定位方法92.4 本章小结13第三章基于边缘检测的文本定位方法研究143.1 引言143.2

10、边缘检测143.3 连通区域分析233.4 文本区域定位与合并243.5 实验结果253.6 本章小结27第四章总结28参考文献29外文资料中文翻译致谢1天津大学仁爱学院2012届本科生毕业设计（论文）第一章绪论1.1研究背景及意义图像中的文本定位是以数字图像处理为基础的，涉及到模式识别、神经网络、信号检测、认识科学等多门学科。随着光学字符识别(OCR)技术的兴起，许多学者开始进行文档图像中文字定位与提取的研究。图像文本定位作为OCR系统的一个预处理部分，对识别嵌入在复杂图像中的文本具有重要的作用。近年来，随着多媒体技术和计算机网络的飞速发展，全世界的数字图像的容量正以惊人的速度增长。每

11、天都会产生海量的图像，这些数字图像中包含了大量有用的信息。目前的计算机视觉和人工智能技术都无法自动对图像进行标注，而必须依赖于人工对图像做出标注。这项工作不但费时费力，而且手工的标注往往是不准确或不完整的，还不可避免地带有主观偏差。所以如何从含有复杂背景的图像和视频中快速而准确地定位和提取文本，现在成为国际上热门的研究课题。复杂背景是指：图像中的背景含有丰富的纹理；有时文本是嵌入在纹理中的，甚至有时文本本身就是纹理；文本的可能出现的位置、所受光照、字体、大小和颜色都不尽相同，而且这些在文本定位前都是先验未知的，这三点也正是这一研究的挑战所在。如果能够找到解决这些问题的方法，构造出解决复杂背景下

12、的文本定位模型，对于丰富图像处理理论，对于基于内容的视频检索技术的发展，具有重要的理论意义和实用价值。复杂背景下的文本定位的应用：(1)实时车牌定位。通过摄像头捕获高速公路上的车牌图像，经过车牌识别系统进行分析和处理，可以实时对交通情况进行监督，实时识别出交通事故涉及车辆的号码，提高运输监管部门的工作效率。(2)互联网应用。Web服务器的数量正以惊人的速度增长，文本构成了Web页的重要组成部分，在有的网页上图像中的文字居然占去了总的文字量的一半以上，这个比例是相当惊人的，Web页中的图像包含了许多的像素文本信息。(3)图像、视频检索。随着多媒体技术和计算机网络的飞速发展，越来越多的信息以数字图

13、像的形式传播和存储，图像、视频检索成为计算机领域研究的热点之一。传统的基于关键词的检索技术已不能满足人们的需求，基于内容的图像检索应运而生，而图像中的文字是图像高层语义内容的重要来源。(4)实时处理护照、票据、身份证等。用扫描、照相等方式获得它们的数字图像后，定位并识别图像中的文字可以快速的获得它们所包含的关键信息。(5)网络过滤。一些不良网络信息的提供者将文本嵌入到图像文件中，或直接以图像文件的形式显示文本以绕开网络过滤系统。基于图像内嵌文本的语义分析可以实现基于图像内容的检索和过滤。文本区域定位就是找出图像中文本所在的位置或刚好包围文本的矩形区域，是文本识别非常关键的一步，文本定位的精确与

14、否直接决定整个识别系统准确率的高低。但文本定位受语种、文字的颜色、分辨率、字符间距、背景、光照、倾斜等影响较大，并且某些纹理、图案等很难与文字区分开来。由于数据采集设备的原因，可能会出现离焦模糊、运动模糊、传感器噪声等，这些都给文本定位带来了较大的困难，它到目前为止依然是一个有很好解决的问题。如何从复杂背景中准确快速的定位出文本区域以及如何降低遗漏的文字，这就是目前复杂背景图像中的文本定位在图像领域的一个研究热点和难点。1.2文本定位研究的现状复杂背景图像中文本定位问题的产生，是由于将OCR技术扩展到其它应用领域中而产生的问题。在很多领域中，文本是嵌入在复杂背景图像中的，要想很好的识别首先必须

15、进行文本区域的定位，因此提出了复杂背景图像中的文本定位问题的研究。文本定位的目的主要可以分为：视频图像中的文本定位用于基于内容的视频索、场景图像中的文本定位用于场景理解等。国内外很多的学术机构都开展了这一方面的研究工作。国外主要有美国的加州大学、IBM公司、MIT以及韩国和日本的主要研究机构等。国内主要从事这一研究的有中国科学院自动化研究所，中国科学院计算所进行的视频中文字定位研究，清华大学也在从事这方面的研究工作。为了能很好的分析现有文本定位方法的异同点，本文从图像中的文本具有的一般特点出发对文本定位方法进行分类。复杂背景图像中的文本具有以下的特点：(1)文本区域中的字符一般成有规律的排列，字符间隔一致，排列方向一致，一般以水平排列居多。(2)字符一般大于一定的大小，太小的字符因无法识别而不去进行定位，而字符大小的上限一般没有限制。(3)字符一般由一致宽度的笔画构成，笔画的密集程度在中文各个字符中并不一致，在英文字符中笔画的密度变化不是很大。(4)一般情况下，文本与背景之间总有一定的颜色差。但是可能受到光照条件的影响，使颜色差变得很小。(5)同一文本区域中的字符一般具有统一的颜色、大小、字体。对于场景文本，这种颜色的一致

展开阅读全文

复杂背景图像中文本定位算法设计-final.doc

最新文档