基于深度学习的场景文本检测的研究

资源描述

《基于深度学习的场景文本检测的研究》由会员分享，可在线阅读，更多相关《基于深度学习的场景文本检测的研究（93页珍藏版）》请在金锄头文库上搜索。

1、中文图书分类号：TP183 密级：公开UDG： 004学校代码:10005松孝- BEIJING UNIVERSITY OF TECHNOLOGY硕士专业学位论文PROFESSIONAL MASTER DISSERTATION论文题目：基于深度学习的场景文本检测的研究论文作者：恩孟一专业类别/领域：软件工程指导教师：李蓉李建强论文提交日期：2018年6月UDC： 004中文图书分类号：TP 183学校代码：10005学号：S201525105密级：公开北京工业大学硕士专业学位论文（全日制）题目：基于深度学习的场景文本检测的研究英文题目：RESEARCH ON SCENE TEXT

2、DETECTION BASED ON DEEP LEARNING论文作者：恩孟一专业类别/领域：软件工程研究方向：计算机视觉申请学位：工程硕士专业学位指导Mr师：李蓉李建强所在单位:软件学院答辩日期：2018年6月授予学位单位：北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：恩孟一日期：2018

3、年6月4日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定，BP：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影卬、缩印或其他复制手段保存论文。（保密的论文在解密后应遵守此规定）签名：恩孟一导师签名：李建强日期：2018年6月4日日期：2018年6月4日北京工业大学工程硕士专业学位论文摘要自然场景图像中的文本包含着丰富而精准的语义信息，是图像中重要的信息来源，这使检测和识别场景图像中的文本成为一个具有巨大应用价值的研究主题。近年来，场景文本的检测和识别得到了越来越多研究者的关注，在该领域不断有新的方

4、法被提出。早期的场景文本检测识别方法基本上都是基于人工设计的特征的，随着深度学习的复兴，深度网络强大的特征学习能力使基于深度学习，特别是基于卷积神经网络的方法逐渐成为该领域的主流。在该背景下，本文的主要工作是，基于深度卷积网络对场景文本检测问题进行研究。本文针对于多尺度场景文本尤其是小文本检测的问题，提出了一个新的场景文本检测框架一一基于特征金字塔的场景文本检测器。该框架基于通用目标检测领域的SSD框架，并引入特征金字塔机制，通过一种自顶向下特征融合方法，将卷积神经网络中不同深度的特征进行融合产生新的特征，使这些新特征在具有较强判别力的同时又保留较多图像的局部细节信息。通过在新特

5、征上进行文本检测，使该框架在检测多尺度文本尤其是小文本方面的效果得到了提升。该方法在 ICDAR2013 数据集上达到 87.6%的 F-score0冃前大多数基于深度网络的场景文本检测方法需要大量拥有包围盒级别标注的数据进行模型训练，而这种数据往往需要昂贵的人工标注才可获得。针对这一问题，本文尝试提岀一种基于弱监督的方法，在仅包含图像级标注的数据集上训练得到拥有场景文本定位能力的卷积网络模型，而无需任何包围盒级别的标注。该网络模型可以根据输入图像产生一张二维的类激活图，该激活图上每个像素的值表示该位置属于文本区域的置信度。利用该激活图可以排除输入图像中大部分的背景区域，定位到可

6、能屈于文本的区域，进而可以在这些区域上通过基于 MSER的方法进行进一步的文本候选框提取。通过在ICDAR2013和ICDAR2015 数据集上进行验证，发现该方法提取的文本候选框达到的召冋率与一些监督方法相当。关键词：场景文本；卷积神经网络；弱监督；深度学习AbstractText in natural scene images is an important source of information, containing rich and precise high level semantics. So detecting and recognizing scene text hav

7、e great application value and have attracted much research interests during the last two decades. Early detection and recognition methods are based on artificially designed text features. However, with the revival of deep learning, deep neural networks show strong ability of learning features. Resea

8、rch based on deep neural networks, especially convolutional neural networks has became the mainstream of this field. Against the backdrop, the main task of this paper is to study the problem of scene text detection based on deep convolutional networks.In order to solve the problem of multi-scale sce

9、ne text detection, especially small text detection, we propose a new detection framework called feature pyramid based scene text detector. The framework is based on the state-of-the-art object detection framework SSD, and introduces feature pyramid mechanism. Through a top-down feature fusion manner

10、, features from different depth in CNN are combined and new features are built, forming a feature pyramid in which features have both high-level semantics and fine local details. Detecting on the new built features improves the performance on multi-scale text detection and small text detection. On I

11、CDAR2013 benchmark, the F-score of the proposed method achieves 87.6%.Most of the current state-of-the-art scene text detection methods need a large amount of data with bounding box-level or pixel-level ground-truth to train deep models. But getting these kinds of data require expensive manual annot

12、ation. We explore to propose a weakly supervised method that train a deep CNN model with text localization ability on datasets that have only image-level annotations. Given an input image, the model is capable of producing a 2-D class activation map (CAM) where value of each pixel denotes the confid

13、ence score of whether the pixel belongs to text region or not. By the help of the CAM, most of background areas in the input image can be filtered out and then we find the areas where text may exist. Based on this method, we can generate text proposals by some MSER-based methods. The proposed weakly

14、 supervised method achieves recall rate comparable to some fully supervised methods on ICDAR2013 and ICDAR2015 benchmarks.Keywords: scene text; convolutional neural netwotks; weak supervision; deep learning 北京工业大学工程硕士专业学位论E摘要IAbstractII第1章绪论11.1研究背景与意义11.2国内外研究现状2121传统方法31.2.2基于深度学习的方法31.3主要工作和贡献51.

15、4论文结构安排6第2章目标检测技术基础72.1 RCNN系列方法72.1.1候选目标区域提取72.1.2 R-CNN82.3 Fast R-CNN82.1.4 Faster R-CNN112.2 SSD132.3反思152.4本章小结15第3章基于特征金字塔的场景文本检测173.1网络结构173.1主干网络173.1.2特征金字塔193.1.3检测模块203.2技术细节213.2.1 atrous 卷积213.2.2特征金字塔223.2.3先验盒263.2.4预测层283.2.5匹配规则293.2.6损失函数303.3实验313.3.1实验环境313.3.2数据集313.3.3训练和测试313.3.4验证特征金字塔的有效性323.3.5检测小文本的实验323.3.6不同配置下的FPTD性能对比343.3.7与其他检测方法的对比343.3.8检测效果展示与分析353.4本章小结36第4章基于弱监督的场景文本注意力网络374网络模型374.2技术细节384.2.1空间金字塔池化384.2.2类激活图的生成404.2.3感受野和多尺度问题424.2.4生成文本候选区域434.3实验454.3

展开阅读全文