一种结合边缘和角点特征的视频字幕检测方法

资源描述

《一种结合边缘和角点特征的视频字幕检测方法》由会员分享，可在线阅读，更多相关《一种结合边缘和角点特征的视频字幕检测方法（7页珍藏版）》请在金锄头文库上搜索。

1、 - 85 - http:/www.sjie.org/ Scientific Journal of Information Engineering October 2013, Volume 3, Issue 5, PP.85-91 A Video Caption Detection Method with Edge and Corner Features Yunlan Zhao 1, Yonghong Song 1, Yi Zhou 2 1. Software Engineering School, Xian Jiaotong University, Xian Shanxi 710049, C

2、hina 2. Broadcast and TV Center, propaganda department, Xian Jiaotong University, Xian Shanxi 710049, China Email: Abstract Video caption contains important clue of video content, so it plays a significant role in the content based video retrieval. In this paper, a video text detection approach whi

3、ch combines edge and corner point features is proposed. Firstly, the gradient map is obtained by applying Roberts edge operator on the three color components from a single video frame. Then the Harris corner point is extracted on the gradient maps. Thirdly, the candidate text regions are acquired by

4、 morphological operations. Finally, the captions are located using the proposed text features and connected component analysis. The experiment results show the proposed approach can detect captions with high speed and high accuracy. Keywords: Caption Detection; Roberts Gradient Operator; Corner Dete

5、ction; Video Text Features 一种结合边缘和角点特征的视频字幕检测方法赵云兰1，宋永红1，周颐2 1. 西安交通大学软件学院，陕西西安 710049 2. 西安交通大学宣传部广电中心，陕西西安 710049 摘要：视频中的字幕提供了描述视频内容的有用信息，对于基于关键字的视频检索具有重要作用。对视频中字幕进行了研究，提出了一种结合视频帧中的边缘和角点特征进行字幕检测的方法。该方法首先提取彩色视频帧在 RGB 3 个颜色分量上的彩色 Roberts 梯度算子，得到凸显边缘区域的灰度图像，然后在得到的灰度图像上提取 Harris 角点，再通过形态学处理得到候选字

6、幕连通区域，最后结合本文提出的一些视频文本特征进行连通区域分析得到最终字幕区域。实验证明，该算法能够快速定位字幕区域，定位准确性较高。关键词：字幕检测；罗伯特交叉梯度算子；角点检测；视频文本特性引言近些年，随着多媒体技术和互联网的快速发展，以视频为主的多媒体信息正在以惊人的速度增长。传统的数据库检索中采取的基于注释的检索方法已经不能满足人们的需要，将视频帧中的字幕和文本提取出来作为检索依据的检索方法已经成为目前研究的主流。从图像和视频帧中提取出的字幕和文本与图像和视频本身要表达的信息具有很大的相关性，所以视频帧中的字幕和文本是视频检索中的关键信息。一般来说，数字视频中的字幕可以分为三类：

7、1、场景文字，指的是视频中场景本身所包含的文字，如视频中的标识牌、广告牌等等。场景文字出现的位置、大小、颜色和文字方向都具有很高随机性。2、静态字幕，一般是后期制作中加入的文字信息，一般出现的位置、颜色大小等较为固定，与视频内容往往有直接联系。3、滚动字幕。与静态字幕一样，这种字幕也是后期加入的文字。但有所不同的是这种字幕在视频序列中以动态滚动方式呈现，在每一帧中出现位置不同。由于静态字幕针对视频内容能提供最全最可靠的信息，因此本文主要针对静态字幕进行研究。 - 86 - http:/www.sjie.org/ 1 相关工作目前，已有的视频字幕检测方法大致可以分为三类：基于连通区域1、基于边

8、缘23和基于纹理45。下面分别对这三种典型的方法和我们的算法进行分析对比。基于连通区域方法假设同一文字区域内的文字颜色相同，所以进行连通区域标注时会属于同一区域。该方法适用于高质量的简单背景图像，其根据灰度值、轮廓等特征把视频帧分割成多个区域，然后根据区域的最小外接矩形、面积、平均灰度值等特征来检测文字区域，该算法虽然简洁，但很难描述各种复杂的情况；我们的算法通过对复杂背景用彩色 Roberts 算子灰度化，突出背景变化显著的区域，再利用角点和形态学处理得到连通区域，这种方法适用于任何复杂背景。基于边缘的方法利用图像中文字区域相对于背景具有较高的对比度这一特征，这一特征反应在边缘上即为文字

9、区域具有丰富的边缘信息。该方法对于具有高对比度和平滑背景的图像具有较强的鲁棒性，单纯的边缘检测方法也可以快速地检测出文字，但是由于约束参数设置多且复杂，检测错误率较高。我们的算法使用边缘检测的同时还利用角点的特性对文字区域准确定位，很大程度上降低了检测错误率。基于纹理分析的方法是通过考察像素的邻域，利用纹理特征去决定一个像素点或者像素块是否属于文字，虽然这种方法能检测复杂背景下的文字，但是其数学计算太过复杂，时间复杂度高。我们的算法结合边缘和角点的特征检测文本区域，不仅对背景复杂的图像具有很高的鲁棒性，而且时间复杂度比较低。文献6提出了 EDA（Edge Detection/Area ba

10、sed）算法，该算法是一种结合了彩色边缘检测与区域生长的图像分割方法。该方法首先定义一个彩色 Roberts 梯度算子，对原始图像经彩色 Roberts 算子处理后得到一灰度边缘图像，然后通过采用灰度图像中的一类最佳边缘检测算子 LOG 算子对提取出的彩色图像的灰度边缘作二次边缘提取，进而得到二值边缘图像完成彩色图像的边缘提取。再通过形态学膨胀技术生成区域图像，并采用区域生长方法标记候选字符块，然后对候选字符块分析与分解，利用字符空间频率分析和确定真正的字符块，得到最终的文本块。文献7使用了 Harris 角点检测，对角点图像通过形态学膨胀技术得到区域图像，然后通过一些图像区域特征判断候

11、选区域块，进而得到最终的文本区域块。本文提出的视频字幕检测算法结合了边缘和角点特征。在我们的方法中首先对彩色图像的 RGB 空间进行 3 维彩色 Robert 算子处理6，然后在对所得到的灰度图像进行 Harris 角点检测789，经形态学处理之后形成连通区域67，最后在综合考虑文字区域的各种特征的到最终的结果6710。 2 结合边缘与角点特征的视频字幕检测本文提出的字幕检测算法结合了边缘和角点特征，通过彩色 Roberts 梯度算子、Harris 角点检测方法和一系列后处理完成了图像字幕区域的准确定位。具体分四个步骤，分别是（1）对输入图像提取彩色 Roberts 边缘梯度算子，得到原

12、图的强化字符区域的边缘梯度图像；（2）对边缘梯度图像进行角点检测；（3）对角点图像通过形态学处理得到候选字幕区域；（4）后处理。在后处理中对候选字幕区域分类得到字幕区域，最后合并重叠字幕区域得到最终结果。 2.1 基于三维彩色空间 ColorRoberts 梯度算子对于灰度图像而言，任一灰度边缘检测算子若要检测一个象素点是否为边缘点，其结果与被检测象素点相关邻域内象素点的灰度差有密切关系：若灰度差大，则对检测的结果影响也大。对于彩色图像来说，任何边缘检测算子与象素点之间的色差有密切关系。传统的彩色图像边缘检测算法往往单纯地把经典的灰度边缘检测算子分别作用于彩色空间的三分量上分别提取边缘，并用

13、适当的方式合并三分量的处理结果，如当有两个分量有边缘时即可判定彩色图像存在边缘（单维空间投票法），或当有一分量存在边缘时才继续另一分量的边缘检测，以证实前一分量的检测结果，以上传统方法均不能取得好的结果。彩色空间的 3 个分量只反映了色彩的一部分信息，色彩的全部信息是由三分量共同综合反映出来的。本文使用的 ColorRoberts 算子是全- 87 - http:/www.sjie.org/ 面作用于彩色三分量的综合方法，充分利用了全面的色彩信息，所以进行彩色图像边缘检测的效果优于只分别作用在彩色三分量上的传统彩色边缘检测方法。 ColorRoberts 梯度算子描述如下： 1）输入彩色图像

14、I，其中象素点（i, j）的彩色分量为 I（i, j, k），k=1,2,3。 2）定义彩色图像彩色 Roberts 梯度算子 ColorRoberts，ColorRoberts（i, j）= ；其中，（，；，），（，；，）。其中，Eud（，；，）定义为象素点( ）与( )之间的彩色值欧式距离 ( ) ( ( ，， ) ( ，， )( ( ，， ) ( ，， )( ( ，， ) ( ，， )I 经 ColorRoberts 处理后得到一灰度边缘梯度图像。本文使用的彩色 Roberts 梯度算子在彩色图像边缘检测中时，没有将 Robert 算子简单地应

15、用于彩色图像的像素彩色值的各个分量上，而是采用欧式距离将像素彩色值的各个分量综合考虑。这种算法利用了字符边缘特征，弱化了变化缓慢的背景区域，突显出边缘变化剧烈的文本区域和部分边缘变化明显的背景区域。图2 给出了灰度图像边缘检测 Roberts 算子应用彩色图像中的结果，由图 2 可见，提取出的边缘图像中文本区域与背景易于分割，且文本区域完整、清晰，字符形状保持较好，基本符合最初提出的彩色图像边缘检测算子设计准则，满足后续工作提取文本区域的要求。 (a)原始输入图 (b)灰度图像图 2 ColorRoberts 算子在彩色图像中的灰度化图像 2.2 Harris 角点检测本文采用基于模板的 Harris 角点检测算法，得到角点检测图像。角点是图像的一个重要局部特征，它以较少的数据量保存了图像中重要的特征信息。Harris 通过微分运算和自相关矩阵检测角点。这种算法具有计算简单、提取的角点特症均匀合理、可以定量提取特征点以及算子稳定的特点。对灰度边缘图像进行Harris角点检测，生成角点图像。其处理过程表示如下：使用高斯窗函数 W(u，v)计算图像偏导数，本文选用 3*3 的高斯窗函数，用（，）转换窗函数 W(u，v)，即 ( ， ) ( ) ( ， )( )把公式（1）的第一项经过泰勒级数展开，即 ( ) ( ) * ( ) ( ) +

展开阅读全文