object detection with discriminatively trained part based models【中文译】【转】

上传人:第*** 文档编号:31311513 上传时间:2018-02-06 格式:DOCX 页数:42 大小:4.13MB
返回 下载 相关 举报
object detection with discriminatively trained part based models【中文译】【转】_第1页
第1页 / 共42页
object detection with discriminatively trained part based models【中文译】【转】_第2页
第2页 / 共42页
object detection with discriminatively trained part based models【中文译】【转】_第3页
第3页 / 共42页
object detection with discriminatively trained part based models【中文译】【转】_第4页
第4页 / 共42页
object detection with discriminatively trained part based models【中文译】【转】_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《object detection with discriminatively trained part based models【中文译】【转】》由会员分享,可在线阅读,更多相关《object detection with discriminatively trained part based models【中文译】【转】(42页珍藏版)》请在金锄头文库上搜索。

1、使用判别训练的部件模型进行目标检测Pedro F. Felzenszwalb, Ross B.Girshick, David McAllester and Deva Ramanan使用判别训练的部件模型进行目标检测 Object Detection with Discriminatively Trained Part Based Models 摘要本文介绍了一个基于混合多尺度可变形部件模型(mixtures of multiscale deformablepart model) 的目标检测系统。此系统可以表示各种多变的目标并且在 PASCAL 目标检测挑战赛上达到了目前最优结果(state-o

2、f-the-art) 。虽然可变形 部件模型现在很流行,但它的价值并没有在类似 PASCAL 这种较难的测试集上进行展示。此系统依赖于使用未完全标注(partially labeled)的样本进行 判别训练的新方法。我们提出了一种间隔敏感(margin-sensitive)的难例挖掘方法(data-mining hard negativeexample),称为隐藏变量 SVM(latent SVM, LSVM),是 MI-SVM 加入隐藏变量后的重新表示。LSVM 的训练问题是一个半凸规划(semi-convex)问题,但如果将正样本的隐藏变量的值指定后,LSVM 的训练问题变为凸规划问题。最

3、终可以使用一个迭代训练方法来解决,此迭代算法不断交替地固定正样本的隐藏变量和最优化目标函数。关键词目标识别(ObjectRecognition),可变形模型(Deformable Models),图结构模型(Pictorial Structures),判别训练(Discriminative Training),隐藏变量 SVM(Latent SVM)1 引言 目标检测是计算机视觉领域内一项基础性的工作。本论文研究在静态图片中检测并定位某一类目标(例如人或车) 的问题。由于这些类别中的目标外表可能千差万 别,使得此项工作变得有些复杂。而且,变化不仅来自亮度和视角,还有由于目标不是刚体而引起的形变

4、,以及同一类目标的形状和其他视觉上的变化。例如,人可 能穿不同的衣服,做不同的姿势,车可能有不同的形状和颜色。本文介绍了一个基于混合多尺度可变形部件模型的目标检测系统,它可以表示各种多变的目标。此模型使用判别程序进行训练,训练过程只需要用到图片集中目标的矩形框(包围盒)(意思是说只需要整个目标的标注信息,不需要各个部件的标注信息)。训练好的系统既高效又精确,能够在 PASCAL VOC 测试集11-13 和 INRIA 人体测试集10上达到目前最佳结果。我们的方法基于图结构(Pictorial Structures )框架 1520。图结构使用一系列部件以及部件间的位置关系来表示目标。每个部件

5、描述目标的一个局部属性,通过部件间的弹簧连接(Spring-like Connection)表示模型的可变形配置。可变形部件模型(例如图结构)是目标检测中的优秀方法,但是很难在实际中建立价值。在一些难度大的数据集上,可变形部件模型经常被一些简单的模型例如固定(刚体 rigid)模版10或特征袋 (bag-of-features)44所超越。本论文的目标之一就是解决这一问题。虽然可变形模型可适应很多外表变化,但单个可变形模型还不足以表示一个变化丰富的目标类别。例如对图像中的自行车外表建模的问题。自行车有各种类型(例如,山地车,双人自行车,以及 19 世纪的有一个大轮一个小轮的自行车),并且观察视

6、角也会有不同(例如从前面看和从侧面看),所以本文中的系统使用混合模型来适应这些变化。我们最终感兴趣的是使用视觉语法(Visual Grammars)对目标进行建模。基于语法的模型(例如162445 )使用可变层次结构来表示目标,是可变形部件模型的扩展和一般化。基于语法的模型(grammar based model)中的每个部件都可以被直接定义,或者根据其他部件进行定义。此外,基于语法的模型考虑到结构的变化。这些模型还提供在不同目标类别间共享信息和计算的框架,例如,不同的模型共享可重用的部件。基于语法的模型是我们的终极目标,现在我们采取了一种研究方法,使用此方法使得我们可以在保证高性能的前提下逐

7、步改进模型,使它变得更丰富。通过丰富模型来改进性能是非常困难的。在计算机视觉、语音识别、机器翻译和信息检索领域中,一直以来简单模型都要比复杂模型表现更为出众。例如,直到最近基于 n 元语言模型(n-gram language model)的语音识别和机器翻译系统才在性能上超过基于语法和词组结构的系统。根据我们的经验,只有逐步地丰富模型才能保证性能不降低。 之所以简单模型在实际中表现比复杂模型好的原因之一就在于复杂模型很难训练。对于目标检测,固定模型和特征袋模型很容易使用判别方法(例如 SVM)进行训练。复杂模型很难训练,因为复杂模型经常使用隐藏信息。例如从只标注了整个目标的包围盒的图片中训练一

8、个基于部件的模型的难题。因为部件的位置没有进行标注,所以这些信息在训练时只能被当做隐藏(latent 或 hidden)变量。如果使用更完全的标注信息可能会训练出更好的模型,但也可能由于未能准确标注出各个部分的位置而导致更差的结果。通过自动发现有效部件来进行自动部件标注有可能达到更佳的性能。精细制作标注信息是费时而昂贵的。Dalal 和 Triggs 的检测器 10(在 PASCAL 2006 目标检测挑战赛上表现最好)使用基于 HOG特征的单独滤波器(模版) 来表示目标。它使用滑动窗口方法,将滤波器应用到图像的所有可能位置和尺度。可以将此检测器看做一个分类器,它将一张图片以及图片中的一个位置

9、和尺度作为 输入,然后判断在指定位置和尺度是否有目标类别的实例。考虑到此检测器只有一个滤波器,我们可以使用 (x)表示滤波器在某位置的得分,其中 是滤波 器参数,x 是指定位置和尺度的图片,(x)是 x 的 HOG 特征向量。Dalal-Triggs 检测器的主要创新点是提出了一个非常有效的特征。此论文的第一个创新点是丰富了 Dalal-Triggs 的模型,我们使用星型结构的部件模型,此模型由一个根滤波器(root filter,与 Dalal-Triggs 的滤波器相似 )和一系列部件滤波器(part filter)以及相应的可变形模型构成。星型模型在图像特定位置和尺度的得分等于根滤波器在

10、给定位置的得分加上各个部件的得分的总和,每个部件的得分等于此部件在所有空间位置的得分的最大值,部件在某位置的得分等于部件滤波器在此位置的得分减去此位置的变形花费,位置的变形花费衡量了部件偏离其理想位置(这里说的位置是指与根滤波器的相对位置)的程度。根滤波器和部件滤波器的得分都是由滤波器参数与特征金字塔中一个窗口的特征向量的点积(dot product)定义的。 图 1 显示了人体的星型模型。图 1,单组件人体模型的检测结果。此模型由一个粗糙的根滤波器(a 所示),和几个高分辨率的部件滤波器(b 所示) 以及每个部件相对于根的空间位置模型(图 c 所示)组成。滤波器指定了HOG 特征的权重。图中

11、滤波器的可视化模型显示的是不同方向的正权重。空间位置模型的可视化图显示的将部件的中心放置到相对根的不同位置的变形花费(越白花费越高,表示部件偏离其理想位置越大)。在我们的模型中,部件滤波器表示的图像特征是根滤波器所表示的图像特征所在的空间分辨率的两倍,也就是说我们是在多尺度对目标的外表建模。为了使用未完全标注(partially labeled ,意思应该是目标的部件没有进行标注,只标注了整个目标)的数据进行模型训练,我们使用了论文3中的多实例 SVM(MI-SVM)中的一个隐藏变量公式,我们称作隐藏变量 SVM(Latent SVM,LSVM)。在 LSVM 中,每个样本 x 使用下面形式的

12、公式进行评分:其中 是模型参数向量,z 是隐藏变量,(x, z) 是特征向量。模型参数 是根滤波器、部件滤波器、变形花费权重串联起来构成的参数向量,z 是目标配置参数,(x, z)是特征金字塔中的一个窗口对应的 HOG 特征和部件变形特征串联起来构成的特征向量。我们意识到公式(1)可以处理更通用形式的隐藏信息,例如,z 可以用来指定富视觉语法(rich visual grammar)中的派生词。 本文的第二种模型使用混合星型模型来表示目标类别。混合模型在指定位置和尺度的得分是各个组件(component)模型在给定位置得分的最大值。在这种情况下,隐藏变量 z 表示组件类别及组件配置。图 2 展

13、示了自行车的混合模型。图 2,含有两个组件模型的混合自行车模型的检测结果。这几个例子表明了混合模型的重要性。第一个组件捕捉自行车的侧视特征,第二个组件捕捉自行车的正视或接近正视特征。侧视组件模型可以变形来匹配自行车前轮抬起的姿势。为了通过判别训练来获得好的结果,往往需要使用大量训练样本。在目标检测中,训练问题是非常不平衡的,因为相比于特定目标来说有更大量的未知的背景。这就需要我们通过搜索背景数据来找到一个相对少量的潜在的误报(虚警)的负样本集,或者叫做难例(负样本难例,HardNegative Example)。Dalal 和 Triggs 在论文10中采用了一种对难例进行数据挖掘 的方法,但

14、倒回到了 1995 年前后中用到的自举法(bootstrap)3538 。我们分析了 SVM 和 LSVM 训练中的数据挖掘算法,证明使用数据挖掘方法可以收敛到整个训练集上的最优模型。本文中的目标模型是由滤波器定义的,滤波器可以对特征金字塔中的子窗口进行评分的。我们调查了与论文10 中的 HOG 特征类似的特征,并找到了与原特征性能表现相同的维数更低的特征。通过对 HOG 特征做主成分分析(Principal Component Analysis),可以大大减少特征向量的维数,同时不产生显著的信息丢失。此外,通过分析主特征向量,我们找到了一个容易解释并且可高效计算的低维特征。本文还分析了 PA

15、SCAL 目标检测挑战赛和其他相似数据集中的一些特定问题。我们展示了通过目标中部件的位置来估计目标的包围盒的方法,这是通过用最小二乘回归训练的特定模型的预测器来实现的。我们还展示了一个用来聚合几个目标检测器的输出结果的 简单方法。此方法的基本思想是同一张图片中的某一类目标可以为其他类别的目标提供正例支持或反例驳斥。我们实现了这一思想,首先训练一个特定类别的分类 器,用此分类器对此类别所有检测出的目标进行重新评分,重新评分的依据是该目标的原始得分和用其他类别的分类器对此目标进行评分两者中的最高值。2 相关研究工作关于目标检测中各种类型的可变形模型已经有了大量研究工作,包括几种可变形模版模型(例如

16、782143 ),和各种基于部件的模型(例如2691518202842 )。在1842的星座模型中,部件被限制在由兴趣点所确定的稀疏(小的)位置集合中,并且他们的几何分布由高斯分布进行描述。相反,图结构模型(Pictorial Structure Model)1520 的匹配问题中,位于稠密位置集中的部件有各自独立的匹配花费,几何分布由部件两两之间的弹簧连接进行描述。2中的部件拼接模型(patchwork of parts model)也类似,但它清楚地考虑了重叠部件之间如何进行相互作用。本文中所用的模型很大程度上基于论文1520 中的图结构(Pictorial Structure)框架。我们的模型中使用位置和尺度的稠密集,并定义了将部件滤波器放置在每个位置的得分。部件滤波器之间的几何配置由将每个部件滤波器与根滤波器连接的变形花费(弹簧)来描述,形成了

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 工程造价

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号