基于图像场景及新及主题特征及分类

举报
资源描述
      基于图像场景分类的新的主题特征摘要:我们提出了基于图像场景分类的新的主题特征。这个特征是由主题构建的图像表示的。即 LDA 的潜变量(潜伏狄利克雷分配)及其学习算法。与其它相关文献不同的是,在文章中所定义的特性共享不同类别下的主题,甚至在分类之前不需要类标签,以至于就可以避免特征和标签之间的耦合特性。为了表示一个新的图象,我们直接提取主题特征变量通过码字线性映射的方法,而不是潜变量的推理。我们将我们的方法与其他三个主题模型在类似的实验条件下进行比较,同时合并这些方法应用于 15 个场景数据集对象。结果表明,我们的方法可以很精确的分类场景类并且精度高于其他主题模型而且不使用空间信息。我们发现性能改善是由于被推荐的特性以及我们的算法,而不是其他因素,如额外低层图像特征和更强的预处理。关键词:图像场景分类、主题特征、LDA 模型、吉布斯采样器前言:图像场景分类是在计算机视觉和机器学习一个非常重要的问题。自动的获取图像语义信息变得不可或缺,并且已经广泛应用于许多实际的信息系统。然而,场景分类面临着许多挑战,列如可变性,歧义性,广泛的照明范围[1]。目前,三个典型的方法可以在图像场景分类的任务中被找到。第一个方法考虑图像作为单独对象可以直接将他们通过如颜色、纹理和功率谱等低级特征进行分类,。这种方法通常用于一小部分场景类别[2]。第二个方法采用图像的高级特征,这个方法认为图像是图像点的集合这个方法和基于这一策略的很多方法具有优良性能(3 - 5)。最后一个方法采用由潜在的变量所构造的主题模型,它根据中间语义分类图像。这种方法被应用于包含更多场景类别的情况。它认为一个图像不仅是图像点的集合[6、7],同时也是一个更复杂的结构(8、9),它包含丰富的图像信息和接近人类看图像的方式,因此这种方法得到了越来越多研究团体的关注。典型的主题模型是概率潜在语义分析(PLSA)[10]和潜在狄利克雷分配(LDA)[11]。虽然主题模型最初产生于文本处理,近年来它已广泛应用于计算机视觉领域。例如,在[6]提出的图像分类方法可以训练一个适用于每个类别的 LDA 模型和使用贝叶斯决策识别图像标签。此外,在[7]中提出了基于 sLDA(监督式 LDA)的图像分类和标注的联合模型。这些方法可以分配图像的标签通过推理图像的中间变量,因此通常不需要额外的分类器。与前面的一些方法不同的是,主题模型与监督分类器相结合,然而,这些监督模型[6、7]不能利用一些现有的在图像分类方面方法,譬如普遍的监督式分类和特征处理。特别的是,很难从这些模型中提取特征向量,所以不能轻易把主题信息与其他功能结合起来,就像在[12]所提到的。另一方面,那些早期的方法分类精确度低于这些新的,因为它们对于图像的表现是不适当的。因此,本文的目标不仅只是考虑到后者的优点而且也是为了获得更高的分类精度。在本文中,我们提出一个新颖的关于图像场景分类的主题功能,这个主体功能是基于对boW 的假设。我们首先用 LDA 建立一个图像主题模型,然后提取主题功能,这些主体功能基于进行进一步分类的主题模型。不同于那些在(6,1)的方法,我们的方法不需要分别对每个场景类建立一个主题模型。相反,它描述了在相同的潜在主题空间中所有的场景图像(类似于[7])。因此,我们的方法可以完全忽略场景类别信息在主题功能输入到监督分类器之前。与其他主题模型方法相比,我们的方法在特征提取过程中不需要推理,所以它可以降低主题模型的计算复杂性。此外,它有更少的计算量与池方法相比,因为我们的方法需要较小量的码字,避免了大量对于 SIFT 算子和码字的计算。同时,该方法可以提高图像场景分类的精准度。 论文的主要工作包括:提出一个图像主题描述,它允许主题特征可以快速被提取通过码本的线性映射。定义了表示的图像的主题特征,该特征表示了图像的场景环境信息(通过其尺寸可以灵活调整的特征向量),这使得图像可以根据场景进行现成的监督分类被提出的主题功能在特征提取上具有非常低的计算复杂度,这样很容易于场景分类的其他功能进行结合 ,在第 2 部分中 ,我们介绍我们的模型和算法。在第三部分中,我们描述了相关的工作。数据集,实验和研究的结果在第四节中被介绍。在第 5 部分中,我们讨论我们的结果和总结研究结果。最后我们在第六节总结本文。2 算法和模型我们的算法是图 1 所示。我们将图像看做是一系列的码元,码元聚集在一起生成了码字,码字是是由码元聚类而成。一个完整的码字的集合形成了码本。每张图片表示为一系列码字。在训练集中,LDA 模型通过码本建立,然后生成主题特征空间。在主题特征空间中每张图片的码字可以由我们提出的线性特征空间映射方法转化为特征向量 ,图像的标记特征向量用于训练监督式的分类器 。在测试集中,图像首先使用相同的码书来表示,然后相关的特征向量在特征空间中也是类似的。最后,测试集中的图像根据他们的特征向量通过训练的分类器进行分类。在本节中,我们将简单明了的介绍我们提出的线性映射方法,我们讨论所有其他步骤在 2.1 节、2.3 节。2.1 特征和码书大多数对自然场景分类的非概率性模型主要集中在使用总体特征,列如,频率分布,边缘方向和颜色直方图[2]。在使用概率主题模型处理分类任务时,,它将考虑图像本地区域的表现形式,局部特征被认为是对于遮蔽区域和空间变了=量具有更强的鲁棒性。四种不同提取局部特征的方法在[6]中被测试,这证明了这个 128 -维的区域算子有更多有用的信息和更好的鲁棒性。这些局部特征已经广泛应用于场景分类。为了与其他模型进行对比,我们采用 128 -维的区域算子在灰度强度内进行实验。在[3、15]中用的 SIFT 算子。与通常的SIFT 算子的不同之处在于,它使用一个密集的正规的网格忽略 SIFT 算子标准化规程,当路径的整体梯度太弱的时候。为了计算每个码元区域算子,通过滑动网格的方式,一个图像首先分为重叠的码元。然后 K 均值聚类算法用于 SIFT 区域算子,(建立在滑动网格区域的SIFT 算子被视为一个样本)和码字被定义为集群中心,所有这些形成码书。这个过程类似于用于(6、7、1)的过程,所采用码字的格式也都是相同的。2.2 模型结构总共只有 K 个,对于每一个 topic,有一个 ,这些参数是独立于文档的,也就是对于整个 corpus 只 sample 一次。不像 那样每一个都对应一个文档,每个文档都不同,对于所有文档都相同,是一个 K*V 的矩阵(K 个 topic,每个 topic 一个 V 维从topic 产生词的概率分布)。Wmn 和 Zmn 分别代表第 n 个密语及在第 m 个图像上他的对象。参数 α 和 β 是狄利克雷分布参数。在论文中,图 4(a)表示生成和学习过程,[16]中,它基本上与在图 7[11],中改进过的 LDA 模型相同,原 βk 现在表示为 φk。注意,基于 LDA 的文本处理技术应用于图像处理,以及这两个术语之间的类比可以定义如下:码字 w 是一个图像的基本单位,被定义为一个从字典编码词索引的密码字典的成员;第V 个密语由一个 v 矢量 w 表示。如果 , ,那么 不等于 t。在图 2 中,w 是1vW0tv一个隐含变量,一个码字相当于在文本处理中的一个单词。表示图像中的第 n 个码元,在文本处理过程中),.21}(.,{21 mWnmn图像的等价物是一个“文档”。 表示图像数据集。在文本处理,这是},.{21m相当于“语料库”。现在我们可以写下通过 LDA 模型产生一个图像 的过程mW1.对对象 和参数进行抽样 ;k&},.{k2.对于数据集 W 中的图像 , 抽样对象概率分布 θm 以及参数 αm3.对于在图像 的第 n 个密语,(a)选择潜在对象 ~多项式(θm)mZ,(b)组成密语 ~多项式n, nmZ,&θm 和 φk 服从狄利克雷分布,这是多项分布的共轭优先分布。分布函数定义如下:2.3。参数估计:吉布斯采样器LDA 模型的参数估计方法中:拉普拉斯近似[17],变分推理[18]和马尔可夫链蒙特卡罗(采样)[19]。吉布斯抽样是 MCMC 中一个特殊的例子。当联合分布的维度较高时,吉布斯抽样可以产生相对简单的算子。每种评估方法都有其优点和缺点许多因素如效率、复杂性、准确性,为了选择一种恰当的推理算法所必须考虑概念的简单性。吉布斯采样器容易描述和实现,我们使用吉布斯采样器参数估计。我们的目标是评估后验分布,这个分布不能直接计算,因为在分母包含很多项不能被分解。然而,我们可以用吉布斯抽样解决这个问题,吉布斯采样每次只能采样一个潜在变量。更具体地说,这个模型样本的吉布斯采样器在码字 w 的主题 z 避免估算实际参数 θm 和 φk。一旦确定码字的对象,θm和 φk 可以从频率统计信息计算。最后的抽样公式如下[16]:2.4 带有主题特征的图像显示正如上面提到的,图像被视为一系列码字集成,图像场景分类任务是由使用一个类似的自然语言主题模型来实现。将 LDA 应用于自然语言处理的情况下,很容易获得在主题空间中新图像的展示。鉴于图片码字和一个被训练模型 Mod,在码字上的一个潜在主题,可以通过下面的公式表示:图 3 表示图像 M 和 的关系,图像的表示包含两部分,图像的码字和图像数据集的m统计信息,需要指出的是:在新的图像上提取该特征是一个基于码字的线性映射过程,该过程需要很少的计算量。:3。相关工作当人们看到一幅图时首先考虑的是图像的内容而不是图像的低级特征。使用图像的语义信息进行场景分类更符合人的习惯。目前,有很多涉及使用图像特征的主题模型的文献 在使用 BOW 模型的一些案例中(没有空间信息),其中一些使用主题模型来描述图像,通过分类器进行分类。现有监督分类器[1],[22]和[14]和基于推理和区别的新方法[6][7]用于分类。虽然我们的想法很大程度上是受这些文献的启发,它的优点是功能,主题和分类器是相互独立的,因此我们可以灵活应用的每个部分来提高算法的整体性能[22]。此外,它可以区分图像场景类别没有任何额外的分类器。如果我们只从分类的角度来看场景区分任务,这些方法有一个共同的特点:在图像标签在输入分类器之前已使用,无论是每个分类中产生主题区别[6],[1]和[14]还是通过主体信息来培训隐藏的多样性[7]。 与方法[6]和[1]相比我们的方法不同的是图像分类过程中图像统计信息的收集是不明显的。这表示从一个监督分类的角度由不同的特性和标签。这样的大多数技术监督分类和功能是可以使用的。现有的方法不论为每个类建立一个 LDA 模块,建立诊断的话题,或者,使用更贴近我们的方法,使用视图的新形象的特征分类。应该指出的是,我们被称为字典方法本与他们通过简化新形象的表示(p(2.4 节)z | w)是不同的。因此码字是线性和直接映射映射出局部特性,并且代表新形象的过程(9)和(10)可以省略。4 实验和结果4.1 数据集我们评估通过三个真实的数据集评估我们的方法:1。LabelMe 数据集由奥利瓦和Torralba 提供[25];2。UIUC-Sport 数据集由 Li-jia Li 和 Li Fei-Fei 提供[12];3。15 个场景数据集的由研究人员提供[25],[6]和[3]。图 4 通过每个数据集显示了一些示例图像,通过内容进行总结:LabelMe:这是一个数据集关于八个自然场景分类,和包括 2688 个具有相同的大小为256×256 的彩色图像。包含 360 海岸,328 个森林 260 高速公路、308 个内部城市,374 个山脉,410 开放城市 ,292 条街,356 高建筑。我们在每个类使用 100 张图片用于培训其他用于测试。UIUC-Sport:这个数据集包括 8 复杂事件类别,包含 1579 个有不同的尺寸彩色图像。有194,个攀岩 194,200 个羽毛球类别图片,137 个地掷球图片、236 槌球图片等。我们把图片标准化为 256×256。我们的实
展开阅读全文
温馨提示:
金锄头文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
相关搜索

当前位置:首页 > 经济/贸易/财会 > 综合/其它


电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号