卷积递归深度学习在D物体分类上及应用

上传人:豆浆 文档编号:19386760 上传时间:2017-11-19 格式:DOC 页数:11 大小:579KB
返回 下载 相关 举报
卷积递归深度学习在D物体分类上及应用_第1页
第1页 / 共11页
卷积递归深度学习在D物体分类上及应用_第2页
第2页 / 共11页
卷积递归深度学习在D物体分类上及应用_第3页
第3页 / 共11页
卷积递归深度学习在D物体分类上及应用_第4页
第4页 / 共11页
卷积递归深度学习在D物体分类上及应用_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《卷积递归深度学习在D物体分类上及应用》由会员分享,可在线阅读,更多相关《卷积递归深度学习在D物体分类上及应用(11页珍藏版)》请在金锄头文库上搜索。

1、卷积递归深度学习在 3D 物体分类中的应用(Convolutional-Recursive Deep Learning for 3D Object Classification)Richard Socher, Brody Huval, Bharath Bhat, Christopher D. Manning, Andrew Y. NgComputer Science Department, Stanford University, Stanford, CA 94305, USA摘 要3D 传感技术的最新进展使人们有可能轻松地拍摄彩色和深度信息并存的图片,以提高物体识别的图像。目前,大多数方法对

2、于这个新的 3D 方式依赖于非常精心设计的特征。引入一个基于卷积和递归神经网络(CNN 和 RNN)组合的模型,用于特征学习和 RGB-D 图像分类。CNN 层用于学习低水平的平移不变性的特征,然后作为多个固定树 RNN 的输入,以组成高阶特征。RNN 可以被看作是结合卷积,并汇集到一个高效的、分层的操作。我们的主要结果是,甚至随机权重的 RNN 也组成强大的特征集。我们的模型在标准 RGB-D 对象集上获得了较好的艺术表现力,与其他可比的架构相比(如两层 CNN) ,在训练和测试的阶段能更准确、快捷地得到结果。1 简介物体识别是计算机视觉中最困难的问题之一,并对于实用化家庭环境下的机器人十分

3、重要。新的传感技术(如 Kinect)可以记录高品质 RGB 和深度图象(RGB-D)信息,并且现在已经结合标准视觉系统在家用机器人中运用了。深度模式为复杂问题的总体目标检测提供有用的额外信息,由于深度信息是不随亮度或颜色的变化而变化的,并提供了几何线索使得可以更好地从背景中分离。目前,大多数基于 RGB-D 图像的物体识别使用手工设计的特征集,如二维图像的 SIFT 2,三维点云的旋转图片3,或特定的颜色,形状和几何特征4,5。本文介绍了用于对象识别的第一卷积递归深度学习模型,该模型可以借鉴原始 RGB-D 图像。相比近期其他 3D 特征学习方法6,7,我们的做法具有更快速度、不需要额外的输

4、入渠道(如表面法线) 、艺术性地检测家用物品的特点。图图 1 列出了我们的做法。训练和测试代码在 www.socher.org 上可以找到。模型采用原始的 RGB 和深度图像进行分析,并首次分别从中提取特征。每一种模式首先输入一个卷积神经网络层(CNN,8) ,这个网络层提供了低层特征(如边缘)上有效的平移不变性,并且允许对象在一定程度上变形。汇集的滤波器相应随后传送给一个递归神经网络(RNN,9) ,它可以学习成分特征和部分交互作用。通过绑定权重和非线性的多个层次,将 RNN 分层地投入到低维空间中。本文也探索了计算机视觉中新的深度学习架构。之前,RNN 在自然语言处理和计算机视觉9,10方

5、面的工作中, (i)为每组输入使用了不同的树型结构,(ii)采用具有一组权重的单一 RNN, (iii)限制树状结构为二叉树,及(iv)通过结构的反向传播训练 RNN11,12。在本文中,利用固定树结构、输入多个 BNN 和 N 叉树的方法,针对这四个方面拓展基于 RNN 结构的可能性。由此表明,由于 CNN 层中固定的树结构不仅不会降低性能,而且提高了识别速度。类似于近期的工作13,14可见,随着特征数量的增加,RNN 模型的性能也随之提高。每种模式分层组成的 RNN 特征相互连接,作为联合 SOFTMAX 分类器的输入图 1:模型概述:一个从 RGB 和深度图像信息中提取低层特征的单一 C

6、NN 层。这两种表示法都作为一组随机加权 RNN 的输入。若干个 RNN(每个模式约 100 个)将特征递归映射到一个较低的维空间中,所有结果向量的串联形成最终的 SOFTMAX 分类器特征向量。最重要的是,经证实,随机权重的 RNN 也可以得到高质量的特征。到目前为止,随机权重仅被证明可用于卷积神经网络15,16。由于监督训练减少了最终 SOFTMAX 分类器的权重的优化,可以很快地发掘大量的 RNN 结构。综上所述,得到了一个既能快速训练,又能在测试阶段高度并行的 3D 物体分类艺术系统。首先,本文简要介绍了过滤器权重及其卷积的无监督学习,由此得到低级的特征。其次,详细描述了如何用多个随机

7、 RNN 用来获得整幅图像的高水平特征。最后,讨论了相关工作。实验中,定量比较了不同的模型,分析了模型的消融,描述得到 Lai2等人的 RGB-D 数据集结果2 卷积递归神经网络本节描述了新建立的 CNN-RNN 模型。首先,利用随机曲面的聚类使 CNN 过滤器进行无监督学习,然后将这些曲面转化成 CNN 层。将所得低级别、平移不变的特征传递给递归神经网络。由高阶特征组成的 RNN 可被用于图像分类。2.1 CNN 过滤器的无监督预训练根据 Coates13等人描述的过程,学习在卷积中要使用的过滤器。首先,根据模式(RGB 和深度)提取随机曲面到两个集合中,然后对每组曲面进行规范化和白化。预处

8、理后的曲面用简单 k-means 方法进行聚类操作,图 2 展示了两种方法得到的过滤器,他们捕获了标准边缘和颜色特征。在深度通道应用此方法的一个结果是锐化物体边界,这是因为物体边界和背景较大的不连续性,虽然深度通道往往有很多噪声,但是大部分特征依然平滑。图 2:非监督预训练后 CNN 层中 k-means 过滤器的可视化:(左)标准 RGB 过滤器(颜色显示效果最好)捕获边缘和颜色。当此方法适用于深度图象(中) ,由于物体边界强烈的不连续性,所得到的过滤器具有较明显的边缘。与使用图像的灰度信息训练得到的过滤器(右)相比,得到的结果是类似的,尽管边缘锐化程度较小。2.2 单层 CNN由于 CNN

9、 结构具有平移不变性特点,选择 CNN 生成 RNN 层的特征。 CNN 的主要思想是,将输入图像卷积过滤,从而提取特征集。文中使用的单层 CNN 与Jarrett17等提出的类似,在矫正和局部对比度标准化(LCN)后包含一个卷积过程。LCN 的设计灵感来自于计算神经科学,被用于在一个特征映射内对比特征以及相同空间位置的跨特征映射17 , 18 ,14 。将每个图像的大小(高和宽)d I与 K 方形过滤器的大小 dp进行卷积,每个维度大小为 dI-dp+1,得到 K 滤波器的响应。然后用方形区域大小 dl和步幅大小 s 取均值,汇集得到一个宽和高都等于 r=(dI-dl)/s+1 的响应。因此

10、,一幅图像通过 CNN 层得到的输出 X 是一个 Krr 的三维矩阵。分别在颜色和深度图像信息中进行以上步骤。2.3 固定树递归神经网络递归神经网络19,10的思路是在一个树状结构中递归地应用相同的神经网络,学习分层特征表示形式。本例中,树的叶节点是 K 维向量(一张图像切片的 CNN 汇集结果在所有 K 过滤器上重复) ,一共有 r2个。在我们之前的递归神经网络的工作9,10,20中,树的结构取决于输入。虽然这样做有更大的灵活性,但是对于在关联 CNN 层的物体分类任务中获得高性能是不必要的。此外,在最优树上的搜索大大降低了这个方法的速度,因为并行搜索和并行化大矩阵产品不容易实现。后者可以从

11、新的多核硬件(如GPU)中获益匪浅。在这项工作中,重点在于设计出平衡的固定树结构。之前的工作只是合并了向量对,本文将 RNN 结构由合并向量对推广到允许合并各层邻向量块。由每个图像的 3D 矩阵 XR Krr开始(列是 K 维的) ,定义一个全为相邻列向量的块,合并为一个父向量 pR K。为方便起见,下文只使用方形块,块的大小为 Kbb。例如,如果以 b=3 合并一个向量组为一个块,最终得到大小为12833 的块和一张向量组结果列表(x 1,x9) 。一般情况下,在每个块中有 b2个向量,神经网络中计算父向量的公式是(1)其中,参数矩阵 WR Kb2K,f 是非线性的(如 tanh) ,由于偏

12、置对下面的实验没有影响,省去这个术语。式 1 以相同权重 W,应用于 X 中所有向量的块。一般而言,有(r/b) 2个父向量 p 组成一个新的矩阵 P1。正如在矩阵 X 中运用公式 1 一样,P 1中的向量以同样固定的权重合并成块,形成矩阵 P2。重复以上步骤直到只剩一个父向量位置。图 3 给出了一个从 K44 合并输出 CNN 及有4 个子块的 RNN 树结构的例子图 3:块中应用递归神经网络:对于每个节点,运用相同的神经网络计算一组子向量的父向量。原始输入矩阵是卷积合并的输出。目前为止,模型是非监督的。但是,最初的任务是将每个块分类成许多对象类别。因此,选取顶层向量 Ptop作为 soft

13、max 分类的特征向量。为了尽量减小 softmax 的交叉熵误差,可以通过递归神经网络12和卷积层8反向传播。实践证明,该操作速度较慢,将在本文下一节中讨论其他方法。2.4 多元随机 RNN以前的工作只使用了一个 RNN,实际上可以采用 3D 矩阵 X 作为一组 RNN 的输入,每 N 个 RNN 输出一个 K 维向量。在通过所有 RNN 向前传播后,将所有输出串联成 N 个 K 维向量,随后传递给 softmax 分类器。采用 RNN 中 W 矩阵的导数需要通过结构反向传播,实验发现,随机权重的RNN 能够得到高质量的特征向量组,类似的结果在随机权重密切相关的 CNN 中也存在。在对比其他

14、方法前,先简要回顾一下相关工作。3 相关工作使用 RGB-D 数据进行目标识别和场景理解一直是研究热点,Silberman 和Fergus 已经发表了关于全场景理解的三维数据21,Koppula 等人近期也整理出了室内场景分割的新数据集4。如今在标准对象识别方面最常用的方法是利用基于方向直方图设计的特征集,如 SIFT、SURF 和纹理基元,将他们作为分类器(如随机森林)的输入。尽管这些方法有成功的方面,但是,也有一些缺点:如只能适用于一种模式(SIFT 只能用于灰度图像) ;不容易适应新的模式,如 RGB-D 或不同的图像域。本研究尝试以下方法:通过颜色直方图修改这些特征以适应彩色图像,干脆

15、将 SIFT 方法拓展到深度通道中2。内核描述符5作为一种更先进的方法可以概括这些想法,并且可以结合几个重要的 RGB-D 图像特性(如大小、三维形状和深度边缘) 。另一条相关工作线是对象分类中的空间锥体,特别是与内核匹配的锥体24。相似之处在于,设计的模型也学习了分层图像表示,可用于对象分类。上述问题的另一种解决方案,是(在其他方面)采用无监督的特征学习方法25,26,27,这个方法在对象识别方面已经取得了很大的进展。目前,许多深度学习的方法是从 RGB 图像中学习得特征,几乎没有研究三维图像的深度结构。最近,Blum 等6在 RGB-D 数据中引入卷积 k-means 描述符(CKM) 。

16、他们采用了 SURF 相关的点,与28类似以 k-means 学习特征。在用非监督方法学习特征方面,他们的工作跟我们是类似的。Bo7等最近的工作,是采用基于稀疏编码的非监督学习的特征,从包括灰度强度、RGB、深度标量和表面法线的 8 个不同渠道中学习词典。这些特征随后用于包含两层的分层匹配追踪,每层由三个模块:批处理正交匹配追踪,合并最大锥体和标准化对比度。最后得到一个非常大的用于分类的特征向量,这个向量的维度大小是 188300。最后,Pollack19和 Socher10等为在实验环节中定量对比,引入递归自编码。递归神经网络已经被用于全场景分割9,但是他们使用的是手工设计特征。Farabet29等也在场景分割中引入了一个模型,这个模型基于多标度卷积神经网络和学习特征表示形式。4 实验实验基于 Lai 等人2最近的 RGB-D 数据集。其中,有 51 个不同类别的家用物品和 3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 经济/贸易/财会 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号