Faster-RCNN－金锄头文库

资源描述

《Faster-RCNN》由会员分享，可在线阅读，更多相关《Faster-RCNN（18页珍藏版）》请在金锄头文库上搜索。

1、目标检测框架Faster RCNN 目标检测框架Faster RCNN 框架中用到的一些技术介绍Faster RCNN整体框架训练时采用的一些策略与参数设置 RCNN系列检测算法介绍 RCNN fast rcnn faster rcnn此系列算法采用策略 1 提取建议区域 R代表regionproposal 2 利用CNN对建议区域进行分类提取建议区域方法的发展滑动窗口 selectsearch edgebox rpn其它深度学习检测策略利用CNN强大的表述能力直接对目标位置进行回归例如YOLO SPPNet 1 结合空间金字塔方法实现CNNs的多尺度输入一般CNNs后接full co

2、nnectlayer或者classifier 它们都需要固定的输入尺寸因此不得不对输入数据进行crop或warp 这些预处理会造成数据的丢失或几何学上的失真 SPPNet的第一个贡献是将空间金字塔的思想加入到CNNs中实现了数据的多尺度输入 SpatialPyramidPoolingLayer SPP 如图在卷基层和全连接层之间加入SPPlayer 此时网络的输入可以是任意尺寸在SPPlayer中每一个pooling的filter会根据输入调整大小而SPP的输出尺寸始终是固定的 2 只对原图提取一次卷积特征在R CNN中每个proposedregion先rescale成统一大小

3、然后分别作为CNNs的输入这样是很低效的在SPPNet中只对原图进行一次卷积得到整张图的featuremap 然后找到每个proposedregion在featuremap上的映射patch 将此patch作为每个proposedregion的卷积特征输入到SPPlayer和之后的层节省了大量的计算时间比R CNN有一百倍左右的加速 FastR CNN整体结构如图 FastR CNN的网络有两个输出层一个softmax 一个bboxregressor 相对的R CNN SPPNet中分类和回归是两个部分这里集成在了同一个网络中而且加入了一个RoIpoolinglayer 类似

4、于一个尺度的SPPlayer 注意 FastR CNN提取建议区域的方法依然是selectsearch RoIpoolinglayer 这是SPPpooling的一个简化版本可以看做是只有一个尺度filter的金字塔输入是N个整幅图的featuremap和一组R个RoI proposedregion 每个特征映射都是H W C 每个RoI是一个元组 n r c h w n是特征映射的索引 r c h w分别是RoI的左上角坐标和高与宽输出是max pooling过得特征映射H xW xC 如上图中红色框线 Faster RCNN整体框架 FasterR CNN FasterR CNN的

5、主要贡献是设计了提取建议区域的网络RegionProposalNetwork RPN 代替了费时的selectsearch 使检测速度大为提高下图为FasterR CNN的结构图黄色部分为RPN 可以看出除了RPN 其它部分继承了FR CNN的结构 RPN整体结构 RPN的网络结构类似于FR CNN 连接与最后卷基层输出的featuremap 有一个RoI层两个输出层一个输出滑窗为建议区域的概率另一个输出bbox回归的offset 其训练方式也类似于FR CNN 注意 RPN与FR CNN共用卷积层 RPN RPN通过一个滑动窗口图中红色框连接在最后一个卷积层输出的feature

6、map上然后通过全连接层调整到256 d的向量作为输出层的输入同时每个滑动窗对应k个anchorboxes 在论文中使用3个尺寸和3个比例的3 3 9个anchor 每个anchor对应原图上一个感受野通过这种方法提高scale invariant Multi taskloss FR CNN的有两个网络输出层将原来与网络分开的bboxregression的操作整合在了网络中并设计了一个同时优化两个输出层的loss函数 Lp t 1 其中第一部分是softmax层的loss函数是每个建议区域为目标的概率是一个表示类别的标签第二部分是bboxregression层的loss函数

7、是bbox的标签offset t 是bbox预测的offset RoI centricsampling与Image centricsampling RoI centricsampling 从所有图片的所有RoI中随机均匀取样这样每个SGD的mini batch中包含了不同图像中的样本 SPPNet采用 SPPNet的反向传播没有到SPPpooling之前的层因为反向传播需要计算每一个RoI感受野的卷基层通常会覆盖整幅图像又慢又耗内存 FR CNN想要解决这个限制 Image centricsampling mini batch采用分层采样先对图像采样再对RoI采样将采样的RoI

8、限定在个别图像内这样同一图像的RoI共享计算和内存通过这种策略实现了端到端的反向传播可以fine tuning整个网络 RPN与FR CNN共享卷基层为了使共用的卷积层在训练RPN和FR CNN时都会收敛论文里设计了一个四步训练的策略 1 对RPN进行end to end的训练这里网络使用ImageNetpre trainedmodel进行初始化 2 使用第一步RPN生成的建议区域训练FR CNN 这里也使用ImageNetpre trainedmodel进行初始化 3 使用上一步FR CNN的参数初始化RPN 固定卷基层只fine tuneRPN独有的层在此步已共享卷积层

9、4 固定卷基层只fine tuneFR CNN独有的层训练时采用的一些策略与参数设置 1 使用ImageNet分类模型初始化使模型具有一定的提取图像通用特征的能力是目前在训练数据较少和检测任务中的常用做法 2 solver配置文件中的参数初始学习率0 001 学习率衰减系数0 1 SGD方法权重衰减项0 0005 在RPN和Fast RCNN中都是这样 3 训练样本选择方法与其参数设置训练时采用的一些策略与参数设置 3 训练样本选择方法与其参数设置RPN中参数的设置按照Image centricsampling 每个batch中的图片数 ims per batch1或2每个batc

10、h中的正负样本数 batch size256每个batch中正样本占得比率 fg fraction0 5与GroundTruth的IOU大于阈值0 75的ROI作为正样本 fg thresh 0 75与GroundTruth的IOU在阈值0到0 35之间的ROI作为负样本 bg thresh hi 0 35 bg thresh lo 0featuremap到原图映射的变化率为16 这个数值主要是由池化降维算出与其步长选择有关 feat stride 16 训练时采用的一些策略与参数设置 3 训练样本选择方法与其参数设置Fast RCNN中参数的设置ims per batch1或2batch size128每个batch中正样本占得比率 fg fraction0 25与GT的IOU大于阈值0 6的ROI作为正样本 fg thresh 0 6与GT的IOU在阈值0 1到0 5之间的ROI作为负样本 bg thresh hi 0 5 bg thresh lo 0 1

展开阅读全文