YOLO:实时快速目标检测

上传人:夏** 文档编号:457097354 上传时间:2023-10-14 格式:DOCX 页数:6 大小:16.90KB
返回 下载 相关 举报
YOLO:实时快速目标检测_第1页
第1页 / 共6页
YOLO:实时快速目标检测_第2页
第2页 / 共6页
YOLO:实时快速目标检测_第3页
第3页 / 共6页
YOLO:实时快速目标检测_第4页
第4页 / 共6页
YOLO:实时快速目标检测_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《YOLO:实时快速目标检测》由会员分享,可在线阅读,更多相关《YOLO:实时快速目标检测(6页珍藏版)》请在金锄头文库上搜索。

1、YOLO:实时快速目标检测论文笔记:YouOnlyLookOnce:Unified,Real-TimeObjectDetection评论:基于深度学习方法的一个特点就是实现端到端的检测。相对于其它目标检测与识别方法(比如FastR-CNN)将目标识别任务分类目标区域预测和类别预测等多个流程,YOLO将目标区域预测和目标类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更加适合现场应用环境。后续研究,可以进一步优化YOLO网络结构,提高YOLO准确率。YOLO类型的端到端的实时目标检测方法是一个很好的研究方向。(预告:后续文章中,将对YOLO的tensorflow源码

2、实现进行详解,敬请关注)简介:YOLO为一种新的目标检测方法,该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归问题。该方法采用单个神经网络直接预测物品边界和类别概率,实现端到端的物品检测。同时,该方法检测速非常快,基础版可以达到45帧/s的实时检测;FastYOLO可以达到155帧/s。与当前最好系统相比,YOLO目标区域定位误差更大,但是背景预测的假阳性优于当前最好的方法。1前言人类视觉系统快速且精准,只需瞄一眼(YouOnlyLookOnce,YOLO)即可识别图像中物品及其位置。传统目标检测系统采用deformablepartsmod

3、els(DPM)方法,通过滑动框方法提出目标区域,然后采用分类器来实现识别。近期的R-CNN类方法采用regionproposalmethods,首先生成潜在的boundingboxes,然后采用分类器识别这些boundingboxes区域。最后通过post-processing来去除重复boundingboxes来进行优化。这类方法流程复杂,存在速度慢和训练困难的问题。本文中,我们将目标检测问题转换为直接从图像中提取boundingboxes和类别概率的单个回归问题,只需一眼(youonlylookonce,YOLO)即可检测目标类别和位置。YOLO采用单个卷积神经网络来预测多个boundi

4、ngboxes和类别概率,如图1-1所示。本方法相对于传统方法有如下有优点:一,非常快。YOLO预测流程简单,速度很快。我们的基础版在TitanXGPU上可以达到45帧/s;快速版可以达到150帧/s。因此,YOLO可以实现实时检测。二,YOLO采用全图信息来进行预测。与滑动窗口方法和regionproposal-based方法不同,YOLO在训练和预测过程中可以利用全图信息。FastR-CNN检测方法会错误的将背景中的斑块检测为目标,原因在于FastR-CNN在检测中无法看到全局图像。相对于FastR-CNN,YOLO背景预测错误率低半。三,YOLO可以学习到目标的概括信息(generali

5、zablerepresentation),具有一定普适性。我们采用自然图片训练YOLO,然后采用艺术图像来预测。YOLO比其它目标检测方法(DPM和R-CNN)准确率高很多。YOLO的准确率没有最好的检测系统准确率高。YOLO可以快速识别图像中的目标,但是准确定位目标(特别是小目标)有点困难。图1-1Y0L0目标检测系统2统一检测(UnifiedDetection)作者将目标检测的流程统一为单个神经网络。该神经网络采用整个图像信息来预测目标的boundingboxes的同时识别目标的类别,实现端到端实时目标检测任务。如图2-1所示,YOLO首先将图像分为SxS的格子(gridcell)。如果一

6、个目标的中心落入格子,该格子就负责检测该目标。每一个格子(gridcell)预测boundingboxes(B)和该boxes的置信值(confidencescore)。置信值代表box包含一个目标的置信度。然后,我们定义置信值为。如果没有目标,置信值为零。另外,我们希望预测的置信值和groundtruth的intersectionoverunion(IOU)相同。每一个boundingbox包含5个值:x,y,w,h和confidence。(x,y)代表与格子相关的box的中心。(w,h)为与全图信息相关的box的宽和高。confidence代表预测boxes的IOU和goundtruth。

7、每个格子(gridcell)预测条件概率值C()o概率值C代表了格子包含一个目标的概率,每一格子只预测一类概率。在测试时,每个box通过类别概率和box置信度相乘来得到特定类别置信分数:这个分数代表该类别出现在box中的概率和box和目标的合适度。在PASCALVOC数据集上评价时,我们采用S=7,B=2,C=20(该数据集包含20个类别),最终预测结果为7x7x30的tensor。图2-1模型2.1网络结构模型采用卷积神经网络结构。开始的卷积层提取图像特征,全连接层预测输出概率。模型结构类似于GoogleNet,如图3所示。作者还训练了YOLO的快速版本(fastYOLO)。FastYOLO

8、模型卷积层和filter更少。最终输出为7x7x30的tensor。图2-2网络结构2.2训练方法作者采用ImageNet1000-class数据集来预训练卷积层。预训练阶段,采用图2-2网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5accuracy为0.88(ImageNet2012validationset),与GoogleNet模型准确率相当。然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224x224-448x448)。顶层预测类别概率和boundingbox协调值。bound

9、ingbox的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linearactivation,其它层使用leakyrectifiedlinear。作者采用sum-squarederror为目标函数来优化,增加boundingboxloss权重,减少置信度权重,实验中,设定为。训练阶段的总loss函数如下:作者在PASCALVOC2007和PASCALVOC2012数据集上进行了训练和测试。训练135轮,batchsize为64,动量为0.9,学习速率延迟为0.0005.Learningschedule为:第一轮,学习速率从0.001缓慢增加到0.01(因为如果初始为高学习速率,会导致模型

10、发散);保持0.01速率到75轮;然后在后30轮中,下降到0.001;最后30轮,学习速率为0.0001.作者还采用了dropout和dataaugmentation来预防过拟合。dropout值为0.5;dataaugmentation包括:randomscaling,translation,adjustexposure和saturation。2.3预测对于PASCALVOC数据集,模型需要对每张图片预测98个boundingbox和对应的类别。对于大部分目标只包含一个box;其它有些面积大的目标包含了多个boxes,采用了Non-maximalsuppression(非最大值抑制)来提高准

11、确率。2.4Limitations一,YOLO的每一个网格只预测两个boxes,一种类别。这导致模型对相邻目标预测准确率下降。因此,YOLO对成队列的目标(如一群鸟)识别准确率较低。二,YOLO是从数据中学习预测boundingboxes,因此,对新的或者不常见角度的目标无法识别。三,YOLO的loss函数对smallboundingboxes和largeboundingboxes的error平等对待,影响了模型识别准确率。因为对于小的boundingboxes,smallerror影响更大。效果对比文中比较了YOLO和其它目标检测方法(Deformablepartsmodels,R-CNN,

12、FasterR-CNN,DeepMultiBox,OverFeat,MultiGrasp)实验结果4.1与其它检测方法效果对比如表4-1所示,在准确率保证的情况下,YOLO速度快于其它方法。表4-1PASCALVOC2007数据集测试4.2VOC2007错误项目分析文中比较了YOLO和FasterR-CNN的错误情况,结果如图4-1所示。YOLO定位错误率高于FastR-CNN;FastR-CNN背景预测错误率高于YOLOo预测结果包括以下几类:正确:类别正确,IOU0.5定位:类别正确,0.10.1背景:IOU0.1图4-1错误项目分析4.3结合FastR-CNN和YOLOYOLO和Fast

13、R-CNN预测错误类型不同,因此可以结合两类模型,提升结果。结果如表4-2所示。表4-2模型结合4.4VOC2012结果VOC2012数据集上测试结果如表4-3所示。表4-3VOC2012数据集测试结果4.5普适性我们在其它数据集(艺术品目标检测):PicassoDataset和People-ArtDataset测试了Y0L0的性能,结果如图4-2和图4-3所示。图4-2艺术品目标检测结果一图4-3艺术品目标检测结果二5实时检测作者测试了YOLO的实时检测效果,结果参见YouTubechannel:https:/goo.gl/bEs6Cj.(可惜要翻墙才能看)。6,结论YOLO为一种基于单独神经网络模型的目标检测方法,具有特点可以高准确率快速检测,同时具有一定鲁棒性,可以适用于实时目标检测。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号