基于ssd的行人检测方法

上传人:小** 文档编号:34084092 上传时间:2018-02-20 格式:DOC 页数:5 大小:66.50KB
返回 下载 相关 举报
基于ssd的行人检测方法_第1页
第1页 / 共5页
基于ssd的行人检测方法_第2页
第2页 / 共5页
基于ssd的行人检测方法_第3页
第3页 / 共5页
基于ssd的行人检测方法_第4页
第4页 / 共5页
基于ssd的行人检测方法_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于ssd的行人检测方法》由会员分享,可在线阅读,更多相关《基于ssd的行人检测方法(5页珍藏版)》请在金锄头文库上搜索。

1、基于 SSD 的行人检测方法 朱敏 南通航运职业技术学院机电信息系 摘 要: 院大多数行人检测方法都是基于人工设计的特征, 在复杂场景下检测精度不高。随着深度学习方法的发展, 行人检测取得了很大的成功。本文提出了一种基于SSD 的行人检测方法。为提高对小对象的检测精度, 引入了一种多层特征融合方法, 向 SSD 中加入上下文信息, 实验表明, 该方法在 KITTI 数据集上取得了令人满意的检测性能。关键词: 院行人检测; 特征融合; 小对象检测; 卷积神经网络; Abstract: Most of the pedestrian detection methods are based on ha

2、nd-crafted features which produce low accuracy on complex scenes.With the development of deep learning method, pedestrian detection has achieved great success.In this paper, wepropose a pedestrian detection method which is based on SSD (Single Shot Multi Box Detector) .In order to improve the accura

3、cy ofsmall objects, we introduce a multi-level feature fusion method for adding context information to SSD, Experiments show that theproposed method achieves satisfactory performance on the KITTI datasets.Keyword: Pedestrian detection; Feature fusion; Small object detection; CNN; 1 概述行人检测有着广泛的应用, 如智

4、能监控、辅助驾驶、机器人等等, 一直是研究的热点之一。然而由于行人姿态多变、遮挡、衣着、光线的变化、复杂的背景等多方面因素的影响, 行人检测仍然是极具挑战的研究领域。在过去的十多年里, 行人检测技术取得了巨大的进步, 发展出了很多表现出色的行人检测方法。目前主流的方法都是基于统计学习的, 核心是特征提取和分类。常用的分类方法有 SVM、Adaboost、随机森林、深度网络等。特征提取是影响行人检测性能的重要因素。常见的包括 Haar 特征、积分通道特征 (ICF) 、梯度直方图 (HOG) 、局部二进模式 (LBP) 、密集 SIFT 等特征。Felzenszwalb 等人基于 HOG 特征提

5、出的可变形零件模型 (DPM) , 在行人检测方面取得了突破性进展1。然而这些特征都是人工设计的, 人工设计的行人特征很难适应行人在现实中的各种复杂变化。近来, 随着深度学习技术的发展, 深度卷积神经网络成功地应用到了图像识别领域, 深度卷积神经网络的优势在于它能够通过学习, 自动从图像像素中提取特征。2012 年 Hinton 领导的小组使用深度卷积神经网络算法在 Image Net 大规模视觉识别挑战赛上取得了压倒性的成功, 从而引起计算机视觉领域的深度学习热潮。许多研究人员把深度学习应用到了行人检测领域。Sermanet 等人 (2013) 提出了两层卷积模型, 用卷积稀疏编码来训练卷积

6、神经网络, 对行人进行检测。Chen 等人提出了一种预训练的深度卷积神经网络 (DC-NN) , 从 ACF 检测器中学习特征, 再将这些特征送到 SVM 分类器进行分类。随着各种大规模图像数据库的建立和硬件计算能力的提高, 深度卷积神经网络在计算机视觉的不同领域取得到了巨大的成功。在目标检测方面, 从RCNN、SPP-Net、Fast-RCNN、Faster-RCNN 到 YOLO、SSD, 目标检测的准确率和速度都达到了新的高度。本文将目标检测方面的成功方法运用到行人检测上, 以 SSD 方法为基础, 结合行人检测的特点, 构建一种快速高性能的行人检测方法。2 相关研究SSD (Singl

7、e Shot Multi Box Detector) 2用回归方法作检测, 把定位和分类放在一个网络里面。SSD 的网络是在 VGG16 上作修改, 把 VGG16 的全连接层换成卷积层。添加的每个卷积层都输出一个特征图, 并以此作为预测的一个输入, 从而得到多尺度的特征图来进行回归。低层的特征图包含了更多的信息, 有利于保留细节, 回传训练误差, 提高了检测的精度。SSD 同时借鉴了 YOLO 和Faster-RCNN 两种方法的优点, 效果也超越了两者, m AP 达到了 75%, 速度达到了 58fps。3 行人检测方法3.1 网络模型本文的基于 SSD 的检测方法网络模型包括两个部分,

8、 基础网络采用的是 VGG16网络, 对它略作了修改, 后面的网络是额外添加的特征层。附加的卷积特征层, 在尺度上逐步减小, 从而得到不同尺度的特征层, 实现多尺度的目标检测。对附加的每个特征层, 使用一组卷积滤波器, 可以得到一组固定数目的检测预测。对于一个尺寸为 m*n, p 通道的特征层, 使用一个 3*3*p 的小核作为基础元素来预测一个可能检测的信息, 包括类别信息和位置信息。SSD 方法对小物体漏检率较高, 本文方法对 SSD 方法作了改进。将多层特征融合到原始 SSD 网络中, 从而把上下文信息加入到 SSD 网络中, 提高对小对象的检测精度。3.2 特征融合模块在一个卷积神经网

9、中, 较浅的卷积层有较小的感受野, 适合于预测小的物体。较深的卷积层有较大的感受野, 适合于预测大的物体。然而浅卷积层包含较少的语义信息, 不利于对小物体的精确预测。受文献3的启发, 本文在 SSD 基础网络中加入了特征融合模块, 通过使用反卷积层和多层连接, 将更多的上下文信息加入到特征图中, 增强对小对象的预测能力。在卷积层 Conv5_3 后面接一个反卷积层使它与 Conv4_3 大小一致, 在分别做一次 3*3 的卷积后再加一个批规范化层。然后, 把这两个层用逐元素点乘的方式得到融合层。3.3 获取默认包围框对预测目标用不同的宽高比和规模进行覆盖。对一个 m*n 的特征图来讲, 每个网

10、格对应多个预测 (假设为 K 个) , 所有中心落在该网格的目标, 都由该网格进行回归预测。假设这 K 个包围框对应的分类数为 C, 相对默认矩形的偏移为 4, 则需要预测的结果就是: (C+4) *K。即对于一张 m*n 大小的特征图, 能够得到m*n* (C+4) *K 个默认包围框。3.4 目标损失函数对于每个真实框, 有可能有多个默认包围框与其相匹配 (根据 IOU0.5) 。总的目标损失函数 (objective loss function) 是由分类误差 (confidence loss) 和定位误差 (localization loss) 加权求和得到:其中, L (conf)

11、为分类误差, 用多分类 Softmax 来实现;c 为默认框中存在目标的置信度;L (loc) 为回归定位误差;l 为预测框;g 为真实框; 是两种误差的均衡系数;N 是与真实框相匹配的默认框个数。4 实验与分析4.1 数据集本文使用 KITTI 数据集来评估所提出的行人检测方法。相对其他的数据集, KITTI 数据集中包含了较多的小对象。KITTI 的目标检测数据集由 7, 481 个训练图像和 7, 518 个测试图像组成, 包括总共 80, 256 个标签对象。所有图像均为彩色与 png 格式。4.2 实验本文的实验环境为 2.5GHz CPU+Linux+CUDA+NVIDIA GTX

12、 Titan X。本文在 Caffe 框架中实现这个方法。应用了一个经过预训练的原始 SSD 网络, 该网络是剪裁过的全卷积的 VGG16 网络。在此基础上对自己的网络模型进行细调。将初始学习率设置为 0.0005, 先迭代 60, 000 次, 然后将学习率降低为0.0001 和 0.00001 再分别各迭代 20, 000 次。冲量设为 0.9, 权重衰减因子设为 0.0005。4.3 结果与分析本文把训练图像集分成两部分, 一部分为训练集, 包括 3740 个图像, 另一部分为验证集, 包括 3741 个图像。在验证数据集上验证本文方法的检测效果。结果如图 1 所示。图 1 本文方法的精

13、度-召回率曲线及平均精度值 下载原图我们还将本文方法与 SSD、RRC 等其它有代表性的行人检测方法进行了比较。结果见表 1。表 1 不同检测方法对比 下载原表 SSD 是本文检测方法的基准方法, 在 Pascal VOC 数据集上其平均精度均值 (Mean Average Precision) 达到了 75%以上。然而其在 KITTI 数据集的表现却很一般, 体现了其在复杂背景与小目标检测场景下的不足。本文方法在 SSD 的基础上, 对它的不足之处加以改进, 用特征层融合的方式, 加入更多的上下文信息, 提高对小对象的检测精度。实验结果显示提升效果明显, 而且检测速度与 SSD 相差不大。R

14、RC 方法是目前 KITTI 测试平台上行人检测方面名列前茅的方法之一, 其检测的平均精度大大高于本文的方法, 然而其检测时间也远大于本文方法。结束语本文基于 SSD 目标检测架构提出一种改进的行人检测方法, 针对 SSD 方法对小对象检测性能不佳的不足之处, 对它作出改进。将多层特征融合到原始 SSD 网络中, 从而把上下文信息加入到网络中, 提高对小对象的检测精度。在场景复杂、小对象较多的 KITTI 数据库上进行实验, 结果显示本文方法的检测性能比原始 SSD 方法有明显提高。同时仍然保持了较好的检测速度。参考文献1Benenson R, Omran M, Hosang J, et al

15、.Ten Years of Pedestrian Detection, What Have We LearnedJ.Computer Vision, 2014, 8926:613-627. 2W.Liu, D.Anguelov, D.Erhan, S.Christian, S.Reed, C.-Y.Fu, and A.C.Berg.SSD:single shot multibox detector.In ECCV, 2016.1, 3, 4, 6, 7, 8 3C Fu, W Liu, A Ranga, A Tyagi, A Berg, “DSSD:Deconvolutional Single Shot Detector, ”ar Xiv preprint ar Xiv:1701.06659, 2017.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号