基于改进YOLOv5的拥挤行人检测算法

资源描述

《基于改进YOLOv5的拥挤行人检测算法》由会员分享，可在线阅读，更多相关《基于改进YOLOv5的拥挤行人检测算法（14页珍藏版）》请在金锄头文库上搜索。

1、基于改进YOLOv5的拥挤行人检测算法王宏,韩晨,袁伯阳,田增瑞,盛英杰(1.郑州轻工业大学建筑环境工程学院,郑州 450002; 2.河南省智慧建筑与人居环境工程技术研究中心,郑州 450002)行人检测作为计算机视觉领域的热门研究方向,对于行人重识别、行人多目标跟踪、视频监控、智慧交通等领域具有重要意义。由于实际场景复杂、目标密度较大、重叠率过高,以及目标距离摄像设备较远等情况,导致当前行人检测算法存在精度低、漏检和误检率高等问题,因此提出一种可用于密集场景下的行人目标检测算法具有相当的可行性1。基于深度学习的目标检测算法可分为基于区域推荐的Two Stage算法和基于回归的One S

2、tage算法。Two Stage算法首先根据图像生成可能包含检测目标的候选框,然后对生成的候选框进行类别识别和位置校准,代表性的算法主要有R-CNN(region-convolutional neural network)2、Fast R-CNN3、Faster R-CNN4、Mask R-CNN5等,其特点是检测精度较高,但推理和检测时间较长。One Stage算法不需要生成候选框,仅需要一次特征提取,就可以直接生成被检测目标的类别概率和位置信息,代表性的算法主要有YOLO(you only look once)6-10、SSD(single shot multibox detector)1

3、1、EfficientDet12等,其特点是推理和检测速度显著提高,但检测精度较低。近年来,许多学者针对基于深度学习的行人检测算法展开了相关工作。张秀再等13将YOLOv5模型与注意力机制、残差网络和软阈值化函数相融合,有效提高了对小行人目标和密集行人目标的检测精度,但网络结构过于复杂,导致检测速度较慢。邹斌等14提出了改进 Faster-RCNN的密集人群检测算法,在特征提取阶段添加空间与通道注意力机制并使用S-BiFPN(strong bidirectional feature pyramid network)替代原网络中的多尺度特征金字塔,使网络可以加强对图像深层特征的提取,但该算法无法

4、满足目标检测的实时性。Zhang等15提出一种基于改进YOLOv3的轻量级行人检测算法,通过引入正则化减少了不重要的通道数,充分降低了模型的计算量和复杂度,但该算法在拥挤场景下的行人检测精度还有待提高。齐鹏宇等16提出一种全卷积One Stage目标检测框架,通过增加尺度回归提升了行人检测的性能,但该模型受行人深度特征影响较大,对遮挡目标的检测精度欠佳。刘振兴等17提出了一种融合上下文及空间信息的拥挤行人检测算法,通过改进特征金字塔网络结构和添加带权融合分支,有效提升了行人检测算法在拥挤场景中的检测效果,但在实验论证过程中发现该模型存在性能不稳定、检测不够精准和检测速度较慢的情况。现有的深度学

5、习算法在不同程度上提升了密集人群检测的性能,但部分改进后的算法网络结构较复杂,以及对遮挡程度较高的目标和极小尺寸目标的检测性能有所欠佳,导致改进后算法存在检测速度较慢、漏检和误检率高等问题。因此现提出改进YOLOv5的拥挤行人检测算法,通过公开数据集Crowd Human18对该算法进行训练,以期在密集场景中的拥挤行人检测能够达成更好的效果。主要工作如下。(1)在主干网络中嵌入坐标注意力机制CA(coordinate attention)19,用以增大主干网络的感受野和提高YOLOv5捕获位置信息的能力。(2)在原网络三尺度检测的基础上再增加一层浅层检测层,同时改进特征融合部分,提高了对于小尺

6、寸目标的检测性能。(3)使用深度可分离卷积20(DSConv)替换部分普通卷积(Conv),在对特征提取影响较小的前提下大幅降低了模型的参数量和计算量。(4)使用有效交并比损失函数(efficient intersection over union loss,EIOU_loss)21,融合边界框宽高比的尺度信息,有效提升了YOLOv5模型的检测精度。1 YOLOv5算法原理YOLOv5是YOLO系列算法中强大的一代,具有较强的实时处理能力和较低的硬件计算要求。YOLOv5包括4种不同的网络结构,考虑检测速度和精度两方面因素,以网络深度和宽度最小的YOLOv5s(简称“YOLOv5”)为基础网络

7、进行优化。如图1所示,YOLOv5网络结构由输入端(Input)、主干网络(Backbone)、特征提取网络(Neck)、预测端(Prediction)四部分组成。图1 YOLOv5网络结构输入端包括Mosaic数据增强、图像尺寸处理和自适应锚框计算22。主干网络为CSP-Darknet53,主要包括Focus、CSP(cross stage partial)和SPP(spatial pyramid pooling)三部分。其中Focus模块能够实现快速下采样操作;CSP结构将输入分为分别执行卷积运算的两个分支,其中一个分支中信息通过CBL模块(CBL=卷积+正则化+激活函数)后进入多个残差结

8、构,另一分支则直接进行卷积信息,之后将两个分支合并起来23,使网络在提高模型学习能力的同时保证准确率;SPP模块由Conv、max-pooling和concat三部分组成,其作用主要是在不影响推理速度的前提下增加特征提取的感受野,同时增强网络的非线性表示。Neck的核心为FPN(feature pyramid network)和PAN(path aggregation network)。FPN 通过自上而下的上采样实现了语义特征从深层特征图到浅层特征图的传递,PAN 通过自下而上的路径结构实现了定位信息从浅层特征层到深层特征层的传递,二者的组合大大增强了网络的特征融合能力。预测端利用GIOU_

9、loss损失函数和非极大值抑制(non-maximum suppression,NMS)获得最优的目标框,提高了网络识别的准确性。2 YOLOv5算法改进以YOLOv5原算法为基础,分别对其主干网络、检测尺度、特征提取网络和损失函数进行了一系列改进。改进后的YOLOv5网络结构如图2所示。图2 改进后YOLOv5网络结构示意图2.1 主干网络改进在目标检测中加入注意力机制可以使模型聚焦于图像中的关键特征,抑制无关特征。为解决密集场景中背景信息杂乱导致行人目标的特征不明显,以及目标相互遮挡、重叠的问题,在主干网络中嵌入一种坐标注意力机制,使模型更准确地定位和识别感兴趣的目标。通常注意力机制会在一

10、定程度上提高模型的精度,但同时也会使模型增加额外的计算量,影响其检测速率。但简单轻量的CA模块几乎没有额外的计算开销,能够在不影响模型检测速率的情况下提升模型的性能。如图3所示,CA分为坐标信息嵌入和坐标信息特征图生成。图3 CA结构示意图第一步,CA对输入特征图X使用尺寸为(H,1)和(1,W)的池化核进行通道编码,得到高度为h的第c个通道与宽度为w的第c个通道的输出,产生两个独立方向感知特征图zh与zw,大小分别为C1H和C1W,公式为(1)(2)第二步,通过Concat融合上述操作生成的zh和zw,并使用卷积核大小为1的卷积变换函数F1对其进行变换操作,生成在水平和垂直方向进行空间信息编

11、码的中间特征图f,公式为f=F1(zh,zw)(3)式(3)中:为非线性激活函数。沿着空间维度将f分解为两个独立的张量fhRC/rH和fwRC/rW,其中r表示下采样比例。然后利用两个卷积核大小为1的卷积变换函数Fh和Fw将特征图fh和fw变换为与输入X具有相同通道数的张量24。公式为gh=Fh(fh)(4)gw=Fw(fw)(5)式中:为sigmoid激活函数。最后将输出gh和gw进行拓展,分别作为注意力权重分配值,最终输出公式为(6)2.2 检测尺度改进对于输入尺寸为640640的图像,YOLOv5分别利用8倍、16倍、32倍下采样输出检测尺度为2020、4040、8080的特征图,对应检

12、测大、中、小3种尺度的目标。但在实际场景中,很多行人目标由于距离当前摄像头较远,导致其在图像或视频中所占像素过小,而用来检测小目标的8080尺度的特征图无法有效检测到这些更小尺寸的目标,极大地影响了检测结果。针对以上问题,在YOLOv5原有网络结构上增加一层尺度为160160的检测层,同时将原来的特征融合部分改为对应的四尺度特征融合。具体操作为:第17层后继续增加CBL层和上采样,使得特征图进一步扩大;在第20层时,将扩展得到的尺度为160160的特征图与Backbone中第2层特征图进行Concat拼接,融合其细节信息和语义信息,获取更大尺度的特征图用以检测更小尺寸的目标;第21层增加尺度为

13、160160的浅层检测层,其他3个检测层保持不变。改进后的四尺度检测有效利用了浅层特征信息和深层特征的高语义信息,使模型能够从更深层的网络中提取特征信息,提高了模型在密集场景下多尺度学习的能力。2.3 特征提取网络改进改进YOLOv5的四尺度检测虽然提高了模型的检测精度,但同时也在一定程度上加深了网络深度,再加上YOLOv5网络中存在大量的卷积操作,导致模型参数量过多,检测速度较慢。使用深度可分离卷积替换Neck中的部分普通卷积,旨在确保精度基本不变的情况下降低模型的复杂度。深度可分离卷积的原理如图4所示。图4 深度可分离卷积原理图深度可分离卷积将普通卷积分解为深度卷积和点态卷积。首先使用尺寸

14、为KK的卷积核对通道数为M的输入特征图做逐通道卷积,得到M个尺寸为QQ的特征图。然后由N个过滤器对特征图进行点态卷积操作,最终得到通道数为N,尺寸为DD的输出特征图。普通卷积的计算公式为KKMNDD(7)深度可分离卷积的计算公式为KKMDD+MNDD(8)深度可分离卷积与普通卷积的计算量之比为1/N+1/K2,所以将特征提取网络中的部分普通卷积替换为深度可分离卷积可以降低模型参数量,提高模型检测速度。2.4 损失函数改进YOLOv5的损失函数包括边界框回归损失(bounding box loss)、置信度损失(objectness loss)以及分类概率损失(classification lo

15、ss)三部分25。原YOLOv5算法采用GIOU_loss作为Bounding box的损失函数,其缺点是没有考虑到预测框在目标框内部且预测框尺寸相同的问题。针对这一情况,CIoU_loss通过考虑边界框回归的重叠面积和中心点距离,以及预测框和目标框的长宽比,使YOLOv5模型更精确地定位回归框。CIoU_loss计算公式为(9)(10)(11)式中:2(b,bgt)表示预测框和真实框中心点之间的欧氏距离;c表示两框相交时构成的最小外接矩形的对角线距离;w和h表示预测框的宽度和高度;wgt和hgt表示真实框的宽度和高度;IOU表示预测框和真实框的交并比。CIoU_loss提高了模型的检测性能,但未考虑到宽高与其置信度的真实差异。因此,引入性能更优的EIoU_loss作为bounding box的损失函数。EIoU_loss由重叠损失LIOU、中心距离损失Ldis和宽高损失Lasp三部分组成,前两部分保留了CIOU_loss的优势,宽高损失将优化目标设置为预测框与真实框的最小宽高差,能够加快模型的收敛速度和提高模型的精度。EIoU_loss计算公式为LEIOU=LIOU+Ldis+Lasp(12)式(12)中:cw和ch为预测框和真实框的最小外接矩形的宽度和高度。3 结果与分析3.1 实验平台所有实验均在操作系统 Wi

展开阅读全文

基于改进YOLOv5的拥挤行人检测算法

最新文档