行人检测综述报告－金锄头文库

资源描述

《行人检测综述报告》由会员分享，可在线阅读，更多相关《行人检测综述报告（16页珍藏版）》请在金锄头文库上搜索。

1、基于深度神经网络的行人检测综述基于深度神经网络的行人检测综述摘要：摘要：行人检测是汽车自动驾驶的基础技术之一。基于深度神经网络模型的行人检测方法取得的效果已经远超于使用传统特征经行识别得到的效果。仿生物视觉系统的卷积神经网络作为深度学习的重要组成、在图像、语音等领域得到了成功应用。其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究热点。通过增加网络层数所构造的深层神经网络使机器能够获得抽象概念能力，在诸多领域都取得了巨大的成功，又掀起了神经网络研究的一个新高潮。本文回顾了神经网络的发展历程，综述了其当前研究进展以及存在的问题，展望了未来神经网络的发展方向。关键词关键词：行人检

2、测；卷积神经网络；深度学习Survey of Pedestrian detection based on Deep Neural NetworkYin Guangchuan，Zhangshuai，Qi ShuaihuiAbstract：Pedestrian detection is one of the basic technologies of unmanned vehicles. The pedestrian detection method based on the deep neural network model has achieved much more effect than

3、the traditional one. Convolutional neural network which imitates the biological vision system has made great success on image and audio, which is the important component of deep learning. Local receptive field, sharing weights and down sampling are three important characteristics of CNN which lead i

4、t to be the hotspot in the field of intelligent machine visionWith the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields, leading a new and advanced trend in neural network research. Th

5、is paper recalls the development of neural network, summarizes the latest progress and existing problems considering neural network and points out its possible future directions. 国防科技大学课程设计机器视觉- 1 -Keywords: pedestrian detection; convolutional neural network; deep learning1 引言引言行人兼具刚性和柔性物体的特性，外观易受穿

6、着、尺度、遮挡、姿态和视角等影响，使得行人检测成为计算机视觉的研究难点与热点。行人检测技术由于应用的广泛性使其在计算机视觉领域成为一个重要分支，对视频监控、车辆辅助驾驶、智能机器人等多个领域提供了重要的技术支持。近几年来，深度学习在大规模图像分类方面取得的了重大突破，表明深度学习可以从多媒体内容中提取具有很强表达能力的特征。卷积神经网络 ( Convolutional NeuralNetwork，CNN)1提供了一种端到端的学习模型，模型中的参数可以通过传统的梯度下降方法进行训练，经过训练的卷积神经网络能够学习到图像中的特征，并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支，

7、卷积神经网络的特点在于其每一层的特征都由上一层的局部区域通过共享权值的卷积核激励得到。这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达。CNN 把特征提取归入模型学习，把特征学习和分类学习有机结合起来，更有效地实现对图像的识别特别是近两年，卷积神经网络受到了更为广泛地关注CNN 可能是机器学习领域近十年最成功的研究方向，因此本文拟对 CNN 的发展和其在行人检测上的研究成果进行了介绍，并对其预期研究方向进行展望。2 卷积神经网络的研究历史卷积神经网络的研究历史20 世纪 60 年代，Hubel 等2的生物学研究表明，视觉信息从视网膜传递到大脑中是通过多个层次的感

8、受野 ( Receptive Field ) 激发完成的；1980 年，Fukushima3第一次提出了一个基于感受野理论模型 Neocognitron。Neocognitron 是一个自组织的多层神经网络模型，每一层的响应都由上一层的局部感受野激发得到，对于模式的识别不受位置、较小形状变化以及尺度大小的影响。Neocognitron 采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式。国防科技大学课程设计机器视觉- 2 -1998 年，Lecun 等提出的 LeNet- 51采用了基于梯度的反向传播算法对网络进行有监督的训练。经过训练的网络通过交替连接的卷积层和下采样层将原始

9、图像转换成一系列的特征图，最后，通过全连接的神经网络针对图像的特征表达进行分类。卷积层的卷积核完成了感受野的功能，可以将低层的局部区域信息通过卷积核激发到更高的层次。LeNet- 5 在手写字符识别领域的成功应用引起了学术界对于卷积神经网络的关注。同一时期，卷积神经网络在语音识别4、物体检测5、人脸识别6等方面的研究也逐渐开展起来。2006 年，机器学习领域的泰斗 Hinton7指出多层的神经网络结构能够学习到更深刻更本质的特征，并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题，引领了深度学习的发展方向。从此，深度学习受到了各国学者的广泛关注，谷歌、微软、IBM、百度等拥有大数据的

10、高科技公司相继投入大量资源进行深度学习理论研究。2011 年以来，微软研究院和谷歌的语音识别人员采用深度神经网络( deep neural network， DNN) 技术，使语音识别有了突破性进展，识别误差可降低 20% 30%。2012 年， Krizhevsky 等8提出的AlexNet 在大型图像数据库 ImageNet9的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军，使得卷积神经网络成为了学术界的焦点。2014 年的大型视觉辨识挑战赛( ImageNet Large Scale Visual Recognition Challenge，ILSVRC) 中，几乎所有的参

11、赛队伍都采用了卷积神经网络及其变形方法。2015 年国际机器学习大会上来自工业界和学术界的各位专家对深度学习展开激烈讨论，指出深度学习在人类擅长的领域已经取得了令人振奋的成功，未来的探索方向是人类并不擅长的任务、数据集。2015 年国际计算机视觉与模式识别会议上关于 DL 和 CNN 的研究成果较往年有大幅的提升。2015 年 9 月，微软亚洲研究院的“深层残差网络”( deep residual networks ) 在 ILSVRC 中获得图像分类、定位以及检测全部项目的冠军，如分类方面将错误率降低至 494%，比人眼辨识( 错误率 51%) 更精确10 。在大数据时

12、代，各领域争先占领 DL 的技术制高点，希望找出更强大的模型来揭示海量数据所承载的丰富信息，对未知事件更精准地预测。国防科技大学课程设计机器视觉- 3 -3 卷积神经网络结构与改进卷积神经网络结构与改进3.1 卷积神经网络结构卷积神经网络结构Lecun 等1提出的 LeNet-5 模型采用了交替连接的卷积层和下采样层对输入图像进行前向传导，并且最终通过全连接层输出概率分布的结构是当前普遍采用的卷积神经网络结构的原型。卷积神经网络是一种多层的监督学习网络，有输入层、隐含层（包括卷积层和下采样层）和输出层，通过误差反传算法优化网络结构，求解未知参数，其网络结构如图 1 所示。输入卷积层下采样层

13、输出卷积层下采样层图 1 卷积神经网络框架在卷积层，特征图（Feature Map）的每一个神经元与前一层的局部感受野相连，经过卷积操作提取局部特征。A 卷积层中有多个 Feature Map，每个Feature Map 提取一种特征，在提取特征时，同一个 Feature Map 的神经元共享一组权值（即卷积核），不同的 Feature Map 权值不同，从而提取不同的特征，在训练过程中不断地调整权值参数，使特征提取朝着有利于分类的方向进行，卷积操作示意图如图 2 所示，一般卷积的公式如公式 1 所示(1) 其中，l 代表层数，k 代表卷积核，输入层的感受野，b 代表偏置。jM国防科技大学课

14、程设计机器视觉- 4 -k2k3k4k5k6k7k8k9k1k卷积核图 2 卷积操作示意图在下采样层中，输入的 Feature Map 经过池化（Pooling）后其个数不变，大小变为原来的 1/n（假设池化尺寸为 n）。池化操作的主要作用是减小特征图的分辨率，降低特征维数，同时在一定程度上增加网络对位移、缩放、扭曲的鲁棒性。池化分为最大池化和平均池化。下采样层的形式如公式 2 所示：（2）其中 down() 为池化函数，为权重系数。LeNet- 5 虽然在手写字符识别领域取得了成功，但是其存在的缺点也比较明显，包括难以寻找到合适的大型训练集对网络进行训练以适应更为复杂的应用需求；过拟

15、合问题使得 LeNet- 5 的泛化能力较弱；网络的训练开销非常大，硬件性能支持的不足使得网络结构的研究非常困难。以上三大制约卷积神经网络发展的重要因素在近期的研究中取得了突破性的进展是卷积神经网络成为一个新的研究热点的重要原因。并且，近期针对卷积神经网络的深度和结构优化方面的研究进一步提升了网络的数据拟合能力。3 .2 卷积神经网络模型的改进卷积神经网络模型的改进3.2.1 CNN 卷积层的改进卷积层的改进在增加模型深度可以有效增加网络性能的理论基础上，Krizhevsky 等11把 CNN 的卷积层数加至 5 层，构成了深度卷积神经网络( deep convolutionalneural network， DCNN)；zegedy 等组成 GoogLeNet 小组构建了 22 层深度网络12，该网络比 2012 ILSVRC 获胜者的网络参数少了 12 倍，却能更精确的分类和检测，在 2014 年的 ILSVRC 一举夺冠。如何构建更深网络一直是 CNN 的研究热国防科技大学课程设计

展开阅读全文

行人检测综述报告

最新文档