自然背景下的行人检测

资源描述

《自然背景下的行人检测》由会员分享，可在线阅读，更多相关《自然背景下的行人检测（52页珍藏版）》请在金锄头文库上搜索。

1、上海交通大学硕士学位论文自然背景下的行人检测姓名：周千昊申请学位级别：硕士专业：计算机视觉指导教师：戚飞虎 20090101 上海交通大学硕士学位论文 I 自然背景下的行人检测自然背景下的行人检测摘要摘要行人检测是物体检测的重要分支，是近年来计算机视觉领域备受关注的前沿方向和研究热点。它在智能监控系统、驾驶员辅助系统、运动分析、高级人机接口等众多领域拥有广泛的应用前景。当前的主流研究方向是从机器学习出发，从大量的训练样本中自动抽取特征，建立人体模型，把行人检测问题化为一个模式分类的问题。本文以 Viola 提出的 boosted cascade 算法以及 Ko

2、bi Levi, Yair Weiss 提出的边缘方向直方图特征(EOH)为基础，将两者有机地结合起来，应用到行人检测中。我们在多个方面进行了改进：首先，对于原先只适用于较为简单的人脸检测中的 EOH 特征进行改进，弥补了其对于行人的对称性特征的描述能力不足的问题，其次，我们改进了 Adaboost 算法中对于样本权值调整的策略，减少了 overfitting。通过这些改进，经实验证明我们的方法能够接近目前行人检测的领先水平。在误报率为 1/10000 时，我们算法的检测率在一个复杂的行人数据集 Inria 上可以达到 90。对于 640X480 的图片，我们的检测速度可以达到

3、每秒 2 帧。同时，我们的训练时间只需要 8 个小时。关键词：关键词：行人检测，改进的 EOH 特征, 平滑的 boosting 算法, 级联分类器上海交通大学硕士学位论文 II Study on the technology of pedestrian detection based on machine learning Abstract Pedestrian detection is an important branch of object detection. Nowadays, its intensively investigated and becoming a hot

4、 topic in the field of computer vision. It could be widely used in smart surveillance, driver assistant systems, motion analysis, advanced human-machine interfaces and so on. Its potential application is very promising. The state of the art is mainly based on machine learning, which extracts feature

5、s and establish pedestrian model by learning from training samples. We combine Kobi Levi and Yair Weisss edge orientation histogram and original Adaboost algorithm and apply them to pedestrian detection. We improve the algorithm from the following aspects: first, we have changed the calculation form

6、ula of the original eoh to gain more descriptive ability, second, we have changed the policy of updating the weight of the samples of the original Adaboost algorithm in order to reduce overfitting. Experiments show our method is very efficient. When the false positive rate is 1/10000, our detection

7、rate is about 86% on Inria pedestrian dataset. The running speed is about 2 fps with 640X480 images on a 1.8 GHz CPU while our training time is only about 8 hours. 上海交通大学硕士学位论文 III Key words: Pedestrian Detection, Smoothed EOH Feature, Smoothed Boosting, Boosted Cascade 上海交通大学硕士学位论文第 48 页上海交通大学硕士学

8、位论文第 49 页上海交通大学硕士学位论文第 1 页第一章绪论第一章绪论 1.1 研究背景 1.1 研究背景人类正在进入信息时代，计算机将越来越广泛地进入几乎所有领域。让计算机来适应人的习惯和要求以及以人所习惯的方式与人进行信息交换，正是计算机智能化的一个重要条件。而其中计算机视觉（Computer Vision）就是其中一个主要的领域。计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。而行人检测作为计算机视觉一个重要的分支有着

9、如下的典型应用：智能监控现在，在银行、超市、停车场等许多公共场所头都安装了监控摄像头。但目前大部分的监控还是人工进行的，这样一来，一方面由于监控的区域过大或监控时间过久，容易使人产生疲劳，造成一些区域的漏检，另一方面监控视频信息也缺乏结构，例如难以将某位行人的行动轨迹全部组织起来。而行人检测技术的应用，恰恰可以弥补人工的不足，既可减少人力，物力和财力的投入，又能提高监控的准确度，及时对异常情况进行报警，减少不必要的损失。同时，人体检测还可以对交通要道、地铁、及其他公共场所的人流信息进行分析和计算。汽车驾驶辅助系统随着经济的发展，车辆的增多，交通事故越来越成为一个严重的社会问

10、题。如果我们能使车辆更加智能化，把行人检测作为驾驶员的辅助系统，那么就可以自动地检测出在车辆前方的行人，在可能出现事故时提醒驾驶员或紧急刹车。这不但能降低事故，造福人类，同时也蕴含了巨大的商机。事实上，现在已有一些行人的检测系统被应用到了车辆上作为驾驶员辅助系统，但总的来说，其性能还未能够令人满意，需要进行进一步的探索和研究。高级人机接口假如我们希望未来的计算机可以与人自如地交流，这就要求计算机具备很强的感知外部环境的能力，能够独立地提取环境中的重要信息。人体检测技术的发展可以帮助计算机定位人体，再结合对人的动作，手势和面部表情的分析，便能使计算机更好地理解人的意图，实现真

11、正智能化的计算机。在不同的应用条件下，行人检测的研究也有其不同的特点。例如，用于监控的摄像机一般是固定的，这样便可利用帧差提取运动信息，从而达到较高的检测速度和精度; 如果有红外线或者雷达的辅助，那么能利用的信息也就更多，然而其设备的代价也更高，一般适用于智能车辆和军事用途；比较困难的情况则是，只有普通的摄像机，而且摄像机本身也在运动，此时主要能利用的信息一般就限上海交通大学硕士学位论文第 2 页于行人的外观信息，但是这样的算法对设备的要求不高，其应用范围也最广。从更高的层面来看，行人检测属于物体检测的一个独特的分支。说它独特，有三点原因：其一它有巨大的潜在应用价值，在这一

12、点上有些像人脸检测和人脸识别；其二，人体既有良好的柔韧性又具备一定的刚性，可说是集刚性与非刚性于一身。研究行人检测可以帮助我们更好地研究其他物体。其三，人们的穿着千变万化。在颜色上，行人的丰富程度甚至不输于花花草草。因而，研究行人检测其实也是研究如何在外观差异巨大的情况下抓住事物的本质特征。 1.2 研究现状 1.2 研究现状正由于行人检测在如上所述的多个领域广泛的应用，使得学者与研究人员对其的研究热情与兴趣越来越浓厚。而在近年的 CVPR 与 ICCV 等重要会议中，都有大量关于行人检测的文章。表 1.1 中整理了近 10 年来比较有代表性的研究文章。表 1.1 近几年

13、的行人检测算法作者及发表时间正样本数量检测率误报率速度训练集难度 Oren 11997 564 45% fppw = 5 10 未知简单 Gavrila 2.1999 1000 75%- 85% fa = 2/帧 1-5 fps 未知 Mohan 13.2001 889 92% fppw = 5 10 未知中等 Bo Wu 8.2005 1742 92% fa = 0.4/帧 1fps 中等偏高 Dalal 6.2005 2478 82% fppw = 5 10 1fps 难 Sabzmeydani 11. 2007 2478 91% fppw = 5 10 0.1fps 难

14、Bo Wu 30. 2007 2478 85% fppw = 5 10 2-4fps 难 Yadong Mu52 2008 2416 87% fppw = 10-4 5fps 难 Anonymous53 2008 6350 87% fppw = 10-6 未知难 Liyuan Li 54 2008 200 91.2%fa = 2/帧未知中等偏高本文算法 2416 90.2%fppw = 10-4 2fps 难得益于计算机硬件设备性能的不断提高，行人检测正在向着“更快（检测速度）更高（检测率）更强（泛化能力） ”的目标大步迈进。通过表 1.1 不难发现上海交通大学硕士学位论文第

15、3 页这样的发展趋势：训练库的规模不断增大，训练样本从几百个上升到几千个，大量的训练样本使得无论泛化能力还是精度都大大提高；检测精度实用化，从原先的 50%左右到如今的 90%以上，检测率正能逐渐适应于实际应用；检测速度实时化，从几秒钟一帧到一秒钟几帧，这虽然有硬件上的原因，但主要是因为算法效率的不断提高。如今主流的行人检测算法在图像的种类上分为三大类：静态信息、动态信息和特殊感应器信息，如红外雷达等。理论上说，如果计算机的识别能力能够达到人的高度，那么光有静态图像信息就已经足够了。但在目前的研究阶段，在许多应用中动态信息和特殊感应器的信息依然是举足轻重的，举例来说，智能监控

16、系统往往需要运动信息；汽车驾驶辅助往往会利用红外线或激光雷达。但是我们相信，随着人体检测进一步的发展，常规的图像信息就能满足大多数应用的要求，动态信息和特殊感应器的信息将在一些特定应用中起到辅助作用。本文研究重点放在第一类，即研究如何利用常规的静态图像信息进行人体检测。而从研究方法上又可以将其分为两大类：基于特征的、基于多部位模式匹配的。基于特征的方法旨在找到这样一种特征，对于行人有很强的描述能力，而对于光照，姿势，分辨率等因素影响几乎不敏感，同时能够很好的区分行人与背景。而基于多部位的方法，主要是为了解决行人姿势多变的问题，同时能够很好的减少遮挡的影响。多部位的方法只要是将行人分为如头部，躯干，四肢等若干个单独的部位分而治之进行单独的匹配，而由于这些单独的部位可以近似看作为刚体，所以分别建立模式是可行的，同时在某些部位被遮挡时也可以通过先验知识对缺失的部位进行估计，以提高检测精度。在这两大类的基础上，还有基于多视角的方法，主要由于无论特征还是多部位模型对于拍摄到的行人的角度都是非常敏

展开阅读全文

自然背景下的行人检测

最新文档