视觉是人类感知外界的重要手段之一

资源描述

《视觉是人类感知外界的重要手段之一》由会员分享，可在线阅读，更多相关《视觉是人类感知外界的重要手段之一（14页珍藏版）》请在金锄头文库上搜索。

1、第第 1 章章绪论绪论1.1 引言引言视频监控系统作为安全防范体系中的必备环节，以其在安保，交通、国防等领域的广泛应用和不可替代性，已经越来越成为人们关注的焦点；视频图像相对于其他监控报警装置，有着直观具体，内容真实等优势。视频监控以模拟电子技术的发展为契机而出现，随着电子技术数字化、网络化，视频监控系统也快速升级，特别是网络、多媒体的普及，视频监控的智能化已是大势所趋。下面先简要介绍视频监控的历史沿革。上世纪的视频监控系统以模拟监控为主，模拟监控出现在二十世纪七十年代，早期的模拟监控系统利用模拟摄像机采集视频信号，通过同轴电缆传输视频信号，并用闭路电视和磁带式录像机完成显示和

2、记录。模拟监控存在着诸如无法用于大范围监控（受限于同轴电缆）、难以扩展、无法形成联动式的警报体系等缺陷。进入新世纪后，计算机的普及和各类音视频技术的相继出现使得人们开始开发数字监控技术，它利用计算机来处理视频，并通过显示器来实现监控，这大大提升了监控图像质量；但由于仍采用同轴电缆作为传输媒介，在远程监控上依旧显得力不从心，并且还有无法扩建，难于维护的缺陷。2004 年，网络的飞速发展为视频监控技术注入了新的活力，新型视频处理技术的出现使得视频监控步入了数字化、网络化的时代。监控技术的发展为监控系统的智能化创造了条件，大量原有的的监控系统仍停留在人工观察、分析的阶段，当被监控区域出

3、现异常情况时，就需要操作人员对异常做出反应，在大规模监控已较为普及的今天，往往需要一人负责多个监控画面，这不仅平添了不必要的人工成本，而且使因人的疏忽造成严重后果的几率大大提高，这是智能监控系统出现的现实背景。智能视频监控系统是一种新型的集画面分析、入侵检测、报警于一体的全天候实时安全防范系统，在车辆识别和机场、政府等重要设施的安保领域有着巨大的市场潜力。1.2 国内外动态研究国内外动态研究作为一个有着良好前景的新兴科研领域，国外科学工作者已在该领域进行了大量的研究和探索，取得了一定成果。智能视频监控系统是一个多领域科学融合交织的复杂系统，核心技术涉及视频处理、运动检测、模式识别

4、、以及对目标运动行为的分析理解等；因其涉及到人工智能，所以得到科学界的广泛关注。欧美等国家已在这一领域开展了一些大型项目的研究，如美国国防高级研究计划局出资主导，卡内基梅隆大学、麻省理工学院等高校参与研究的视频监视与监控系统 VSAM，目标是开发自动视频理解技术，用于实现未来战争中那些人力监控费用昂贵、具有高度危险性或人力无法到达场所的监控1；欧盟资助研发的 PRISMATICA 系统，融合了多种智能检测装置，主要用于地铁站的安全监控。国内在这一领域起步较晚，目前的视频监控系统侧重于对视频数据的采集处理，分析检测仍由人来完成，无法满足人们对智能化的需求。近年来，国内多家科研机构与

5、企业合作，取得了不错的进展，港大与 Topsky 公司合作研发的 ThinkSmart 系统就是典型代表。1.3 本文主要内容及安排本文主要内容及安排本文从实际出发，以建立一个智能视频监控报警装置为目标，预计实现监控区域入侵检测、目标识别、发送报警短信等目标。主要工作如下：（1）确定设计方案；（2）了解主流视频处理算法并选择合适的目标检测方法；（3）设计异常报警装置；（4）. 第 1 章视频的捕获视频捕获与实时处理是图像处理的关键技术之一。能否准确捕获指定的视频图像，进而实现精确地数据分析与处理，关系到整个系统的成败。视频捕获是指由专用的视频采集卡捕获声频和视频信息，通过数据化和压缩

6、等一系列处理，能够进行保存、回放、传输等各种操作。目前，Linux 系统通常采用 Video for Linux two(Video4Linux2，简称 v4l2)进行视频信息的采集。V4L2 是一种采集图片、视频和音频数据的 API 接口。使用 V4L2 时，可以配合适当的视频采集设备和相应的驱动程序，从而实现图片、视频和音频等的采集。该技术在远程会议、可视电话、视频监控系统和嵌入式多媒体终端等都有着广泛的应用。2.1 v4l2 介绍在 Linux 操作系统中，一切外设都被当做一种特殊的文件“设备文件”，也就是说，用户能够按照文件的方式读写外部设备。V4L2 有如下特点：V4L2 的驱动摄像

7、头设备文件是/dev/v4l/video0。它支持两种采集图像的方式，分别是内存映射方式(mmap)和直接读取方式(read)。V4L2 使用在 include/linux/videodev.h 文件中定义的数据结构来获得最终的图像数据。Linux 2.5.x 版本开始 V4L2 可在内核编译阶段配置，而且默认情况下都有此开发接口。2.2 V4L2 进行视频采集的过程 V4L2 视频采集的大致过程如图-，首先，打开对应的视频设备，然后按照需求设定其属性和采集方式，一切准备工作就绪之后开始处理采集的视频数据，直到用户关闭视频设备。接下来，本文详细描述了 V4L2 的视频采集的过程细节。打开视

8、频设备设定属性设定采集方式处理采集数据关闭视频设备2.2.1 打开视频设备 V4L2 的视频设备可以使用两种方式打开，分别为阻塞方式和非阻塞方式。考虑到保持数据的完整性，本文使用非阻塞方式打开。非阻塞方式可以保证即使摄像头没有捕获到信息，也可以将缓存里的数据返回（如果想要使用非阻塞方式，将打开摄像头设备属性参数中的 O_NONBLOCK 去掉即可）。2.2.2设定属性和采集方式设定属性和采集方式需要经过：获取驱动信息-设置视频捕获格式-分配内存-查询已分配视频缓冲区的信息并将映射到用户空间等一系列过程。设定属性和采集方式部分主要涉及到两个重要的函数，分别是 ioctl 和 mamp

9、。这两个函数的主要使用方法和结构如下：函数名称函数名称参数类型及名称参数类型及名称参数含义参数含义备注备注int _fd设备 IDunsigned long int _request具体的命令标志符ioctlioctl补充参数本文使用到的命令表示符及其含义： VIDIOC_QUERYCAP 查询驱动功能 VIDIOC_S_FMT 设置当前驱动的频捕获格式 VIDIOC_REQBUFS 分配内存 VIDIOC_QUERYBUF 把 VIDIOC_REQBUFS 中分配的数据缓存转换成物理地址void *start映射区的开始地址size_t length映射区的长度int prot期望的内存保

10、护标志 int prot指定映射对象的类型int fd设备 IDmampmampoff_t offset被映射对象内容的起点本文使用以上函数将驱动的有效信息存储到如下表所示的结构体中，结构体名称、实例和含义如下表所示：结构体名称结构体名称结构体含义结构体含义v412_capabilityv412_capability capcap设备驱动信息v412_formatv412_format fmtfmt视频捕获格式v412_requestbuffersv412_requestbuffers reqbufreqbuf请求的视频缓冲区v412_buffersv412_buffers bufbuf查

11、询的视频缓冲区获取驱动信息根据表可知，设置 ioctl 函数_request 参数为 VIDIOC_QUERYCAP 可获得设备驱动的信息。本文将其返回的设备驱动信息存放在 cap 中。将程序下载到 Tiny6410，输出结果如下图所示：从输出的结果可以看出：由于 Tiny6410 使用三星公司的 s3c6410 芯片作为 cpu，视频设备驱动名称为 Samsung FIMC Dris3c-fimc0。除此之外还可以看出总线信息以及设备容量等信息。设置视频捕获格式检测视频设备的驱动信息以后，我们需要设置视频捕获的格式。如上述代码所示，首先声明并初始化结构体实例 fmt，然后调用 i

12、octl 函数，设置命令参数为 VIDIOC_S_FMT 实现对视频捕获格式的设置。另外，如果需要还可以使用 VIDIOC_G_FMT 命令参数去读取视频捕获格式的信息。分配内存该部分的功能是请求 v4l2 驱动分配缓冲区。调用 ioctl 函数为其分配 reqbuf.count 个缓存。注意，这里申请的内存位于内核空间，我们不能直接对其操作，需要进行内存映射。查询已分配视频缓冲区的信息并将映射到用户空间该部分用于查询已分配的内存视频缓冲区并将映射到用户空间。首先，实例化缓冲区，并将所有参数初始化为 0。然后，调用 ioctl 函数查询之前分配的 reqbuf.count 个缓冲区的相

13、关信息。之后，使用 mamp 函数将内核空间缓冲区的地址映射到用户空间，最后投放视频缓冲区到视频缓冲区输入队列中，这样我们就可以访问从摄像头读回来的视频数据。视觉是人类感知外界的重要手段之一，大量的外界信息通过人的视觉进行收集，汇总，因此，正是由于这种重要性，所以，通过电子手段实现人类视觉上的功能，进而可以用电子系统来对客观的世界分析、理解，这是目前电子视频领域的前沿科技，也是计算机视觉的热门项目。主要涉及视频的数据分析，图像的处理，电脑人工智能，各种模式算法的应用，等等，同时，还有着运动采集，光源干扰，噪声影响，物体形态等挑战。同时，随着时代的快速发展，以及人们对视频监控的重视

14、，还有大量实时监控的数据冗杂，人力难以负担，智能化的视频监控成为了研究和发展的重点。第一步做到对运动图象的剖析，是完成智能监控的基础，整个分析进程如图所示：我们不难看到，运动检测是整个视频图像分析的最基层，也是最重要的部分。所谓运动目标检测，就是在 1.1 图中图像序列中，实现运动与静态分离，,找出背景中的干扰因素并将之去除，从而可以获得到一个预期中的运动目标。要实现运动目标的检测可以分为两种情况，一种是背景静态，一种是背景动态。背景静态就是指监控设施不会发生运动，在相对静止的状态下对运动的目标进行采集，针对这种情况，经常采用到的算法有：光流法、帧间差分法、背景差分法，这三种算法各有利弊，我

15、们往往可以通过多种方法相结合来实现目标。背景动态则是指监控设施处在运动状态，与摄录目标实现比较复杂的互动，因此，算法相对比较困难，包括光流估算法、匹配块法、全局运动估计法、图像匹配法。我们本次采用并研究的是基于静态背景下的算法1.光流法真实的世界是一个 3D 层次的结构，在其中，运动的存在可以用运动场来表示。在计算机视频应用中，我们对物体运动的分析有两种主要方法，一个是基于特质的，一个是基于光流的。光流场是运动场的一种 2D 投影，光流则是在灰度图像中，每一个位素点的光流运动的矢量。光流法的核心就是算出运动着的既定目标速度。所以，我们可以根据视觉感知的原理得知，在空间上，所有的客观的物体一般都

16、是相对的连续的运动的，而在这个运动的过程中，通过投影到达目标传感器表面的图像是不断变化的，根据这个，我们可以假设瞬时灰度不变，由此得到了一个关于光流的基本方程。而由于灰度梯度与光流的素的点积与其对时间的变化率相等，因此就必须对其从不同的角度进行约束，这就产生了不同的分析光流的方法：一阶度、区域匹配、高阶度、频率法。2.帧间差分法要想获得运动目标的轮廓，就要对一个完整的图像序列进行处理，对其相邻的两帧进行比对，这种方法就是帧间差分法，它主要利用了背景的位置以及灰度值固定不变的原理，来对运动的目标进行检测。这种方法在监控设施发生位移和运动目标不唯一的情况下可以很乏的发挥作用，其工作原理是监控视频中有运动物体进入时，相邻帧就产生了不同，我们将两帧进行相减，就可以得到帧差图像一个关于亮度差的值，从而用它与我们设定的阈值进行对比，分析运动的特性，确定视频或图像序列中是否有东西进入。这种对每一帧都进行差分，就相当于我们给整个视频或图像序列都在时域上进行高通滤波。在运算中，给定阈值，如果差分后得到的差分值大于我们设置好的阈值，

展开阅读全文

视觉是人类感知外界的重要手段之一

最新文档