基于某OpenCV与深度学习框架地物体图像识别

资源描述

《基于某OpenCV与深度学习框架地物体图像识别》由会员分享，可在线阅读，更多相关《基于某OpenCV与深度学习框架地物体图像识别（16页珍藏版）》请在金锄头文库上搜索。

1、word基于 OpenCV 与深度学习框架 Caffe 的物体图像识别摘要：本文主要介绍深度神经网络中的卷积神经的相关理论与技术。争辩承受OpenCV 深度学习模块 DNN 与深度学习框架 Caffe 进展物体识别。承受 OpenCV 中的 DNN 模块加载深度学习框架 Caffe 模型文件，对物体图像进展识别。试验结果明确，卷积神经网络在物体的识别方面具有较高的准确率。一概述1.1OpenCV 简介OpenCV 于 1999 年由 Intel 建立，如今由Willow Garage 供给支持。OpenCV 是一个基于 BSD 许可开源发行的跨平台计算机视觉库，可以运行在 Linux、Wind

2、ows 和 Mac OS 操作系统上。它轻量级而且高效由一系列 C 函数和少量 C+ 类构成，同时供给了 Python、Ruby、MATLAB 等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。其最新版本是 3.2，于 2021 年 12 月 23 日公布。OpenCV 致力于真实世界的实时应用，通过优化的 C 代码的编写对其执行速度带来了可观的提升，并且可以通过购置 Intel 的 IPP 高性能多媒体函数库(Integrated Performance Primitives)得到更快的处理速度。在其最新版 3.2版本中，已经添加了深度神经网络模块，并支持深度学习框架Caffe 模

3、型Caffeframework models。深度学习框架 Caffe 简介1.2CaffeConvolutional Architecture for Fast Feature Embedding是一个清楚而高效的深度学习框架，其作者是博士毕业于UC Berkeley 的贾扬清，曾在Google 工作，现任 Facebook 争辩科学家。Caffe 是纯粹的 C+/CUDA 架构，支持命令行、Python 和 MATLAB 接口；可以在 CPU 和 GPU 直接无缝切换。Caffe 的优势3 / 14是上手快：模型与相应优化都是以文本形式而非代码形式给出。 Caffe 给出了模型的定义、最优

4、化设置以与预训练的权重，便利马上上手。速度快：能够运行最棒的模型与海量的数据。 Caffe 与 cuDNN 结合使用，测试 AlexNet 模型，在 K40 上处理每 X 图片只需要 1.17ms。模块化：便利扩展到新的任务和设置上。可以使用 Caffe 供给的各层类型来定义自己的模型。开放性：公开的代码和参考模型用于再现。二人工神经网络理论简介2.1 概述人工神经网络Artificial Neural Network，ANN简称神经网络(NN)，是基于生物学中神经网络的根本原理，在理解和抽象了人脑构造和外界刺激响应机制后，以网络拓扑学问为理论根底，模拟人脑的神经系统对简单信息的处理机制的一种

5、数学模型。该模型以并行分布的处理力量、高容错性、智能化和自学习等力量为特征，将信息的加工和存储结合在一起，以其独特的学问表示方式和智能化的自适应学习力量，引起各学科领域的关注。它实际上是一个有大量简洁元件相互连接而成的简单网络，具有高度的非线性，能够进展简单的规律操作和非线性关系实现的系统。神经网络是一种运算模型，由大量的节点或称神经元之间相互联接构成。每个节点代表一种特定的输出函数，称为激活函数activation function。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重weight，神经网络就是通过这种方式来模拟人类的记忆。网络的输出如此取决于网络的构造、网络

6、的连接方式、权重和激活函数。而网络自身通常都是对自然界某种算法或者函数的靠近，也可能是对一种规律策略的表达。神经网络的构筑理念是受到生物的神经网络运作启发而产生的。人工神经网络如此是把对生物神经网络的生疏与数学统计模型相结合，借助数学统计工具来实现。另一方面在人工智能学的人工感知领域，我们通过数学统计学的方法，使神经网络能够具备类似于人的打算力量和简洁的推断力量，这种方法是对传统规律学演算的进一步延长。word图 2.1 根本神经元模型而深度学习的概念源于人工神经网络的争辩。含多隐层的多层感知器就是一种深度学习构造。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以觉察数据的分布

7、式特征表示。图 2.2 深度学习本根本架构示意图从一个输入中产生一个输出所涉与的计算可以通过一个流向图 (flow graph) 来表示：流向图是一种能够表示计算的图，在这种图中每一个节点表示一个根本的计算以与一个计算的值，计算的结果被应用到这个节点的子节点的值。考虑这样一个计算集合，它可以被允许在每一个节点和可能的图构造中，并定义了一个函数族。输入节点没有父节点，输出节点没有子节点。这种流向图的一个特别属3 / 14word性是深度(depth)：从一个输入到一个输出的最长路径的长度。2.2 神经网络的特点神经网络是由存储在网络内部的大量神经元通过节点连接权组成的一种信息响应网状拓扑构造，

8、它承受了并行分布式的信号处理机制，因而具有较快的处理速度和较强的容错力量。神经网络模型用于模拟人脑神经元的活动过程，其中包括对信息的加工、处理、存储、和搜寻等过程。人工神经网络具有如下根本特点：(1) 高度的并行性：人工神经网络有很多一样的简洁处理单元并联组合而成，虽然每一个神经元的功能简洁，但大量简洁神经元并行处理力量和效果，却格外惊人。人工神经网络和人类的大脑类似，不但构造上是并行的，它的处理挨次也是并行和同时的。在同一层内的处理单元都是同时操作的，即神经网络的计算功能分布在多个处理单元上，而一般计算机通常有一个处理单元，其处理挨次是串行的。人脑神经元之间传递脉冲信号的速度远低于冯诺依曼

9、计算机的工作速度，前者为毫秒量级，后者的时钟频率通常可达 108Hz 或更高的速率。但是，由于人脑是一个大规模并行与串行组合处理系统，因而在很多问题上可以做出快速推断、决策和处理，其速度可以远高于串行构造的冯诺依曼计算机。人工神经网络的根本构造仿照人脑，具有并行处理的特征，可以大大提高工作速度。(2) 高度的非线性全局作用：人工神经网络每个神经元承受大量其他神经元的输入，并通过并行网络产生输出，影响其他神经元，网络之间的这种相互制约和相互影响，实现了从输入状态到输出状态空间的非线性映射，从全局的观点来看，网络整体性能不是网络局部性能的叠加，而表现出某种集体性的行为。非线性关系是自然界的普遍特

10、性。大脑的才智就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态，这种行为在数学上表现为一种非线性人工神经网络。具有阈值的神经元构成的网络具有更好的性能，可以提高容错性和存储容量。5 / 14(3) 联想记忆功能和良好的容错性：人工神经网络通过自身的特有网络构造将处理的数据信息存储在神经元之间的权值中，具有联想记忆功能，从单一的某个权值并看不出其所记忆的信息内容，因而是分布式的存储形式，这就使得网络有很好的容错性，并可以进展特征提取、缺损模式复原、聚类分析等模式信息处理工作，又可以作模式联想、分类、识别工作。它可以从不完善的数据和图形中进展学习并做出打算。由于学问存在于整个系统中，而不

11、只是一个存储单元中，预订比例的结点不参与运算，对整个系统的性能不会产生重大的影响。能够处理那些有噪声或不完全的数据，具有泛化功能和很强的容错力量。一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征，而且可能主要由单元之间的相互作用、相互连接所打算。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。(4) 良好的自适应、自学习功能：人工神经网络通过学习训练获得网络的权值与构造，呈现出很强的自学习力量和对环境的自适应力量。神经网络所具有的自学习过程模拟了人的形象思维方法，这是与传统符号规律完全不同的一种非规律非语言。自适应性依据所供给的

12、数据，通过学习和训练，找出输入和输出之间的内在关系，从而求取问题的解，而不是依据对问题的阅历学问和规如此，因而具有自适应功能，这对于弱化权重确定人为因素是格外有益的。(5) 学问的分布存储：在神经网络中，学问不是存储在特定的存储单元中，而是分布在整个系统中，要存储多个学问就需要很多。在计算机中，只要给定一个地址就可得到一个或一组数据。在神经网络中要获得存储的学问如此承受“联想的方法，这类似人类和动物的联想记忆。人类擅长依据联想正确识别图形，人工神经网络也是这样。神经网络承受分布式存储方式表示学问，通过网络对输入信息的响应将激活信号分布在网络神经元上，通过网络训练和学习使得特征被准确地记忆在

13、网络的连接权值上，当同样的模式再次输入时网络就可以进展快速推断。(6) 非凸性：一个系统的演化方向，在肯定条件下将取决于某个特定的状态word函数。例如能量函数，它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值，故系统具有多个较稳定的平衡态，这将导致系统演化的多样性。正是神经网络所具有的这种学习和适应力量、自组织、非线性和运算高度并行的力量，解决了传统人工智能对于直觉处理方面的缺陷，例如对非构造化信息、语音模式识别等的处理，使之成功应用于神经专家系统、组合优化、智能把握、推测、模式识别等领域。2.3 卷积神经网络卷积神经网络(Convolutional Neural Networ

14、ks，N)就是深度学习构造的一种。它是一种受视觉神经机制的启发而设计的多层感知器。1962 年，Hubel 和 Wiesel 对猫的视觉皮层细胞的进展了相关争辩，并提出了一种称之为感受野(ReceptiveField)的概念。1980 年，Fukushima 在感受野概念的根底上提出了神经认知机(Neocognitron)模型，该模型可以看作是 N 的第一个实现，也是感受野概念首次应用于在人工神经网络领域。图 2.3 输入图像的局部区域是隐蔽神经元的局部感受野N 是一种特别的深层的网络模型，它的特别性表现在两个方面，一方面它的神经元间的连接是非全连接的，另一方面同一层中某些神经元之间的连接的

15、权重6 / 14word是共享的。它的局部连接和权值共享的网络构造与生物神经网络格外类似，降低了网络模型的简单度，削减了权值的数量。N 是一种多层感知器，每层由多个二维平面组成，而每个平面由多个独立神经元组成。这种网络构造对图像各种变化有着很强的适应性，如比例缩放、平移、倾斜或者共他形式的变形等。N 承受有监视的方式训练网络模型，网络的构造主要有稀疏连接和权值共享两个特点，具体描述如下：(1) 特征提取。每个神经元只从上一层单向的承受输入，且承受的是局部区域，因而，整个过程提取的是局部特征。而上下两层的特征位置具有一一对应的特性，即每一层的特征相对位置没有转变。(2) 特征映射。N 中每个隐蔽层都由包含多个特征映射图，每个特征映射图都是一个二维平面图，其中的神经元共享一样的权值集。这种网络构造和构建形式对图像的平移、缩放等形变具有很强的适应性，而且权值共享机制也削减了训练参数的数量。手写字体识别系统 LeNet-5 的 N 构造图。图 2.4 手写字

展开阅读全文