视频监控与视频分析-第十四章 深度学习讲解

上传人:我** 文档编号:115771548 上传时间:2019-11-14 格式:PPT 页数:126 大小:18.91MB
返回 下载 相关 举报
视频监控与视频分析-第十四章 深度学习讲解_第1页
第1页 / 共126页
视频监控与视频分析-第十四章 深度学习讲解_第2页
第2页 / 共126页
视频监控与视频分析-第十四章 深度学习讲解_第3页
第3页 / 共126页
视频监控与视频分析-第十四章 深度学习讲解_第4页
第4页 / 共126页
视频监控与视频分析-第十四章 深度学习讲解_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《视频监控与视频分析-第十四章 深度学习讲解》由会员分享,可在线阅读,更多相关《视频监控与视频分析-第十四章 深度学习讲解(126页珍藏版)》请在金锄头文库上搜索。

1、第十四章:深度学习 2015.9于深圳 视频监控与视频分析 目 录 o 概述 o 动机 o 深度学习简介 o 深度学习的训练过程 o 深度学习的具体模型及方法 o 深度学习的性能比较 o 深度学习的应用 o 展望 o 参考文献 o 相关程序软件及链接 概 述 o 深度学习:一种基于无监督特征学习和特征层次 结构的学习方法 o 可能的的名称: n 深度学习 n 特征学习 n 无监督特征学习 动 机 良好的特征表达,对最终算法的准确性起了非常关键的作用; 识别系统主要的计算和测试工作耗时主要集中在特征提取部分; 特征的样式目前一般都是人工设计的,靠人工提取特征。 Low-level sensing

2、 Pre- processing Feature extract. Feature selection Inference: prediction, recognition 传统的模式识别方法: 动 机为什么要自动学习特征 o 实验:LP- Multiple Kernel Learning n Gehler and Nowozin, On Feature Combination for Multiclass Object Classification, ICCV09 o 采用39 个不同的特征 n PHOG, SIFT, V1S+, Region Cov. Etc. o 在普通特征上MKL表现

3、 有限 结论:特征更重要 动 机为什么要自动学习特征 o 机器学习中,获得好的特征是识别成功的关键 o 目前存在大量人工设计的特征,不同研究对象特征不同,特征 具有多样性,如:SIFT, HOG, LBP等 o 手工选取特征费时费力,需要启发式专业知识,很大程度上靠 经验和运气 o 是否能自动地学习特征? 中层特征 中层信号: 动 机为什么要自动学习特征 “Tokens” from Vision by D.Marr: 连续连续平行连连接拐角 物体部件: 他们对于人工而言是十分困难的,那么如何学习呢? 动 机为什么要自动学习特征 o一般而言,特征越多,给出信息就越多,识别准确性会得到提升; o但

4、特征多,计算复杂度增加,探索的空间大,可以用来训练的数据 在每个特征上就会稀疏。 o 结论:不一定特征越多越好!需要有多少个特征,需要 学习确定。 动 机为什么采用层次网络结构 o 人脑视觉机理 1981年的诺贝尔医学奖获得者 David Hubel和 TorstenWiesel发现了视觉系统的信息处理机制 发现了一种被称为“方向选择性细胞的神经元细胞,当 瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个 方向时,这种神经元细胞就会活跃 动 机为什么采用层次网络结构 o 人脑视觉机理 人的视觉系统的信息处理是分级的 高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽 象,越来越能表现语

5、义或者意图 抽象层面越高,存在的可能猜测就越少,就越利于分类 动 机为什么采用层次网络结构 o 视觉的层次性 属性学习,类别作为属性的一种组合映射 Lampert et al. CVPR09 类别标签 属性 图像特征 动 机为什么采用层次网络结构 o 特征表示的粒度 具有结构性(或者语义 )的高层特征对于分类 更有意义 动 机为什么采用层次网络结构 o 初级(浅层)特征表示 高层特征或图像,往往是由一些基本结构(浅层特征)组成的 动 机为什么采用层次网络结构 o 结构性特征表示 动 机为什么采用层次网络结构 o 浅层学习的局限 人工神经网络(BP算法) 虽被称作多层感知机,但实际是种只含有一层

6、隐层 节点的浅层模型 SVM、Boosting、最大熵方法(如LR,Logistic Regression) 带有一层隐层节点(如SVM、Boosting),或没有 隐层节点(如LR)的浅层模型 局限性:有限样本和计算单元情况下对复杂函数的表 示能力有限,针对复杂分类问题其泛化能力受限 。 深度学习 o 2006年,加拿大多伦多大学教授、机器学习领域 的泰斗Geoffrey Hinton在科学上发表论文提 出深度学习主要观点: 1)多隐层的人工神经网络具有优异的特征学习能力 ,学习得到的特征对数据有更本质的刻画,从而 有利于可视化或分类; 2)深度神经网络在训练上的难度,可以通过“逐层 初始化

7、”(layer-wise pre-training)来有效克 服,逐层初始化可通过无监督学习实现的。 深度学习 o 本质:通过构建多隐层的模型和海量训练数据( 可为无标签数据),来学习更有用的特征,从而 最终提升分类或预测的准确性。 “深度模型”是 手段,“特征学习”是目的。 o 与浅层学习区别: 1)强调了模型结构的深度,通常有5-10多层的隐层 节点; 2)明确突出了特征学习的重要性,通过逐层特征变 换,将样本在原空间的特征表示变换到一个新特 征空间,从而使分类或预测更加容易。与人工规 则构造特征的方法相比,利用大数据来学习特征 ,更能够刻画数据的丰富内在信息。 深度学习 o 好处:可通过

8、学习一种深层非线性网络结构,实 现复杂函数逼近,表征输入数据分布式表示。 深度学习 vs. 神经网络 神经网络 : 深度学习: 深度学习 vs. 神经网络 相同点:二者均采用分层结构,系统包括输入层、隐 层(多层)、输出层组成的多层网络,只有相邻层 节点之间有连接,同一层以及跨层节点之间相互无 连接,每一层可以看作是一个logistic 回归模型 。 不同点: 神经网络:采用BP算法调整参数,即采用迭代算法来 训练整个网络。随机设定初值,计算当前网络的输 出,然后根据当前输出和样本真实标签之间的差去 改变前面各层的参数,直到收敛; 深度学习:采用逐层训练机制。采用该机制的原因在 于如果采用BP

9、机制,对于一个deep network(7层 以上),残差传播到最前面的层将变得很小,出现 所谓的gradient diffusion(梯度扩散)。 深度学习 vs. 神经网络 o 神经网络的局限性: 1)比较容易过拟合,参数比较难调整,而且需要不 少技巧; 2)训练速度比较慢,在层次比较少(小于等于3)的 情况下效果并不比其它方法更优; 深度学习训练过程 o 不采用BP算法的原因 (1)反馈调整时,梯度越来越稀疏,从顶层越往下 ,误差校正信号越来越小; (2)收敛易至局部最小,由于是采用随机值初始化 ,当初值是远离最优区域时易导致这一情况; (3)BP算法需要有标签数据来训练,但大部分数据

10、是无标签的; 深度学习训练过程 o 第一步:采用自下而上的无监督学习 1)逐层构建单层神经元。 2)每层采用wake-sleep算法进行调优。每次仅调整 一层,逐层调整。 这个过程可以看作是一个feature learning的过程 ,是和传统神经网络区别最大的部分。 深度学习训练过程 o wake-sleep算法: 1)wake阶段: 认知过程,通过下层的输入特征(Input)和向上的认知( Encoder)权重产生每一层的抽象表示(Code),再通过当前 的生成(Decoder)权重产生一个重建信息(Reconstruction ),计算输入特征和重建信息残差,使用梯度下降修改层间的 下行

11、生成(Decoder)权重。也就是“如果现实跟我想象的不 一样,改变我的生成权重使得我想象的东西变得与现实一样” 。 2)sleep阶段: 生成过程,通过上层概念(Code)和向下的生成(Decoder)权 重,生成下层的状态,再利用认知(Encoder)权重产生一个 抽象景象。利用初始上层概念和新建抽象景象的残差,利用梯 度下降修改层间向上的认知(Encoder)权重。也就是“如果 梦中的景象不是我脑中的相应概念,改变我的认知权重使得这 种景象在我看来就是这个概念”。 深度学习训练过程 Encoder Decode r Input Image Class label e.g. Feature

12、s EncoderDecoder Features Encode r Decoder AutoEncoder: 深度学习训练过程 o 第二步:自顶向下的监督学习 这一步是在第一步学习获得各层参数进的基础 上,在最顶的编码层添加一个分类器(例如罗杰 斯特回归、SVM等),而后通过带标签数据的监督 学习,利用梯度下降法去微调整个网络参数。 深度学习的第一步实质上是一个网络参数初始 化过程。区别于传统神经网络初值随机初始化, 深度学习模型是通过无监督学习输入数据的结构 得到的,因而这个初值更接近全局最优,从而能 够取得更好的效果。 深度学习的具体模型及方法 o 自动编码器( AutoEncoder

13、) o 稀疏自动编码器(Sparse AutoEncoder) o 降噪自动编码器(Denoising AutoEncoders) 深度学习的具体模型及方法 EncoderDecoder Input (Image/ Features) Output Features e.g.Feed-back / generative / top-down path Feed-forward / bottom-up path 自动编码器( AutoEncoder ) 深度学习的具体模型及方法 (Wx)(WTz) (Binary) Input x (Binary) Features z e.g. 自动编码器(

14、AutoEncoder ) Encoder filters W Sigmoid function (.) Decoder filters WT Sigmoid function (.) 深度学习的具体模型及方法 o 稀疏自动编码器(Sparse AutoEncoder) 限制每次得到的表达code尽量稀疏 限制每次得到的表达code尽量稀疏 深度学习的具体模型及方法 o 稀疏自动编码器(Sparse AutoEncoder) FiltersFeaturesSparse Coding Input Patch 深度学习的具体模型及方法 (Wx)Dz Input Patch x Sparse Fea

15、tures z e.g. Encoder filters W Sigmoid function (.) Decoder filters D L1 Sparsit y Training 稀疏自动编码器(Sparse AutoEncoder) 深度学习的具体模型及方法 o稀疏自动编码器(Sparse AutoEncoder) 1)Training阶段:给定一系列的样本图片x1, x 2, ,我 们需要学习得到一组基1, 2, ,也就是字典。 可使用K-SVD方法交替迭代调整a k, k,直至收敛,从 而可以获得一组可以良好表示这一系列x的字典。 深度学习的具体模型及方法 o稀疏自动编码器(Spar

16、se AutoEncoder) 2)Coding阶段:给定一个新的图片x,由上面得到的字典, 利用OMP算法求解一个LASSO问题得到稀疏向量a。这个稀疏 向量就是这个输入向量x的一个稀疏表达。 深度学习的具体模型及方法 o 稀疏自动编码器(Sparse AutoEncoder) 深度学习的具体模型及方法 o 降噪自动编码器(Denoising AutoEncoders) o 在自动编码器的基础上,对训练数据加入噪声,自动编码器 必须学习去去除这种噪声而获得真正的没有被噪声污染过的 输入。因此,这就迫使编码器去学习输入信号的更加鲁棒的 表达,这也是它的泛化能力比一般编码器强的原因。 深度学习的具体模型及方法 o Autoencoder (most Deep Learning methods) n RBMs / DBMs Lee / Salakhutdinov n Denoising autoencoder

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号