itti-A-Model-of-Saliency-Based-Visual-Attention

上传人:206****923 文档编号:88626447 上传时间:2019-05-05 格式:PPT 页数:46 大小:14.83MB
返回 下载 相关 举报
itti-A-Model-of-Saliency-Based-Visual-Attention_第1页
第1页 / 共46页
itti-A-Model-of-Saliency-Based-Visual-Attention_第2页
第2页 / 共46页
itti-A-Model-of-Saliency-Based-Visual-Attention_第3页
第3页 / 共46页
itti-A-Model-of-Saliency-Based-Visual-Attention_第4页
第4页 / 共46页
itti-A-Model-of-Saliency-Based-Visual-Attention_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《itti-A-Model-of-Saliency-Based-Visual-Attention》由会员分享,可在线阅读,更多相关《itti-A-Model-of-Saliency-Based-Visual-Attention(46页珍藏版)》请在金锄头文库上搜索。

1、A Model of Saliency-Based Visual Attention for Rapid Scene Analysis,Laurent Itti Christof Koch, and Ernst Niebur,相关信息,IEEE PAMI, 1998, 20(11):1254-1259 ,short paper 被引用次数1939。 Laurent Itti在California Institute of Technology博士期间的工作。 现就职于iLab实验室,Computer Science Department ,University of Southern Cali

2、fornia。 相关文章: Computational Modelling of Visual Attention,Nature Reviews Neuroscience, 2001,2 ( 3),被引用1098次 A Bayesian model for efficient visual search and recognition. Vision Research, 2010,摘要,提出了一个受灵长类动物早期视觉系统的神经结构和行为所启发的视觉注意系统。 多尺度图像特征结合形成一个拓扑显著性图(saliency map)。 使用动态神经网络按显著性递减顺序选择注意位置。 系统通过一个有效的

3、计算方式快速选择显著性位置,然后进一步详细分析,来解决场景分析这个复杂问题。,1 引言,灵长类动物具有很强的实时处理复杂场景的能力。 视觉信息进行深入的处理之前,对所收集到的感觉信息进行选择,这些选择可能减少场景理解的复杂性。 这个选择过程在一个空间有限的视野区域即所谓的注意焦点( FOA)中完成的,它搜索场景的方式可以是快速、自下而上(BU)、显著驱动和任务独立的方式,也可以是慢速、自上而下(TD)、意志控制和任务相关的方式。 注意模型包括“动态路由”模型,在此模型中,通过皮层视觉继承,从一个小的视野区域中得到的信息可以不断前行。通过皮层连接的动态修正或在TD和BU的控制下对活跃区建立特定的

4、瞬时模式,来选择注意区域。,醒目度图,显著性图,中心围绕,胜者为王,禁止返回,1 引言,本文所使用的模型建立在由Koch和Ullman所提出的生物模型和其他几个模型。它和所谓的特征整合模型相关,解释了人类视觉搜索策略。 视觉输入首先被分为一系列特征地形图。然后在每个图中,不同的空间位置通过竞争获取显著性,只有从周围脱颖而出的位置才能保留。所有的特征图以纯粹的BU方式输入到高级的显著性图,它对整个视觉场景的局部醒目度进行地形编码。 在灵长类动物中,人们相信这种图存在于后顶叶皮层(posterior parietal cortex)中,同时也存在于枕核丘脑(pulvinar nuclei of t

5、halamus)中。模型的显著性图被认为是产生注意转移的内部动力。因此这个模型表示了BU显著性可以引导注意转移,不需要TD。,2 背景知识-视觉通路,在大脑中,视觉处理在两个同时发生且互相作用的通路中进行。腹侧通路(ventral stream,what通路)包括一系列层次区域(V1-IT),处理目标身份;背侧通路(dorsal stream, where通路)处理位置和运动信息。 首选刺激的复杂性随着腹侧通路不断增加:从V1区域的简单方向条,V2区域的弧线,V4区域的简单形状,到最终IT区域的目标选择单元。选择性逐渐增加,使大脑如何识别复杂物体。,2 背景知识-中心围绕模型,2 背景知识-中

6、心围绕模型,2 背景知识-Leaky Integrate and Fire模型,当一个脉冲到达该神经元前的突触后,该脉冲将首先被转化为电流。在LIF 模型中,神经元被看做一个电容器,脉冲在被转化为电流后对该电容器进行充电,使得细胞的膜电压也就是电容器的电压随着充电而增长。 Leaky 意思是细胞的膜电压在没有电流充电时会在R 中消耗掉直到到达静息电位。Fire 意思是一旦细胞的膜电位到达阈值 ,该细胞就会发出一个脉冲,该脉冲会传递给与其轴突相连的突触后神经元,而它的膜电压则会降至比静息电位还要低的一个值。,高斯金字塔 Gabor金字塔 WTA网络 弹出效应(pop-out) BU(Bottom

7、-Up)和TD(Top-Down),2 背景知识-其他,Fig. 3. Feature maps produced by the proposed model using a benchmark image. Saliency with respect to each feature is represented by brightness of grey shade. (a) Input. (b) Color contrast. (c) Eccentricity. (d) Orientation. (e) Symmetry. (f) Size. (g) Master map.,3 方法,采用

8、二进高斯金字塔产生9尺度图,在8个倍频程中范围从1:1(0尺度)到1:256(8尺度)。 通过与视觉接受野类似的线性“中心围绕”操作计算每个特征。中心围绕在模型中通过计算细尺度和粗尺度之间的差来实现的。中心是尺度c=2,3,4中的像素,而周围(surround)是在尺度s=c+d,d=3,4中相关位置的像素。 两个图的跨尺度差(across-scale difference)通过对粗尺度图向细尺度插值后,进行点对点的相减可以得到。,3.1 早期特征的提取,用r,g,b三个颜色通道获取亮度图像I:I=(r+g+b)/3。I用来产生一个高斯金字塔I(sigma),sigma取值从0到8,表示尺度。

9、 r,g,b通道采用I进行归一化以从亮度中解耦色调。产生了四个宽调谐(broadly-tuned)的颜色通道,从这些颜色通道中产生四个高斯金字塔R,G,B,Y。 第一个特征图集:中心细尺度c和周围粗尺度s之间的中心围绕差值产生特征图。模拟灵长类动物的中心围绕机制,所有类型的敏感性是在六个I(c,s)图(六尺度)中同时计算的:,3.1 早期特征的提取,第二组特征图集:模拟皮层中的“颜色双竞争” 系统表示:在接受野中心,神经元被一种颜色激活而禁止另外一种颜色,而在周围区域则是相反的。在主视觉皮层中,红/绿,绿/红,蓝/黄,黄/蓝颜色对都存在这种空间和色彩竞争关系。因此,产生RG(c,s)和BY(c

10、,s)特征图来反映双竞争关系。 从I中采用方向Gabor金字塔得到局部方向信息,采用4角度和6尺度来表示角度和方向。最后得到方向特征图: 总体来说,计算出来了42个特征图:6个亮度图,12个颜色图和24个方向图。(每尺度有1I,2C,3O)。,3.2 显著性图,显著性图的目的是通过显著性的空间分布来表示醒目度(conspicuity-saliency)或显著度:在视野中每个位置用一个定量向量表示,引导注意位置的选择。通过一个动态神经网络模型,特征图的组合可以向显著性图提供BU输入。 对不同的的特征图表示了不可比较的模态的先验信息,有不同的动态范围和提取机制。42个特征图结合时,在一些特征图中表

11、现非常强的显著目标可能被其它更多的特征图的噪声或不显著的目标所掩盖。 在缺少TD监督的情况下,采用一个归一化操作算子N(.),整体提升那些有部分强刺激峰值(醒目位置)的特征图,而整体抑制那些包含大量可比峰值响应。,归一化算子,3.2 显著性图,归一化算子计算方法: 1.将所有图的取值固定为0,M,消除依赖于模态的幅值差异; 2.计算图中最大值M和其他所有局部极值的平均值m; 3.整幅图像乘以(M-m)* (M-m)。 归一化算子模拟了皮层旁侧禁止机制:通过特定的生理连接,邻域中相似的特征互相禁止。,3.2 显著性图,特征图被结合成3个醒目度图,I表示灰度,C表示颜色,O表示方向,位于显著性图的

12、中间尺度-尺度4(sigma=4)。 通过跨尺度相加得到,将每个图压缩到尺度4,然后进行点对点相加。 创建3个独立通道和进行独立的归一化的动机基于这样的假设:相似的特征为了获得显著性而强烈竞争,而不同模态独立地对显著性图做贡献。 3个醒目性图进行归一化后,求和,作为显著性图的最终输入S。,,,,,3.2 显著性图,任何时候,显著性图(SM)的最大值定义了最显著的图像位置,为注意焦点(FOA)定向。 可以直接选择最活跃位置来定义应该被模型所注意的点。但是在这里使用一个神经学中广为接受的实现方式,对SM在尺度4建立一个2维泄露整合-激发神经元层模型(Leaky Integrate and Fire

13、)。 这些神经元模型由单电容组成,该电容使用电漏和电压阈值来整合突触输入的电压。当阈值达到时,产生一个原始尖峰电位,电容电压被置为零。 将尺度4的SM输入到一个广为接受的2维WTA(Winner Take All)神经网络,各单元间的突触相互作用确保只有最活跃位置保留,而其他位置被抑制。,3.2 显著性图,SM中的神经元是独立单元,接受来自S的刺激性输入。最显著位置的SM神经元电位因此增加得更迅速(这些神经元只有整合而没有激发)。每个SM神经元刺激其相应的WTA神经元。所有WTA神经元独立地演变,直到一个首先达到阈值(胜者)并且激发。 这种模型激发了3种同时作用的机制(禁止返回): 1.FOA

14、转移到获胜的神经元位置; 2.激发了WTA的全局禁止机制,对所有WTA神经元禁止或重置; 3.对SM中FOA新位置和一定大小的区域的局部禁止被暂时激活,一方面可以使得下一个显著性变为胜者使得FOA转移,另一方面也可以阻止FOA转移到前一个注意位置。,3.2 显著性图,为了保证向后续的与当前注意位置邻近的空间显著性位置的跳跃模型有一定偏好,在FOA附近的区域,一个小的刺激在SM中瞬时激活。 由于没有使用任何TD注意成分,FOA只是一个圆区,其半径固定为输入图像宽度或高度中较小者的1/6。 时间常数,电导和模拟神经元的激发阈值依据神经物理学的结果进行选择:从一个显著位置到另一个的FOA跳转大约为3

15、0-70ms,对已被注意的位置的禁止时间大约为500-900ms。,3.3 和空间频率范围模型(spatial frequency content model)的比较,Reinagel使用眼球跟踪系统分析人对图像的自由观察过程中眼睛扫描路线的局部空频分布。他们发现在固定位置的平均空间频率范围比随机位置的要明显大。 虽然在意志控制下,眼球的运动轨迹和注意轨迹可以不一样,但是一般认为视觉注意是一个眼球运动的预演机制,对自由观察影响很大。因此,有必要观察此模型能否复制Reinagel的发现。 对一个给定的图像位置,从I,R,G,B ,Y 图像中提取一个1616的图像块进行傅里叶变换。对每一个小块,设

16、立一个阈值计算不重要的fft系数数量。 SFC测度就是在5个相关小块中的不重要系数的平均值。小块的大小和尺度使SFC测度能和我们的模型有相似的频率和分辨率范围,同时在RGB通道中计算SFC测度,和亮度一致。 结果表明:SM对噪声的鲁棒性较好,而SFC则较差。,4. 结论和讨论-主要性能,实验设计:检测了不同人工图像,如几个具有同样形状的目标,但是背景对比度不同。 模型对噪声的鲁棒性很好,特别是如果噪声的特性(如颜色)不直接坏目标的主要特征的时候。 该模型能复制人的处理大量弹出任务能力。当目标以它自己的独特方向,颜色,亮度或尺寸和大量的周围干扰物不同时,不管干扰物的数量如何,目标总是第一个被注意的。 也采用真实图像对该模型进行了检测,从自然的室内场景到艺术绘画。由于没有客观的参考来进行比较,观察者对于最显著位置的意见不统一,很难客观评价此模型。但是大部分注意位置是感兴趣物体,如人脸,旗帜,建筑物或车辆。 使用显著交通标识的自然场景,红苏打罐,车辆应急符号等图像,进行了模型预测和局部SFC测度的比较。,4. 结论和讨论-优点和缺点,本模型能以良好的性能处理复杂自然场景。验

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号