显著性注意力－金锄头文库

资源描述

《显著性注意力》由会员分享，可在线阅读，更多相关《显著性注意力（14页珍藏版）》请在金锄头文库上搜索。

1、基于显著标志的视觉注意力的快速序列分析的模型作品成员：劳仑.利特克里斯托夫.科赫恩施特.倪博AbstractA visual attention system, inspired by the behavior and the neuronal architecture of the early primate visual system, is presented.Multiscale image features are combined into a single topographical saliency map. A dynamical neural network then se

2、lects attended locations in order of decreasing saliency. The system breaks down the complex problem of scene understanding by rapidly selecting, in a computationally efficient manner, conspicuous locations to be analyzed in detail.IndexTermsVisual attention, senceanalysis,featureextraction,targetde

3、tection,visual search.摘要通过对早期灵长类动物的视觉系的行为和神经元结构的启发，一个新的视觉注意力系统被提出。多个图像特征点组合成一个单一的地形特点地图。然后为了增加显著性特征，动力神经网络选择有明显特征的地点。这个系统把通过快速选择的序列分析问题分解分析显著位置的细节问题，而这种分解是基于高效计算的方式。关键字：视觉注意力，序列分析，特征提取，目标检测，视觉搜索1、介绍灵长类拥有可标识能力进而去实时的解释复杂场景，尽管为完成这些任务的神经元硬件条件有一定的局限性。媒介和更快的视觉处理流程在更进一步的处理上似乎选择了可利用的感观信息的子集，这样做可能极大的减

4、少了序列分析的复杂度。这种选择放佛是通过视觉领域的空间局部区域的形式实现的，这就是所谓的“注意力焦点”，这种方法不仅能够快速的、自底向上的、显著特点驱动的和任务独立的方式而且还能较慢的、自顶向下的、意志控制的、和任务依靠的方式浏览序列图像。注意力模型包括“动态路由”模型，在此模型中大脑皮层的视觉层次结构处理的仅仅是视觉领域中的一部分区域的信息。这个注意力区域的选择通过大脑皮层的动态修改或者是活动的特殊暂时模式的建立实现的，它们都是在自顶向下（任务独立）和自底向上（任务依赖）的控制之中的。这里使用的模型建立在科赫和厄尔曼等提出并且基于几个模型的第二个生物合理框架结构上的（图一）。

5、它和用来解释人类视觉收索策略的所谓的 “特征集成理论”相关联的。视觉输入首先分解成一系列的图形特征表。然后在每个表中不同的空间位置为显著特征进行竞争，这样使得在它们环境中的局部突出的位置保留下来。所有的特征表以一个纯粹的自底向上的方式的处理成为一个主要的“显著特征表”，它在整个视觉场景中对局部醒目性进行编码。在灵长类动物中，这样的表被认为放置在顶叶皮层中，还有各种视觉表位于丘脑的核心处。这个模型的显著特征表被赋予了内部动态，而这种内部动态形成了注意力偏移。因此这个模型描绘了完整一列自底向上的显著特征并且没有为了转移注意力要求任何一个自顶向下的引导。这个框架为对少数感兴趣的图像目

6、标进行更加复杂和耗时的目标识别流程的快速选择听过了大量的对比方法。延伸这种方法，来自于更高级皮层区域的反馈被用来权衡不同特征的重要性，以至于这些高权值的特征才能够接受更高的处理水平。2、模型模型的以静态的颜色图像、分辨率通常为 640 480 的形式作为输入的。运用二元高斯金字塔创建了九个空间区域，他们渐进地通过低通滤波器并且对输入图像进行二次采样，形成排列为 1:1（0级）到 1:256（8 级）的 8 的水平和垂直的图像减少因素。每个特征都通过一系列的线性“中心包围”操作，类似于视觉的能容纳的区域（图一）：典型神经元最敏感的会是整个视觉的空间的一个小的区域（中心），然而呈现在

7、与中心点同轴的边界和弱对抗区域（边界）的刺激物抑制了神经元响应。这样的一个对局部空间不连续性十分敏感的结构十分适合检测与周围有明显差异的局部空间，而且这也是视网膜、外侧膝状体核和灵长类大脑视觉皮层的常规计算法则。中心环绕是通过在精细和粗糙级别中的不同点的模型来实现的：这个中心点是一个在等级cW2,3,4之中的像素，并且周围的像素点等级在s = c + 6withe e3,4之中。在两个表之间是不同的横向等级（用&表示小于）是通过插入更好的等级并且点对点的相减得到的。运用包括c和e =s-c在内的几个等级产生真实的多特征抽样，期中包含中心和周围区之间的不同的尺寸比率。Linear

8、filteringFeatureCenter-surround differences and norrnalizalionI11maps士(24 maps)(12 maps) (6 maps)ConsplcuttyInhibition of return图一本模型的一般结构Across-scale combinations and normalizationmaps2.1、早期视觉特征的抽样在输入图像中，用 r、g、b 分别表示红、绿和蓝的颜色通道，并且图像亮度I是通过I=(r+g+b)/3得到的。这里的I用来创建高斯金字塔I& ),其中Q e0.8表示等级。为了从亮度中减弱色度，r、

9、g、b通过I进行归一化。但是，因为色度变化在低光照下是不可感知的(所以因此是不显著的)，归一化仅仅应用在 I 大与整个图像的最大值的 1/10的地方(其他地方产生 0 值r,g,b)。四个广泛调整的颜色通道被创建：红色R=r-(g+b)/2；绿色 G二g-(r+b)/2；蓝色 B=b=(r+g)/2；黄色 Y=(r+g)/2-|r-g|-b (负数清零)。四个高斯金字塔RQ),G(Q),B(Q),Y(q)通过这些颜色通道被创建。“中心”精细等级c和“周围”粗糙等级s的差异产生特征表。第一个特征表集合关系到亮度对比度，这在哺乳动物中通过神经元敏感的检测到亮环境中的黑中心或者黑环境中的亮

10、中心。这里，两种类型的的敏感度在一族六个表中同时被计算(运用一次矫正)，其中，I(c,s), c e2,3,4,s = c + Q,Q e3,4:I (c,s) =1 I(c)0 I(s)I(1)第二族表类似的构造颜色通道，这在视觉皮层中描绘了所谓的 “color-double-opponent”(CDO)系统：在它们能用到的范围内的中心，神经元被一种颜色刺激(例如，红色)并且被另外一种颜色抑制(例如，绿色)，然而在周围确体现出了相反的现象。这样的空间和色彩的对立在人类视觉大脑皮层中有以下组合中：红/绿、绿/红、蓝/黄、黄/蓝。据此，表RG(c,s) 在这个模型同时计算出来红/绿、绿

11、/红两个对立组(2),同理表BY(c,s)表示蓝/黄、黄/蓝两个对立组合(3)：RG(c,s) =l(R(c) - G(c)0(G(s) - R(s) I(2)BY(c,s) =l(B(c) - Y (c)0(Y(s) - B(s)l(3)局部方向信息是通过利用方向加布金字塔O(Q,0),其中Q e0.8表示等级，9 e Oo,45o,9Oo,135o表示涉及到的方向。(余弦栅格和2D高斯表面的产物加布滤波粗略估计可接收的区域的方向选择视觉皮层的敏感轮廓)。方向特征表O(c,s,9 )编码中心和周围的方向等级对比度：O(c,s, 9) =IO(c,9 )0 O(s,9 )1(4)总之，42

12、特征表用来计算：六个用于亮度，12 个用于颜色，24 个用于方向。2.2、显著特征表显著特征表用来在视场的每个地方对显著特征进行描绘，方式是通过分等级的量，同时也用于引导注意力基于空间显著性分布位置的选择。特征表的组合为显著特征表提供了自低向上的输入，作为动态神经网络的建模。组合不同的特征表的一个难题是这些特征表通过不同的动态排列和抽样机制来表达优先而不是可比较的形式。同时，因为所有的 42 张特征表连接，显著目标是在大量的表中都会有所呈现，仅仅出现在几个表中具有显著特征的目标可能会被标记成噪声或者较弱显著特征的物体。鉴于缺乏自顶向下的监督，我们提出一个表的归一化操作N(.)，他能全

13、局的促进具有较少的很强的活动峰值的表，相反也能抑制那些包含许多峰值响应的表(图二)：Orientation mapyIntensity mapStimulus图二归一化操作N(.)N (.)操作包括:1) 、为了估计形式独立的振幅差异，归一化表中的值使其成为修正的等级 0.M;2) 、找到表中全局最大值m的位置和计算所有其他全局最大值的平均值m3) 、全局用(M- AB)2乘以表仅仅局部的活动的最大值比考虑进来，以至于N(.)与和表中“活动点”相关联的响应比较并且忽略均匀区域。把整个表中的最大值和全部的活动的平均值，得出对活跃的位置的和平均值有多大的差异。当这个差异值很大时，这个最活跃的

14、位置是显著的，并且这个表示促进作用的。当这个差异是比较小的，这个表没有含有唯一性质的信息，并且是抑制的。在这个设计N(.)操作背后的生物运动是它简约的取代皮质侧部的抑制机理，这个机理中相邻的特征通过细节和组织学上定义的连接来抑制其他区域。特征表联合成为三个“显著特征表”，在显著特征表的等级(b =4 )时，I表示亮度(5), C表示颜色(6), O表示方向(7)。他们通过横向等级相加获得的，它们涵盖了每个表的等级下降到 4 级并且点对点相加：I = 帘 N(I(c,s)(5)c2 s=c+3C c N(RG(c,s) + N(BY(c,s)(6)c2 s=c+3关于方向，四个起媒介作用

15、的表利用所给的0组合这六个特征表首先被创建，并且单独的与方向显著性表相组合联合：O 工N( c N(O(c,s, 0 )(7)c = 2 s =c +30日00,450,900,1350三个分开的通道的创建以及I、 C、 O和他们的个体归一化的动机是类似特征为显著性而激烈的竞争，然而不同的形式独立的贡献给显著特征表。这三个显著特征表归一化并总结作为显著特征表的输入 S：1S = (N( I) + N(C) + N(O)(8)在任何所给的时间，显著特征表(SM)的最大值定义了最显著的图像位置, 该位置注意力的焦点具有指向作用。我们现在能够简单地把最活跃的位置作为模型下一次出现的点。但是，在神经元的实现过程中，我们在第四级把 SM 建模成 2D 层次结构的集成和解散的神经元。这些模型神经元包含了一个单独的容器，该容器集成了通过突触输入传输电荷，也包含了一个渗漏的电导率和电压阈值。当达到阈值时候，一个典型的长钉形成，并且电容电荷清零。 SM还会为生物学上似乎可信的2D “胜者生存”（WTA）神经网络在4级提供原料，这里突触在各个单元中相互作用确保仅仅这个最活跃的位置持续下来而其他位置被抑制。图三利用一副自然图像作为此操作的例子。平行特征抽样产生三个显著特征

展开阅读全文

显著性注意力

最新文档