基于时空方向分析的行为发现和识别

资源描述

《基于时空方向分析的行为发现和识别》由会员分享，可在线阅读，更多相关《基于时空方向分析的行为发现和识别（22页珍藏版）》请在金锄头文库上搜索。

1、基于时空方向分析的行为发现和识别摘要：这篇文章提供了一个对动作发现和动作识别相关课题统一的框架。动作发现是在视频中对人体动作的时空特征检测和定位。动作识别是将给定的视频按照预定义的类别进行分类的过程。一种在动作发现和动作识别中动态视频的新的紧凑的局部特征描述符被介绍，这种描述基于视觉的时空能量。该描述子有效地直接从原始图像的灰度数据和计算,从而避免了使用基于光流特征遇到的困难。更重要的是，该描述子考虑到了在不计空间外观时两个视频潜在的变化，比如衣服的不同，并且对杂乱具有鲁棒性。一个类似的相关方法可以对一个独立的典型的视频模板在候选视频序列中进行高效详尽的搜索。当前通用的行动发现和行动识别都是

2、可以高效的实现，并且在很多重要的应用中都是起关键作用。基于 GPU 的实时行为发现算法已经实现。在标准数据上，本文所提的算法展现了卓越的效能，在具有挑战性的数据上该算法也具有很好的效率。关键字：行动发现，行动识别，行动描述，人体动作，视觉时空，时空方向，模板匹配，实时实现1. 介绍1.1 动机这篇文章阐述了在视频中检测和定位时空特征，识别时空特征。特别地当前关心的是所介绍的人体动作。这里，“动作” 指一个表演者在一段较短的时间内所实施的一个简单的行为模式（比如说走，挥手等）。与此相反，活动可以认为是由并行，串行或者两者都有的动作组成。当前研究的潜在应用有视频索引和浏览，监控，视频引导接口和跟踪

3、初始化。联合探测和动作定位在这里称为“行为发现” （参考在语音识别中的字定位）。行为发现是在一个含有大量未知动作集的较大的视频中检测并在时空上定位一段可以用小视频表示的动作（比如查询）。在当前的工作中使用一个预定义的动作模板的查询视频来进行行为发现已经取得一定的成果，但使用一组具有正反样本的训练序列还没有完成。相反行为识别将一个视频片断指定为一个由一组预定义行为中的某个特定类型。例如根据公共的皇家理工学院的，佛罗里达大学体育的，还有好莱坞的行为标准将一段查询视频分到六个，十个，或十二个类别中的一个来评价识别的性能。特别的，行为发现和识别被认为是不相交的行为。但是当前的方式将行为发现和识别在同一

4、个框架下处理。在行为发现和行为识别中主要的挑战是一个动作相关的动态行为会因为空间性的不同而导致图像灰度很大的不同，比如衣着的变化。另一个挑战是在自然图像中场景凌乱的情况需要在干扰中区分出相关的行为模式信息。杂乱会在两种类型：(i)复杂的背景，行为在一个复杂的，可能是动态的背景下描述。(ii)前景复杂，行为在干扰叠加下描述，比如动态的光照，伪透明度（比如在网丝墙下行走），时间映频混扰和天气影响（比如下雨或者下雪）。一般认为选择如何描述是解决这些问题的关键：这种仅仅空间上的行为描述允许行为可以独立于表演者的外表而被识别。这种好的时空结构描述可以在背景干扰下将行为信息区分出来。同样，在现实生活中的

5、应用，比如，网络上的视频检索，计算复杂度是进一步的要求。图 1 行为发现方法的概述(a)一个包含感兴趣的孤立行为的模板和搜索视频作为输入；在从数据集KTH 和 MSR 行为数据集得到如图所示的模板和搜索视频用一个盒子包围 (b)时空能量滤波器应用根据三位(x,y,t)时空方向将输入视频分解成分布式的表示(c)以滑动窗口的方式，模板的方向能量分布和对应位置的搜索分布相比较得到(d)中的相似体积。最后，寻找相似体积中的局部最大值。极值的位置对应查询行为的时空位置。为了当前的目的，局部时空定位是描述功能的基础。因为不考虑原始数据，即使在区分大范围的动态图像（比如单一动作，多次叠加的运动和临时的闪烁）

6、，它是相关数据结构占第一位的数据（比如不考虑底层的视觉现象）。相应的，视觉时空可以用三维数据来表示(x,y,t)：在时空中的每一个点的坐标与一个特定的时空坐标系的计算公布相关。在研究中这些不同的分布会做比较。图 1，提供了一个给定行为发现算法的概况对于行为识别，一个未经修剪的视频组成查询视频和一组被标识的视频片断，这些视频片断包含时空上定位好的行为组成数据库。查询视频与数据库中的每一种行为比较，具有最大相似度值的行为标记作为类别被返回（参考【5】【6 】【 7】【8】）。另外，所提供的算法提供时空定位信息，注意定位的相关总是在行为识别的相关工作中一般是被忽略的。一个这类工作的预定义的描述在之

7、前出现过。【9】1.2 相关工作在可视数据中分析人体行为已经做了大量的工作，比如，【11】【12 】。这篇文章的组织方式是按照怎样描述行为来的。一个对描述方法简单的统计如下。以跟踪为基础的方法以跟踪身体部分或者关节或者两者都有，然后按照从动作轨迹中提取的特点将动作分类，比如【13】【 14】【15】【16】。自动计算的一般障碍包括跟踪初始化和鲁棒性。因此，此类工作很大一部分的实现在一定程度上都需要人的参与。其他将行为分类的算法基于从三维时空中的人体轮廓形状中提取的特征。因为这些特征在空间细节上具有很好的鲁棒性【17 】【18 】【19】【20】【21 】【 22】【 23】【24 】【25

8、】【26】【27】。、这种方法依赖图形和背景的在时空域中的分割。这样带来的缺点是需要在不可控的背景下的强健的分割。更进一步，当人体的肢臂位于身体前方（在轮廓里面）时，轮廓不会提供任何信息，这样会产生不确定的信息。近来时空兴趣点【28】【 29】【30】【31】【32】【33】成为一种比较流行的行为识别的方法【1】【34】【35】【36 】【37 】【38】【39】【10 】。兴趣点一般取那些在时空维度中显示变化和能够提供描述变化与空间外观的点。一般地，这些描述子一般和全局的视频描述子相结合（比如词包）。稀疏在这里是比较好的。因为它能够在很大程度上减少计算量。然而兴趣点经常因为阴影或者光照而出

9、现变化【40 】【41 】。物体的封闭边界也是这样的。在高速动态的情况下会因此质疑它在自然图像上的通用性，可以通过背景相关的兴趣点来克服这个问题。此外对于，由连续运动组成的行为因为一些兴趣点不能同样对待而忽略一些重要的信息。为了改善这些问题，许多相关的工作都是以兴趣点为主题的。要么在视频中寻找大量的兴趣点（比如【42】），要么放弃一起使用兴趣点，相反在每一副图片中的兴趣点中计算描述子【43】【44 】【45】【46 】。论文中的许多相关算法都考虑大密度的以图像为基础的模版的计算方法来代表行为（比如，灰度图像，光流，时空梯度和其他对时空定义具有选择性的滤波器。）一般地，这些计算方法都是用一个滑

10、动窗来与感兴趣的视频相匹配。这个框架的主要优点包括避免输入图像预处理的不确定性，比如定位，跟踪和分割。然而这些算法是计算敏感的。更进一步的限制与用来定义模版的图像计算方法的具体细节有关。算法已经避免了原始输入图像的预处理，并且直接将它用作初始化数据。比如【47】。这种方法增加了用于提取行为相关特征的学习算法的负担。或者更多提取的特征（比如光学特性，梯度，等）可以作为匹配的标准。通常，基于光流场的方法，比如【48 】【40 】【49】【2】【50 】【26】【51】，因局部流估计并不一定而使密度流不可靠（比如，封闭轮廓的影响和复杂前景的存在）。使用时空梯度的工作将方法压缩进入梯度结构张量【20】

11、【52 】【53】【8 】。这种方法产生一种通过与模板视频比较大小的紧密的方法来表征可视化的时空。然而这种紧密的方法同样限制了它的描述能力：包含两个或者更多方向的区域就不容易区别，因为它们的维度是一样的。更进一步地，在感兴趣视频中存在的复杂前景会污染维度测量，从而导致匹配错误。最后，基于对时空定义具有选择睡的滤波器的方法，例如【54】【55】【56】【7】因它们不能从相同动作的不同空间表现中提取规律而困扰，比如衣服的不同。许多现存的方法已经关注地不考虑计算复杂度的情况下高的识别率的问题。在现在的论文中，一些最近的工作已经明确地阐述了行为识别的计算效率的问题【53】【37】【23】【25 】【

12、26 】【43】【42 】【10 】。类似的还有目前的工作都集中在基于单一的查询视频的行为识别上，在这些方法中查询视频被封装在一个滑动窗口中并且与有注释的视频数据库中的视频比较【20 】【52 】【 47】【7】【8 】。这些数据驱动的方法，可能会对视频检索任务特别有用的。例如，在一个用户提供一个单一的动作视频片段的情况下，一个适用的自动化的方法必须是在没有额外的正的或负的的例子的前提下能够返回的视频数据库中的最相似的实例，（参见谷歌的图片搜索“服务”【57 】）。在目前的工作中使用的特性来自面向时空的滤波。这些滤波具有鲁棒性的捕捉相对于外观纯粹的空间的动态特性。在以前的光流估计工作

13、中，利用了时空滤波，与本文中使用的不同，时空滤波不考虑空间外观，它倾向于非线性优化方法【58】。更密切相关的是先前的工作，就像本文中描述的，使用了相同的滤波技术，不过有两个显著的差异。首先，这些努力将滤波器应用于非常不同的研究领域，视频分割【59】和动态纹理识别【 60】.其次，在以前的工作中，在所支持的相对大的区域内的滤波器响应聚集起来，从而产生一个分布的测量结果，来表示一个区域的感兴趣度;而在当前的工作中，密集的动作模板中的每一个点与它们的分布相关联，从而得到行为的时空结构.值得注意的是，现在看来，目前的贡献首先是应用，并以某种方式展示有用的时空滤波法来进行行为分析。1.3 贡献鉴于以前

14、的工作，本论文的主要贡献如下。（一）使用一种新型的紧凑型局部导向的能量特征集来进行行动发现和识别。这种表示方法支持良好的视觉时空结构描述，从而获得一个动作大量的，潜在的。（ii）一个相关的计算效率高的相似性度量和搜索方法被提出，这种方法利用的代表性的结构。该方法不需要演员的定位，跟踪，运动估计，前景分割等预处理。（iii）该方法可以适应同样动作的不同的外观，快速的动态，多个动作的视图，杂乱的背景并且对符加的分散的复杂的前景有一定的弹性。而另一些已经处理了杂乱的背景，当前的工作将首先是直接处理杂乱前景的挑战。（iv）记录实时行为发现方法的实现。（v）提出的行为发现和行为识别算法在大范围

15、的测试视频上并在标准数据集上记录最先进的性能。2 技术方法在视觉时空局部 3 D（ x，y，t ）一种模式的取向结构获得其动力学上显著的，有意义的特征。对于行为发现和识别，一个点上的单独的动作，如一个孤立的身体一部分的动作，作为一个特定的时空方向的取向沿被捕获。值得注意的是，更复杂的情况仍然引起定义好的时空取向的分散遮挡和多个运动对应多个取向（例如，四肢交叉或前景杂波侵入）;高的速度和时间闪烁（例如，快速动作的执行过程中遇到的）对应的时间维度正交的取向。此外，局部时空导向能源场的适当定义可以相对于纯粹的空间格局特征具有不变性和支持在一个演员改变空间的外观时的行为分析。根据这些现象，制定了行为

16、发现和识别方法利用时空取向场作为局部特征，组合成时空的范本，保持它们相对的时空位置。在这项工作中，假定相机是静止的，这样做是为了通过建议的时空测量捕获动作的动力学特性，而不是摄像机的运动。经验上已经发现建议特征对于少量的镜头的运动具有一定的鲁棒性，如手持视频摄像机的抖动，但是，他们对于大的相机运动不是固定不变。为了适应大的摄像机运动，相机稳定程序可能会作为一个预处理步骤被引入，例如，【37】。2.1 特征：时空方向所需的时空方向分解是利用广泛使用的 3 维高斯的三阶导数滤波器来实现的。中的单位矢量代表滤波器对称轴的 3 维方向,)(3xG )(3xG 表示时空位置。图像数据通过这些滤波器的响应在一个区间内的,ty 逐点纠正（平方）并整合（求和），从而产生以下的局部聚集的逐点能量测量值23 )()xIE其中表示输入图像，*表示卷积。注意，高斯导数的滤波器是相位敏感)(xI的。通过在支持的区域内进行累加可以改善这种敏感，从而在

展开阅读全文

基于时空方向分析的行为发现和识别

最新文档