视频中的人体动作行为识别,硕士论文PPT

资源描述

《视频中的人体动作行为识别,硕士论文PPT》由会员分享，可在线阅读，更多相关《视频中的人体动作行为识别,硕士论文PPT（47页珍藏版）》请在金锄头文库上搜索。

1、视频中的人体动作行为识别研究视频中的人体动作行为识别研究背景介绍1PM-PEMO时空金字塔特征构造2人体动作行为特征学习训练与识别3行为识别软件系统4提纲*2提纲*3背景介绍1PM-PEMO时空金字塔特征构造2人体动作行为特征学习训练与识别3行为识别软件系统4*4视频中的人体动作行为识别研究5*传统方法介绍本文的主要工作及贡献*67特征性质： 1、它能够体现目标全局运动信息； 2、它能够体现运动目标的宏观运动状态； 3、它能够体现目标的运动趋势； 4、它能够体现运动目标的边缘轮廓信息； 5、它能够体现运动目标的运动细节信息； 6、能从视频中提取到的这种特征不能太多。*PM-PEMO时空金字

2、塔特征提纲*8背景介绍1PM-PEMO时空金字塔特征构造2人体动作行为特征学习训练与识别3行为识别软件系统4人体行为识别框架人体行为识别框架*9视频中的人体动作行为识别研究机器学习与模式识别光流光流方法方法均值滤波图像中值滤波图像差分图像梯度边缘边缘梯度梯度双帧差分统计累积量三帧差分像素累积量像素变像素变化与运化与运动梯度动梯度基于梯度的方法基于匹配的方法基于能量的方法基于相位的方法神经动力学方法运动特征提取方法人体动作行为识别运动特征提取*10运动梯度特征光流特征边缘梯度特征像素变化特征原始视频帧像素变化累积图像素变化概率图人体动作行为识别像素变化

3、概率图*11三帧差分像素累积X.2除以最大值12*图3-2 （a）是来自KTH数据库跑步行为视频的一帧，（b）是像素变化比率图（PCRM）（c）是去噪前的像素变化概率图（PCPM），（d）是去噪后的像素变化概率图。（a）（b）（c）（d）人体动作行为识别像素变化概率图13（3-4）图3-3 (a) PCPM图. (b)用Eix对运动目标纵坐标范围估计，(c)用Eiy对运动目标横坐标范围估计，(d)第20帧的估计结果(a) (b) (c) (d) *PCPM图运动目标区域估计14*一共152维PCPM直方图PCPM直方图32维120维（a）（b）边缘梯度特征提取实例演示*15原始视频边

4、缘梯度特征视频区域边缘梯度子特征区域边缘密度子特征区域边缘积子特征区域边缘方向幅值统计比子特征特征数据输入视频运动历史图运动梯度图运动直方图人体行为识别运动梯度特征提取步骤如下：步骤如下：220220维维16光特征提取实例演示*17Thomas Brox高精度光流 Thomas Brox大位移光流Lucas-Kanade稀疏光流 Horn-Schunk稠密光流18*由上述构成的152维基于像素变化概率图（PCPM）的直方图与220维基于运动历史图的运动方向直方图（MOH）平铺构成了372维 PM 全局特征。对一个视频只得到一个PM 全局特征。构造PEMO时空金字塔特征1.1

5、.得到像素变化概率图之后重叠得到像素变化概率图之后重叠50%50%把它分成把它分成 60X8060X80小块小块(block)(block)。 2.2.求出各小块值的总和。求出各小块值的总和。 3.3.对求出的和较大的块构建时空金字塔对求出的和较大的块构建时空金字塔。pHOG、pHOOF0306090120150对时对时域每15帧帧构成一个小立方体，分成5，10，15三级级金字塔*2021*对时域每15帧构成一个小立方体，分成5，10，15三级金字塔对每一级金字塔分别得到372维PM时空卷特征，三级平铺成3723=1116维PM 时空卷分层特征构造PEMO时空金字塔特征时空卷内15帧

6、差分边缘梯度直方图构成1525=375维特征，再对15帧时空卷及其两个子时空卷分别求出15、10、5帧的边缘梯度之和得到75维特征，平铺并用L1范数一起归一化为450维时空卷EOH特征。以同样的方式也构成450光流方向直方图(HOOF)特征。22*对所得的块分成两层空域金字塔，对其另外两个子时空卷也用同样的方法构成空域金字塔，平铺成120维PCRM时空金字塔向量。用同样的方法构成375维 MOH特征向量，最后平铺成495维PM局部时空金字塔特征。对时空卷内每帧差分图像相应空域位置分别求出125维梯度方向直方图空域金字塔(pHOG)特征，一个时空卷加上其两个子时空卷分别得到1875、1

7、250、 625维特征，用同样的方法构造出相同维数的光流方向直方图金字塔（pHOOF）特征。所有时空卷特征平铺就构成了局部PEMO时空金字塔特征。全局PM特征与局部PEMO时空金字塔特征平铺构成了PM-PEMO时空金字塔特征PM-PEMO时空金字塔特征23背景介绍1PM-PEMO时空金字塔特征构造2人体动作行为特征学习训练与识别3行为识别软件系统4提纲*uu1 1. . 提取全局与局部特征提取全局与局部特征 (descriptors /features) (descriptors /features) ( (像素变化直方图、边缘直方图、像素变化直方图、边缘直方图、运动直方图、光流运动直

8、方图、光流) )uu2 2. . 字典字典学习学习 ( (codebook/dictionarycodebook/dictionary) ) ( (在线字典学习在线字典学习) )uu3 3. . 降维降维 ( (稀疏降维稀疏降维SPCASPCA) )uu4. 4. 稀疏编码稀疏编码(LLC(LLC编码编码Locality-constrained Linear CodingLocality-constrained Linear Coding) )uu5. 5. 训练支持向量机超平面分界线训练支持向量机超平面分界线( ( 线性核支持向量机线性核支持向量机LSVMLSVM) )uu6. 6. 距离度

9、量学习距离度量学习( ( 多任务大边界最近邻多任务大边界最近邻MT-LMNNMT-LMNN) )人体动作行为特征学习训练与识别人体动作行为特征学习训练与识别人体动作行为识别人体动作行为识别在线字典学习在线字典学习25对得到的训练样本序列X=x1, . . . , xn （4-1）（4-2）（4-3）26*SPCA特征降维本文采取分开降维方式，也就是把特征分段训练字典D=D1，D2，D3 ，D4，D5，D6，D7对各个子特征根据它们不同的重要程度，分别降维为不同的维数，最后再重新组合成720维PM-PEMO特征。X=DUT27平移不变性局部约束线性编码*28平移不变性局部约束线性编码*29分两

10、层得到5个最大池特征，每个为K1维向量，K1为字典基元个数，也就是字典的大小。一起平铺成5K1维最大池特征，再加上K2维绝对值特征共 5K1+K2维，最后生成200+200+90+90+200+1050+1050=2880维编码特征。一个视频若有F帧，则最终得到F-2-15+1个时空卷特征特征，此后再对一个视频的所有时空卷特征计算全局池特征，每个视频只得到一个全局池特作为最终的视频代表。平移不变性局部约束线性编码*30行为特征分类识别多任务大边界最近邻与支持向量机行为识别方法：*人体动作行为识别支持向量机*31有很多个分类类器（超平面）可以把数据分开H1，H2支持向量 H分类类器（

11、超平面）32打分的机制:1、先用多任务大边界最近邻计算出测试样本特征与带标签的训练样本的k近邻样本特征并依次赋权值（也即打分）如：k，k-1，1，也就是距离越小权值越大； 2、用线性支持向量机对测试样本进行分类对其分类所属类别赋权值如：2*k -1，最后把相同标签的权值相加，得分最高的类别，即为测试样本所被决定类别。多任务大边界最近邻与支持向量机行为识别方法：*33其它识别方法*稀疏描述与稀疏编码行为识别方法潜在狄利克雷分配(LDA)模型识别方法词频-逆向文档频率(TF-IDF)识别方法34实验结果网络数据库及其与KTH混合数据库用LDA模型识别结果 :(a)(b)(c)分两组数据一

12、组训练，另一组测试*FightRunStretchWalkAccuracy (%)Fight15000100Run1180094.74Stretch00190100Walk0103196.97总体识别率：97.67%IVIPC视频数据库识别结果与分析*35训练集（Training set 60）：打架13、跑步15、伸手18、走路14 测试集（Testing set 86）:打架15、跑步19、伸手19、走路33 IVIPC据库36稀疏描述、稀疏编码、局部约束线性编码识别结果比较IVIPC视频数据库识别结果与分析*FightStretchRunWalkBoxHandclapAccuracy (

13、%)Fight1500000100Stretch0190000100Run108110097.59Walk2061120291.80Box0700165493.75Handclap000031684.21总体识别率：94.01%IVIPC与KTH混合视频数据库识别结果与分析*37训练集（Training set 183）打架13、伸手18、跑步40、走路55、击拳32、鼓掌25 测试集（Testing set 434）打架15、伸手19、跑步83、走路122、击拳176、鼓掌19IVIPC数据库与KTH数据库混合38IVIPC与KTH混合视频数据库识别结果与分析(a)(b)(c)图4-7 (a

14、) SVM识别结果，(b) tf-idf+ Cosine Similarity识别结果，(c) 用文 49方法时空兴趣点特征 ( Interest point feature )识别结果*Weizmann与KTH视频数据库识别结果及其与一些方法比较*39留一交叉验证（LOO: Leave-One-Out Cross-Validation ）Weizmann数据库 K=N，总体识别率97.80%40Weizmann与KTH视频数据库识别结果及其与一些方法比较本文方法在KTH数据库识别结果:*41WeizmannWeizmann与与KTHKTH视频数据库识别结果及其与一些方法比较视频数据库识别结果

15、及其与一些方法比较方法WeizmKTH方法WeizmKTH方法WeizmKTH本文97.80%93.84%文2297.80%93.60%文50-91.80%文6-95.33%文23-93.70%文51-95.33%文790%83.33%文25100%92.70%文5296.66%93.17%文8100%91.20%文26100%-文53-94.16%文9-92.31%文2795.66%-文54-89.92%文1098.8%91.70%文2898.92%93.08%文37-95.0%文1682.60%-文44-71.70%文55-94.80%文1897.8%94%文48-94.53%文5698.

16、90%95.10%文21100%92.70%文49-81.17%文59-80.09文6093.75%88.66%文61100%-文7697.50%95.10%文85100%95.77%文86-94.1%文89-93.8%文90-88.30%文91-88.0%文9297.80%93.50%文9497.22%92.51%文97-96.70%文98100%-在KTH与Weizmann数据库上各种方法识别结果比较 :*21345人体动作行为识别识别视频演示1. 1. 我们自拍视频数据库测试结果我们自拍视频数据库测试结果 2.2. WeizmannWeizmann视频数据库测试结果视频数据库测试结果 3.3. KTHKTH视频数据库测试结果视频数据库测试结果 4.

展开阅读全文