面向野外环境下的多模态融合算法.doc

资源描述

《面向野外环境下的多模态融合算法.doc》由会员分享，可在线阅读，更多相关《面向野外环境下的多模态融合算法.doc（4页珍藏版）》请在金锄头文库上搜索。

1、面向野外环境下的多模态融合算法关键词：野外监控网；目标辨认；深度学习；多模态融合；特征提取在国内，通常将部署于野外环境中进行监控和侦察任务的无线传感器网络称为野外监控传感网。野外监控传感网通常由声响、震动、图像、被动红外等传感器组成。采集到的信号，在经过处理后，不但可以检测出该区域内人员、车辆等目标的入侵，还可以获得其方向、速度、队伍规模、武器装备等重要情报，最后通过无线通信设备将这些信息传送到控制中心，即可实现对区域的监控和侦察。野外传感网中的传感器种类多种多样，仅仅依靠单一传感器采集的信息很难到达可信的判决结果，示例震动传感器易受地质条件的影响、声阵列对环境噪声非常敏感、图像传感器无法解决

2、遮挡情况下的目标检测和辨认等等。研究说明，单模态目标辨认系统的一些缺陷可以通过多模态目标辨认系统来弥补。多模态目标辨认系统实际上是通过集成融合多种传感器所提取的特征信息示例震动、声音、图像等完成分类鉴别功能。近年来计算机技术和大规模数据处理技术的迅速开展，神经网络的高热度研究，都给深度学习带来了新的生命力和活力，刺激了深度学习在各个方面研究和应用，多模态机器学习也在深度学习的浪潮下实现了长足的进步和开展13。如今，深度学习已经在RGB摄像头、深度摄像头、声卡等多模态信息融合方面发挥了很大的作用，融合伎俩和方式也多种多样46。在此背景下，本文提出了一种基于深度学习的多模态特征融合算法，根据震动、

3、声音和图像传感器所采集信息的特征，分别采用了不同的卷积神经网络来提取特征，并对特征进行融合。融合后的特征，对野外环境的目标分类鉴别具有更强的鲁棒性。1面向野外环境的多模态融合算法研究本文所设计的系统结构如图1所示。AvgL表示均值化处理，L1L4分别表示512、1024、2048和N个神经元组成的全连接层。N表示系统的分类类别数。该系统总共包括五个局部：特征提取、编码、特征融合、解码和分类。特征提取模块从数据中提取特征，编码器和解码器是对称的网络结构，编码器将特征数据进一步处理，解码器试图复原特征数据，特征融合层对三个模态特征进行整合从而得到场景的全局特征。分类器对融合得到的全局特征进行分类判

4、别。11特征提取模块针对三种模态数据所设计的特征提取单元。对于图片数据，我们使用GoogLeNet7网络来从RGB数据中提取特征，得到的特征长度为1024维。对于麦克风阵列采集的声音数据，先对数据做预处理提取声音数据的梅尔倒谱系数MFCC8。图2是不同风噪条件下履带车的MFCC图谱。本文，将声音数据转化为MFCC频谱图，以MFCC频谱图作为GoogLeNet的输入，提取声音数据的特征。对于磁敏传感器采集的震动信号，本文采用4层的一维卷积来对震动信号进行处理，每层卷积后都有一个Maxpooling来提取最大值，网络命名为VibrationNet。该网络分支的具体参数如表1所示。输入到Vibrat

5、ionNet的震动信号长度为8192，该信号经过网络处理后，可以获取长度为1024维的特征。这三个特征提取模块需要独自训练，对于图像和声音特征提取网络，我们可以直接在ImageNet预训好的GoogLeNet模型根底上进行微调。而震动信号特征提取网络那么需要重新训练。12编解码模块编解码模块是两个对称的结构，编码器对输入的特征进行编码，解码器那么尽可能地恢复输入的特征，并使得两者的error足够小。编码器的输入是3个1024维度fmm1，2，3的特征，解码器的输出为3个1024维的特征gmm1，2，3。编码器是由四层全连接组成，神经元数量分别为1024、512、512和256。13特征融合模块

6、图像、声音和震动信号经编码后所得到的特征长度均为256维。这里的特征融合模块主要是进行均值化操作，模块的输入是三个256维的特征均值化后输出的那么是一个256维度的特征。14分类模块若需要进行的是N分类，图1中的分类模块是由4个全连接层组成。神经元的个数依次为512、1024、1024和N。网络的最后再接一个N维的softmax，输出对应的分类结果。15损失函数该系统的损失函数定义为：其中，Lclass表示分类模块的交叉熵损失函数。fmm1，2，3和gmm1，2，3分别表示三种模态数据对编码器的输入特征和解码器的输出特征。2实验结果分析讨论野外传感网检测所感兴趣的目标一般是人员、履带车、轮式车

7、和卡车四种。本文所用的实验数据是从四个不同的野外环境中采集所得，采集设备主要有摄像头、麦克风阵列和磁敏传感器分别获得图像、声音和震动三种模态数据。总共采集了222731条数据，实验时随机选取每类总数据的80的用来训练模型，剩下的20用来测试模型。四个场地采集的数据分布如表2所示。本文的实验总共分为两个局部，实验1是将四个场景的数据全部用来训练模型并测试，模型的辨认结果如表3。从表3的结果来看，履带车的辨认精度最高表格中的加粗项，人员最低，这主要是因为相比于其他三种目标，履带车较重，运动时产生的声音及震动信号较强，而人员运动时麦克风阵列和磁敏传感器采集的信号都较弱，真实信号容易淹没在噪声中，导致

8、辨认结果较差。但总体来看，该系统的平均辨认率根本都在95以上，满足工程中对野外环境监控的要求。同时，也对实验过程中每条数据的处理时间进行了统计，平均为0543s，满足判定结果实时上报效劳器汇总的需求。实验2是从四个场景中随机挑选三个场景的数据用来训练模型，残余场景的数据用来测试模型，模型总共训练并测试了4轮。实验结果请参照表4。从表4的实验结果来看，场地3作为测试样本时，系统的性能较差，这主要是因为场地3的数据在采集时有很多突发情况，比方出现了很多意外路过的车辆以及采集数据当天的风力较大等，这些都对场地3数据的质量造成了很大的影响，这就导致实验2中场地3独自作为测试样本时，模型性能有些下降。但

9、总的来讲，虽然用来测试的场地没有参与模型的训练，模型的辨认性能同实验1相比下降不是很明显，这说明所搭建的系统具有一定的迁移性及鲁棒性。3结束语本文提出了一种联合多种模态信息，对野外监控网中运动目标进行检测的办法，可以从多种模态信息中同时提取对分类有用的全局信息。实验结果说明，本文所设计的系统对野外环境中的目标检测有一定的应用价值，并且通过不同场景下的实验结果来看，该系统对于训练数据的依赖性较低，有一定的迁移性及鲁棒性。四种场景均参与模型训练的情况下，每种类别的精度根本可以到达95以上，每一条数据的判别时间为0543s，根本上可以满足野外监控对于精度和实时性方面的需要。目前网络的训练还是分段进行的，需要先训练特征提取器，再训练后面的分类器，结构较为复杂。下一步将尝试对模型结构进行改良，设计一种端到端的网络，同时还要进一步降低模型参数，减轻模型移植方面的压力。参考文献1高源多传感器信息融合及其应用研究J产业创新研究，20088：67682董立羽现代生物特征辨认技术开展综述J电脑与信息技术，2008，155：11133黄子超，刘政怡特征融合与SD概率矫正的RGBD显著检测J中国图象图形学报，2008，2110：13921401

展开阅读全文

面向野外环境下的多模态融合算法.doc

最新文档