基于麦克风阵列声源定位的发展历程及关键技术的论文

资源描述

《基于麦克风阵列声源定位的发展历程及关键技术的论文》由会员分享，可在线阅读，更多相关《基于麦克风阵列声源定位的发展历程及关键技术的论文（7页珍藏版）》请在金锄头文库上搜索。

1、基于麦克风阵列声源定位的发展历程及关键技术的论文基于麦克风阵列声源定位的发展历程及关键技术一、发展历程早在20世纪七八十年代，就已经开始将麦克风阵列应用于语音信号处理的研究中，进入90年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点1。1985年flanagan将麦克风阵列引入到大型会议的语音增强中，并开发出很多实际产品。1987年silverman将麦克风阵列引入到语音识别系统，1992年又将阵列信号处理用于移动环境下的语音获取，后来将其应用于说话人识别。1995年flanagan在混响环境下用阵列信号处理对声音进行捕获。1996年silverman和brandstein开

2、始将其应用于声源定位中，用于确定和实时跟踪说话人的位置2。目前麦克风阵列系统已有许多应用，其中在民用上包括视频会议、语音识别、车载系统环境、大型场所的会议记录系统以及助听装置等；军用上包括声纳系统对水下潜艇的跟踪及无源定位直升机和其他发声设备上。在国外，很多著名的公司和研究机构，如ibm，bell等，正致力于麦克风阵列的研究和产品，而且已经有了一些初期产品进入市场3。这些产品已经应用到社会生活的各个场合并体现出了极大的优越性。遗憾的是，在国内，到目前为止还没有自主产权的麦克风阵列产品。因此，研究我国自主的基于麦克风阵列的语音处理算法和技术具有重要的意义。我国一些企业、研究所和高校做了大量的相关

3、工作，但是目前对声源定位的研究才算刚刚起步。二、声源定位关键技术基于麦克风阵列的声源定位是指用麦克风拾取声音信号，通过对麦克风阵列的各路输出信号进行分析和处理，得到一个或者多个声源的位置信息，其使用的关键技术有以下几个方面。模型的建立麦克风阵列的阵元按一定的方式布置在空间不同的位置上组成阵列，阵列能够接收空间传播信号，经过适当的信号处理提取所需的信号源和信号属性等信息。阵列按阵元在空间分布形式的不同，可以分为任意离散阵、直线阵、平面阵、圆弧阵和均匀圆阵。不同的阵列模型有各自的优缺点，可以用来处理不同的实际情况。均匀直线阵由于结构简单，并且同时间序列的均匀采样完全对应，可以采用绝大多数基于时间

4、序列的算法，因此受到很大的重视，应用也十分广泛。然而均匀直线阵列也有很多局限性，不适合多波束的形成，不能直接用于180范围内的定位，往往是利用多个阵列组合定位，但增加了系统复杂度和实现成本，而且在麦克风阵列的算法处理中也需要进行切换。平面阵虽然可以在整个平面对目标进行测向，但对于低空甚至是超低空飞行的目标来说，由于在z轴方向没有基元，测向精度受到限制。均匀圆阵是阵元均匀分布在一个圆环上的圆形阵列，方向增益基本一致，可以提供360的方位信息，但其对应一个二维空间，在时域无法找到对应的采样定理，会给算法实现带来麻烦，并且由于其圆对称性，均匀圆形阵列对相干声源的解算能力比较弱。但因其不需扇区切换，处

5、理较为容易。三维阵列结构较复杂，可以选择的算法不是十分丰富，实现成本较高，但是对整个三维空间定位性能好，适用于需要对整个三维空间定位的系统。在利用麦克风阵列进行声源定位时，必须已知各个麦克风阵元之间的相对位置关系。不同的阵型结构对算法精度的影响也非常大，因此需针对不同的应用环境选择与之相对应的阵列结构。特别是对多个声源目标进行定位时，过小的阵列口径会极大地影响阵列的应用范围。因此，要根据不同的应用需求选取不同的阵列模型。算法的选取麦克风阵列接收的声音信号本身就是复杂的信号，因此声源定位算法必须能够适应信号的各种特性。不同的声源信号，采取的定位算法也可能不同：例如，在对说话人进行定位时，由于拾取

6、到的语音信号没有经过调制，也没有载波，阵列之间的时延和相位差与信号源的频率关系密切，此时麦克风阵列处理的信号应该看做是一个宽带信号，而传统的定位算法是对窄带而言的。下面就两种经典的算法进行比较。music算法的基本思想是将任意阵列输出的协方差矩阵进行特征分解，得到相互正交的信号子空间和噪声子空间，然后利用两者的正交性进行doa估算。music算法对波达方向的估计性能很好，可以高分辨地准确表现各信号的波达方向，如果参与运算的数据长度足够长或信噪比足够高，且信号模型准确的话，music算法可以得到任意精度的波达方向估计值。但是music算法是以信号子空间和噪声子空间能够准确得到为前提，如果信噪比低

7、或样本数不够，music算法的分辨率会大幅下降。基于时延估计（tdoa）的声源定位法在运算量上优于其他方法，实时性好，可以在实际中低成本实现，但也有不足之处：其一是估计时延和定位分成两阶段来完成，因此在定位阶段用的参数已经是对过去时间的估计，这在某种意义上只是对声源位置的次最优估计；其二是时延定位的方法比较适合于单声源的定位，而对多声源的定位效果就不好；其三在房间有较强混响和噪声的情况下，往往很难获得精确的时延，从而导致第二步的定位产生很大的误差；其四是由于阵列结构和系统采样率等条件的限制，其定位精度远远不能与超分辨类算法相比。任何一种算法都不可能适用于所有情况，我们在不断完善算法，优化其性能

8、的同时，应根据不同的应用环境来选择最佳算法，从而达到最佳效果。三、麦克风阵列处理的难点采用多个麦克风构成一个麦克风阵列，在时域和频域的基础上增加一个空间域，对接收到的来自空间不同方向的信号进行空时处理，这就是阵列麦克风信号处理的核心思想。阵列信号处理理论的完善和发展，促进了基于阵列麦克风的信号处理理论的发展。很多用于阵列信号处理的新算法、新技术和新体系，都可以用于阵列麦克风。可以说，阵列信号处理理论的发展为阵列麦克风的研究带来了新的契机4。基于麦克风阵列的语音信号处理是阵列信号处理的一种，但它又不同于传统的阵列信号处理，其主要技术难点如下：麦克风阵列模型的建立麦克风主要用于处理语音信号，同时阵

9、列麦克风的拾音范围都有限，因此，声源大都位于麦克风阵列近场范围内。这使得传统阵列处理，如雷达、声纳等，所用的平面波前远场模型不再适用，必须使用更为精确的球面波前模型5。球面波前模型必须考虑由于传播路径不同所带来的幅度衰减的不同，即除了信号的到达方向外，还需要考虑声源与阵列之间的距离。所以，进行麦克风阵列研究，必须建立适用于麦克风阵列的近场模型。阵列宽带信号的处理传统的阵列处理的信号一般是窄带信号。阵元之间接收到的信号的时延和相位差主要由载波确定。在麦克风阵列处理中，信号没有经过调制，也没有载波由于语音信号的最高频率和最低频率之比很大，这导致相同的时间延迟却有不同的相位差，阵元之间接收到的信号的

10、时延和相位差由信号源的特性来决定。麦克风接收到的语音信号频率一般在3003000hz之间，阵列之间的时延和相位差与信号源的频率关系密切。因此，麦克风阵列处理的信号可以看成是一个宽带信号，这使得阵列处理更加困难。非平稳信号的处理传统的阵列处理的接收信号一般为平稳信号，而麦克风阵列中的接收信号为非平稳的语音信号。语音信号可以看成是在20ms 40ms的时间内是近似平稳的，即语音信号具有短时平稳性。结合上面的宽带情况，麦克风阵列处理一般先把接收信号经过一个短时傅立叶变换，求出其短时谱，然后在频域进行处理。每一频率对应一个相位差。麦克风阵列的信号处理是将宽带信号在频域上分成多个子带，对每一个子带应用传

11、统的窄带处理，从而得到接收信号的空间谱。混响的影响传统的阵列信号处理中，噪声和信源通常是不相干的而麦克风阵列多位于室内等较封闭的环境中，除了环境噪声和其他声源的影响外，声源本身在室内的混响也会对准确定位造成影响。四、结束语麦克风阵列信号处理是数字信号处理的一个新领域，具备许多传统阵列信号处理无法比拟的优势，是目前国内外的研究热点。但其在低信噪比或强混响的环境下，很多算法的性能都不是很理想，如tdoa，时延的估计精度会受到采样频率的限制。尽管许多方法试图通过插值来提高估计精度，但是这样的插值只提供了一种平滑的方法，并没有提高时间分辨率。所以期待能有一种更加精确的时延估计方法，使得tdoa估计不受采样频率的限制。对于实际的定位系统而言，稳健的时延估计将为下一步精确的定位奠定基础。庞大的运算量也限制了许多算法在实时定位系统中的应用，如music算法，如何提高在低信噪比环境下的性能与定位系统的抗噪声能力，在复杂度与性能之间取得折衷，将是下一步的研究工作。相信随着研究的不断深入，麦克风阵列信号处理也必定会具备越来越广阔的应用前景。

展开阅读全文