基于互谱聚类麦克风阵列多源定位技术的研究

资源描述

《基于互谱聚类麦克风阵列多源定位技术的研究》由会员分享，可在线阅读，更多相关《基于互谱聚类麦克风阵列多源定位技术的研究（31页珍藏版）》请在金锄头文库上搜索。

1、南京理工大学毕业设计说明书(论文)作者:学号：学院(系):电子信息工程与光电技术学院专业:电子信息工程题目:基于互谱聚类的麦克风阵列多源定位技术研究副教授许志勇指导者： (姓名) (专业技术职务)评阅者： (姓名) (专业技术职务)2013 年 5 月毕业设计说明书（论文）中文摘要随着声源处理越来越被重视，对声源的精确定位已成为众多学者的研究对象，并广泛应用于军事、科研、生活、工业等领域。本文主要研究的是在多源的情况下利用双麦克风阵列进行目标声源角度定位的方法，采用的是基于互功率谱相位时延差的测角方法，将时域中不易分离的声源信号转化为时频域中易于分离的信号。该方法先对声

2、源信号取傅里叶变换，得到各声源信号的互功率谱，再利用互功率谱的相角信息得到时延值，由时延值大小将采样点分类。分类后将各类中采样点的互谱幅值聚类加权得到功率峰，根据功率峰便可分离信号源。最后利用一维到达时延差进行反正弦变换即可获得语音源的角度信息。关键词麦克风阵列多源定位互谱加权时延毕业设计说明书（论文）外文摘要Title Multisource localization technology research based on the microphone array via cross-spectral clustering AbstractWith the sound source

3、 processing more and more attention, the precise positioning of the sound source has become the object of study of many scholars, and is widely used in military, scientific research, life, industry and other fields. This paper studies the use of dual-microphone array for target sound source angle po

4、sitioning method used is based on cross-power spectrum phase delay difference angle measurement method, easily separated in the time domain signal into time-frequency sound source domain easy to separate signals. This method is first to take the Fourier transform of the source signal, the sound sour

5、ce signals to obtain the cross power spectrum, and then cross-power spectrum using the phase angle information is delay value, the delay value of the sampling point size classification. Classification of sampling points will be all kinds of cross-spectral amplitude weighted clustering get power peak

6、, the peak can be separated according to the power source. Finally, one-dimensional differential delay arrival arcsine transformation can be obtained for speech source angle information.Keywords Microphone array Multisource localization Cross spectrum weighted Delay目录1 引言11.1 研究背景和意义11.2 国内外研究的概况及发

7、展趋势21.3 本文的主要内容及构成32 麦克风阵列基本测向原理32.1 基于到达时间差的测向原理32.2 基于空间谱估计（DOA）的定位原理53 声音信号的互谱聚类算法63.1 常用的时延估计法思想63.1.1 广义互相关法63.1.2 最小均方自适应滤波法73.1.3 互谱加权时延估计思想73.2 互谱聚类麦克风阵列的测向算法84 实验仿真及结果分析104.1 实测数据分析124.2 仿真操作说明194.3误差来源分析195 实验遇到的问题及解决方法205.1 声音采集205.2 样本制作205.3 matlab仿真216 体会与收获22结论23致谢24参考文献251 引言1.1

8、研究背景和意义通信的发展日新月异，随着信息的发送接收形式及效率的优化，对语音信号的有效处理及定位问题也成为人们研究的热点问题之一。当今社会，声音以各种形式在丰富着人们的生活，带给人们愉快的享受。如车载电话中定位说话人的语音的方向进而进行语音增强；视频会议1中定位说话人，完成波束自动控制自动控制摄像头；工业降低噪声2 创造和谐温馨的工作环境和居民生活环境，机器人听觉3领域对情感机器人的改进等。而这些都是以声源定位为前提实现的，可见有效的声源定位对当今快速发展的通信行业有着重大的研究意义。声源定位不仅应用于可知声源，对于不可知声源同样发挥着不可小觑的作用。在视觉不可察觉的角度范围中，如单方向视角

9、看不到的或是被一些障碍物遮掩了的声源，通过声源定位技术我们仍可以实现其定位从而分辨或者寻找目标。声源定位突破了可见的限制，有着衍射与透射的特性，因而在恶劣的环境条件下，它优于依靠电磁传播与可见光线目标探测的方法，仍可以无干扰的进行声源探测。此外，声源定位良好的隐蔽性也使其倍受青睐。如雷达探测需要先发射一个信号，通过目标的反射回波来确定目标的位置信息。声源探测则可以不需要发出检测信号，直接利用接收到的声源发出的声音信号来进行识别与检测，大大降低了被发现的概率，声纳探测系统就是一个很好的应用例子。另外，声源定位的设备要求往往比激光、电磁波定位技术所需的设备成本要求低，有着较高的生活实用推广价值。要

10、得到有效的声源分离，传统的单麦克风传感器有着致命的缺点，当所需采集的语音信号存在来自四面八方的噪声，或者是存在多源的情况时，信源信号和噪声的信号往往在时间和频谱上出现交叠，很难有效的分离目标信号，使得声源探测举步维艰。麦克风阵列4-9系统则可以有效分离多个语音源且在一定程度上防止了杂乱无章的噪声及混响对语音定位研究的影响。其最基本的原理是基于一组传感器对于同一信号输出的差别来进行测向，是指一组空间摆放位置不同的麦克风元，采集到混合声音信号后，对各个麦克风元的输出进行分析处理，最终得出信源方位的装置。由于阵列系统的优势所在，阵列被应用到多个领域，如雷达的相控阵阵列，狙击手定位系统、声纳探测阵列系

11、统、医学检验、地震的检测等。阵列测量系统还拥有着波束测量活动性高、空间分辨率高的优点，使得阵列系统在稍微复杂的场合已经代替了传统的测量传感器并逐渐成为主流技术。在阵列的应用中，利用谱聚类10-16的声源定位方法可以克服了声音信号在时域上的重叠及频谱上的交叠，将单纯的时域声音研究转化为时频域的研究，由于语音信号的时频稀疏性及频率上的错频正交性，因而在时频域中可以有效分离声源信号。基于这些技术的发展和人们对通信的需求，麦克风阵列的基于互谱聚类的声音定位的研究显得尤为重要且有着影响现代通信产业链的意义。良好的声源定位应用于国防安全，科技开发，医疗保障等领域中，显现着长远的经济效益和良好的社会效益。1

12、.2 国内外研究的概况及发展趋势传统的声源方向估计大体上可分为三类：基于可控波束形成器的算法、基于高分辨率谱估计的算法、基于声音到达时间差(Time Difference of Arrival，TDOA)的算法。到达时延差（TDOA）估计，是基于一维平面利用不同声源的角度不同导致到达麦克风时间不同来估计声源方向的。但是对于空间声源及有噪声和干扰存在的情况下，该方法估计并不能很好的分离声源且存在估计模糊，取而代之的是传统的波束形成方法。传统的波束形成方法可以实现增强期望信号，削弱干扰及噪声信号的功能，它将麦克风阵列的各个传感器的输出加权,最终得到能量加权值进行空间波束法估计。这种波束形成方法虽然

13、操作简单，易于实现，但是为了达到良好的分离性能，就需要有大量的麦克风阵元，而且会受到瑞利限的限制。如同雷达的扫描波束一样，当两个信源同时位于麦克风阵列的波束宽度之内时，便不能区分出两个声源信号，因此也不是较佳方案。基于高分辨率谱估计的算法，是求各路声音信号相关矩阵的空间谱，利用其中的空间信息来估计声源的位置。为了能更好的得到目标信号的角度信息，基于加权的分析也随之兴起，如1976年，Knapp和Cater就共同发表了一篇 “广义相关法时延估计”(The Generalized Correlation Method for Estimation of Time Delay)的著名论文，其在广义相

14、关时延估计的理论基础上集合了多种基于相关的加权时延估计方法。在低的混响条件下，SNR加权的归一化互相关(GCC)法和ML-类型加权法广为应用，初步克服了噪声和混响对语音分析的影响。到1996年，Silverman和Brandstein开始将阵列信号处理技术应用于声源定位中，用于测量说话人的位置并对其进行实时跟踪17，18。而随着语音处理领域技术的提高及科技必须提高的要求，摆脱频率的束缚，有效估计信源方位提出了必须改进的要求，互谱功率相位法（CSP）可以减少对频率的依赖，依据互相关函数的峰值的明显化来分离各个源。但随着低信噪比中信源方位的研究日渐提上日程，我们已不能满足于互谱功率相位法，因此提出

15、了一种改进方法，基于互功率谱相位和信源频率的时延估计方法，解决了噪声和混响对信源估计影响严重的难题。综合看，对声源定位的研究主要在国外的发展较为迅速，国内的发展相对迟缓了些。从发展方向来看，目前的声源定位多用于军事领域，如战场目标音的识别，声探测的预警系统，飞机探测系统等。因此声音定位的研究有着重大及深远的意义。1.3 本文的主要内容及构成本文主要目的是在多源的情况下，用双麦克风实现目标声源的角度定位。主要工作内容是利用麦克风阵列和相关采集软件采集的声源样本，通过互谱聚类相位时延算法将声源样本由时域研究转化为时频域的研究，分离出声源并计算得到声源的角度信息。最后利用cool edit软件及matlab软件通过仿真对算法的正确性进行验证。文章主要由3部分构成，第1章主要讲声源定位的背景、意义、国内外研究现状及发展趋势。第2章主要讲麦克风阵列多源定位的基本原理。简单介绍了

展开阅读全文