文献综述75599－金锄头文库

资源描述

《文献综述75599》由会员分享，可在线阅读，更多相关《文献综述75599（11页珍藏版）》请在金锄头文库上搜索。

1、一、综述语音分离问题源于著名的“鸡尾酒会效应”即在复杂的混合声音中，人类能有效地选择并跟踪某一说话人的声音。语音分离的研究在语音通信、声学目标检测、声音信号增强等方面有着重要的理论意义和实用价值。而将语音分离技术应用到智能机器人中。让机器人具有智能的听觉，实现声源定位和分离，确定说话人个数，进行人机对话等方面更具有广阔的应用前景。目前，这方面的研究主要有听觉场景分析(Auditory Scene Analysis，ASA)和盲源分离(Blind Source Separation，BSS)两类方法。对于听觉场景分析的研究有两种方法：一种是从人的听觉生理及心理特性出发，研究人在声音识别过程中的

2、规律即听觉场景分析；另一种是利用对人听觉感知的研究成果建立模型对模型进行数学分析并用计算机来实现它。这是计算听觉场景分析(ComputationalAudit0珂Scene Analysis，CASA)所要研究的内容。而盲源分离是指在源信号、传输通道特性未知的情况下仅由观测信号和源信号的一些先验知识(如概率密度)来估计出源信号各个分量的过程。盲源分离的独立分量分析方法首先是由Comon提出的。它是基于神经网络和统计学的基础发展起来的一种技术是一个十分活跃的前沿领域。该技术在通信、生物医学信号处理、语音分离、图像处理、阵列信号处理以及通用信号分析等方面有着广泛的应用。已有的盲分离算法大致归纳为三

3、类。在第一类方法中，信号经过变换后，使不同信号分量之间的相依性(Dependency)最小化。这类方法称为独立分量分析，由Pierre Comon于1994年提出。当信号之间的独立性采用不同的准则测度时，即得到不同的算法。第二类方法是用非线性传递函数对输出进行变换，使得输出分布包含在一个有限的超立方体中，然后熵的最大化将迫使输出分量可能在超立方体中均匀散布。这类方法称为熵最大化，是由Bell和Sejnowski于1995年提出的。熵最大化最终也得到信号分量独立性的类似测度。第三类方法为非线性主分量分析由Oja和Karhunen等人于1994年提出，它是线性主分量分析方法的推广。目前，前两类方法

4、已逐渐趋于成熟。对于第三类方法的研究也已初步开展起来。二、课题国内外研究现状从语音分离的角度看，盲分离算法的研究主要经过了三个阶段。第一个阶段是盲分离理论的形成时期，这个时期学者们主要研究了平稳信号的瞬时盲分离问题。第二个阶段是从上一世纪九十年代中后期开始的，这时大家开始关注语音这一类非平稳信号的瞬时盲分离。第三个阶段是从本世纪初至今，学者们开始研究卷积混合模型的语音信号分离。通常认为盲分离的研究是由 Jutten 和Herault最先提出的。他们提出了一种基于Hebb 学习规则的并行人工神经网络模型，这种模型能对独立信号混合而成的信号进行盲分离，这一算法后来被称为“H-J”算法，标志着研究

5、盲信号分离的开端。1993年Cardoso 用基于高阶累积量张量的代数方法推导出了联合近似特征矩阵对角化算法(JADE)。1994 年由Comon第一次提出了独立分量分析(Independent ComponentAnalysis, ICA)的概念，并指出了其与盲分离的本质是相同的。到1995 年，以Amari为代表的研究小组对盲分离算法进行了深入研究并取得一定成果。Bell 和Sejnowski也于同年提出基于熵最大化的信息最大化算法(Infomax)，其能较好的解决语音和音乐信号的瞬时线性盲分离问题。1996 年，Cardoso 等人提出了ICA 算法中“相对梯度”、“等变化性”和有关稳定

6、性及分离精度等重要思想和方法。同年Pearlmutter在ICA 中引入以最大似然准则的目标函数。1997 年，Amari 和Yang 等用自然梯度方法完善了Infomax 算法，提高了算法的有效性和收敛速度，证明其基本原理与Cichocki 的算法以及最大似然估计方法联系密切。2000 年，Lee 等人在继承Bell&Sejnowski 基本算法体系的基础上，结合Amari 等提出的“自然梯度”和最大似然估计法，将Infomax 算法加以推广，从而可以有效实现对具有超高斯和亚高斯分布的混合信号的分离。Hyvrinen 和Oja 等人根据统计学中峭度的概念和信息论中负熵的定义，提出了基于独立分

7、量分析的快速算法FastICA。从不同出发点研究得出的不同的ICA 算法，经证明它们之间存在着紧密的联系，都可以纳入基于信息论方法的 BSS 问题的同一框架。以上的盲信号分离方法都是基于瞬时混合模型的，这些方法相对成熟。但是在实际研究中我们发现这些瞬时混合模型已经无法在实际环境中应用。比如在实际的语音环境如“鸡尾酒会”中，声音在传播过程中经过障碍物的反射和衍射，从麦克风或传感器接收到的信号不再是简单的瞬时混合信号，而是源信号在尺度和时延上经过缩放的卷积信号。因此近几年学者们开始关注卷积混合模型以应对许多实际的应用，如实际环境中的语音信号盲分离。对于卷积混合信号的盲分离，可以简单的分为时域和频域

8、两种研究方法。对于时域方法，在1991 年就有Platt 等人将“H-J”算法推广到具有时延和卷积混合的情况。1994 年Yellin 等人推出了基于高阶累计量和高阶谱的多通道盲反卷积算法。1995 年Jutten 等人利用四阶累计量给出了卷积混合信号盲分离的自适应训练方法。1996 年Tokkola将Infomax 算法推广到更广泛的情况，使其能盲分离具有时延的源的混合信号。1997 年Amari 等人把最小互信息量和最大嫡等方法推广到卷积混合的情况。这些时域方法往往需要巨大的计算量，收敛效果也不是很好，因此很难进行实际应用，学者们对其研究较少。1998 年以后，学者们开始关注卷积混合盲信号

9、的频域分离方法，因为频域算法运算时间短且易于在实际中实现，可以利用比较成熟的瞬时盲分离算法，研究价值较大，所以各样的算法也发展起来。1998 年，Smaragdis将卷积信号用傅立叶变换变换到频域，然后用扩展的Infomax 算法进行各个频点的瞬时盲分离，再将整个频域的分离结果变换到时域，其开创了频域分离模型，也取得了一定的分离效果。但是在之后的研究中逐渐发现这一类频域方法存在普遍难以解决并影响分离效果的问题，即幅值不确定性(scaling)和次序不确定性(permutation)。不确定性是瞬时混合分离的固有问题，但对于时域信号而言分离结果并不受到其严重的影响。比如说我们不太关心语音在盲分离

10、的分离结果中输出的顺序；更进一步说，语音信号幅度的放大和缩小是可以接受或易于调整的，我们最关心的信息是语音信号的波形模式而不是大小。因此不确定性在瞬时混合盲分离中没有显得很重要。但在卷积混合盲分离的频域解法中，由于每个频率段的分离结果输出次序是不确定的，因此在完成每个频率段的盲分离后，直接对各个频率段的分离结果进行逆傅立叶变换，不能保证每个输出通道对应于同一个源信号的成分，很可能混有另外的信号分量；另外频域信号的幅值大小也非常重要，因为信号的大小反映了源信号的各频率成分的能量大小，所以也是需要考虑的，否则会导致信号的谱变形。于是在卷积混合盲分离的频域解法中，学者们就着重进行对不确定性的研究。对

11、于幅值不确定性，大部分频域算法都是采用信号归一化，这样做主要目的是为控制信号的能量大小，不至于使得算法因信号大小不受控制而不收敛，也有利于保持各个频率点的分离矩阵的数值大小不会差异太大，从而保证时域的解卷积滤波器矩阵尽量准确。本文对此不作深究，直接采用信号归一化解决。而相比幅值不确定性，对次序不确定性的研究更多，因为其更难解决。通常把解决次序不定的方法称为频率对准或次序对准(permutation alignment)，目前大多数文献还只是讨论两个源信号的情况下如何进行次序对准。在早期如2000 年，Anemueller 等人提出了利用分离信号的相关系数来进行次序对准，其后又有基于Kullba

12、ck-Leibler(KL)距离或者互累积量的方法被提出来，它们利用同一信号的相关性强、KL 距离小、互累积量不为零，而不同信号相关性弱、KL 距离大、互累积量为零的特点，通过比较上述参数，将每个频率段的输出调整至同一通道对应着同一源信号，但并不保证顺序与源信号的顺序相同。这类方法总的来说根据利用两种特性：一是频域内同一个语音信号相邻频率段的谱的包络相关，这是源于信号的物理特性，二是利用频域内不同信号之间是不相关或者独立的特性，这是源于时域的空间独立特性在频域内同样有效。而这一类利用反映信号相关性参数的次序对准算法其缺点是鲁棒性差，如果在某一个频率点顺序调整错误，那么就会影响下一个频率点的对准

13、，而且其计算量也颇大。另外一些学者如 Parra，Araki，Sawada 等人在2001 至2005 年发表的论文中采用波达估计的几何方法来进行次序对准。这种方法通过设置合适的声场环境，充分利用已知几何信息来估计源信号的方向，从而进行次序对准。可以说是人为的给“盲”分离添加一些辅助先验信息以更好进行次序对准。波达估计的几何方法优点在于其鲁棒性好，能单独解决每个频率点上的次序不确定问题，而不是像相关性参数法中相邻两个频率点是互相联系的，如果一个出现问题，将导致剩下频率点出现错误。但是其缺点一是对声场的几何环境设置要求较高，实际应用的话会增加硬件成本；二是其准确度不高，而且在一些频点上源信号的方

14、向角度无法求得。还有一些学者从混合滤波器的长度和所加窗长之间的矛盾关系入手来解决次序不确定问题。由于这类方法受影响因素过多，新近文献中多数不采用该方法，因此本文不对此方法进行过多讨论。总的看来，国外学者近年来一直在研究卷积混合盲分离频域解法中的两个重要问题：一是瞬时盲分离的复数域算法；二是不确定性。不断有新的模型和算法被提出来，涌现了大量关于ICA/BSS 的论文、会议和专题报告。尤其是自从1999 年在法国举办的第一届ICA 国际会议以来，接下来分别在芬兰、美国、日本、西班牙等国几乎逐年都有专门的国际会议。国内信号处理界紧跟国际盲信号处理的研究动态，各个学校与研究机构在基本理论算法研究的同时

15、更加偏重于应用上的研究，其内容上也覆盖了盲分离的各个方面。相继有清华大学、西北工业大学、东南大学、西安电子科技大学、上海交通大学等。清华大学张贤达教授于1996 年的书中介绍了有关盲信号处理的基础理论和相关算法，其后相关研究逐渐多起来，近两年国内越来越多的学者投入到了相关理论和应用的研究之中。何振亚等人基于infomax 算法，将其推广到了非线性的情况。刘琚、冯大政等人结合神经网络和信息论原理提出了相应的算法。华荣等人将遗传算法引入了盲信号算法。林家骏等人针对过程信号研究了盲分离算法并用来改进控制算法。贾鹏和丛丰裕等人将盲分离用于杂系混合信号和主动声纳目标检测。2006 年清华大学杨福生教授出

16、版了国内第一本ICA 专著。目前 ICA/BSS 的研究热点除了卷积混合频域解法之外还集中于以下几个方面：含噪盲分离，大多数无噪模型下的盲分离算法对含噪模型实效，而含噪模型更符合实际应用；多维ICA，在其模型中等效为将源信号分离成相互独立的子集，在子集中各分量不一定独立，各分离不一定是一唯的；欠定问题，源的数目多于观测信号即传感器的数目；非线性ICA。三、研究主要成果语音信号处理是信号处理领域的热点之一，这项研究以其巨大的研究价值和前景吸引了大量学者的注意，近年来取得了快速的发展。它在工业、金融、商业、文化、教育等诸方面事业有着重要的影响。语音信号盲分离作为语音技术的一个重要部分已可以应用于以下方面。电话会议系统。在典型的电话会议系统中许多讲话人坐在会议室内通过一系列麦克风讲话。声音在传输过程中由于人和障碍物的存在不可避免的变得不那么理想了。盲语音分离可以使理想的语音信号重构，构造高质量的远程电话会议系统。助听器和其它携带设备。近年来便携录音设备的使用

展开阅读全文