&ampamp;#40;语音信号处理课件&ampamp;#41;14说话人识别

资源描述

《&ampamp;#40;语音信号处理课件&ampamp;#41;14说话人识别》由会员分享，可在线阅读，更多相关《&ampamp;#40;语音信号处理课件&ampamp;#41;14说话人识别（100页珍藏版）》请在金锄头文库上搜索。

1、说话人识别1概述1）基本概念说话人识别（Speaker Recognition丿又称为话者识别，是指通过对说话人语咅信号的分析处理，匂动确认说话人是否在所记录的话者集合中，以及进一步确认说话人是谁。说话人识别与语音识别的区别在于，它并不注意语音信号中的语义内彖，而是从语音信号中提取出个人的特征，即提取出包含在语音信号中的个性因素。为什么能枳别说话人?人与人间在发咅彖官上存在着差异，例如在步带和拓管形状上的差异；讲话时发音习惯的差异，包括方言、土语、抑扬顿挫、常用词汇及讲话上的怪僻语等以复杂的形式反映在说话人语音的波形中。使得毎个人的语音都带有强烈的个人色彩。语音是人固有的，不会丢

2、夾和遗忘;语音信号采集方便，糸统设备成本低;利用尅话网络可以卖现远程鑒服。3说话人识别的分类!最重要的性能一指标是识别率，即正确识别出说话人是谁的.百分率。丿匚已知的一群人中识别出其中的某人，需要使用N个模板，系统必须辨认出待识别的语音是N个人中的哪一位。按其识别任务分：/ 说话人辨认 Speaker Identification 判断禁段语音是若干人中的哪一个厶说，是多选一”问题O又可分为开集和闭集两种。闭集：假定待识别人一定在集合内O未知说话人的语音1号人开集：假定待枳别说话人可以在集合2号人人N说话人确认（Speaker Verirication 丿确定禁段语音是否是指

3、定的禁个人所说，是未知说话人的语咅的判别问题。只要使用一个特定的模板和待识别的测试语音进行匹配，系统只会作出“是”或“不是”的二元判决。J丿1号人2号人N号人思号人的声音吗(b)说话人确认说话人识别的分类扌艮据识别对象的不同将说话人识别分为三类：与丈本有关(Text-Dependent)：规定内彖。a与丈本无关(Textndependent)：不规定内彖。丈本提示型(Text-Prompted):由识别裝置向说话人制定需发音的丈本內彖。5说话人识别的特点话音是按说话人划分，因而特征空间里的界限也应按说话人划分；该应用宜于区分不同说话人的特征，应找出反映突出的特征和能突出差

4、异的相应的距离量度；由于说话人识别的目的是识别出说话人而不是所发语音的含义，所以采取的方法也有所不同，包括用以比较的帧和帧长的选定、识别逻辑的制定等。应用前景色话信道罪犯缉拿、出庭中色话录音信息的身份确认、色话语音跟琮，为用户提供防盗门开启功能等等。通信领域，说话人识别技术可以应用于错如步音拨号、色话银行、色话购物、教据库访问、信息服务、语音e-mail,安全控制、计算机远程參陆等领域。呼叫中心应用上，说话人枳别技术同样可以提供更加个性化的人机交互界面。8.2说话人识别方法和糸统结构预处理对输入计爭机的语音数据进行端点松测、预加重、加窗、分帧。特征选取特征选取往往都要舍去语

5、义内容信息而保留个人特征信息。声咅中所包含的个人特征信息有两种，一种是声道长度、声带等先天性发音器官的个人差别所产生的；另一种是由方言，语调等后天性讲话习惯产生的。前者是以共振峰频率的高低、带宽的大小、平均基频】频谱基本形状的斜率等所表现的; 后者是以基频、共振峰频率的时间图案、单词的时间长等所表现的。在说话人识别中，还应注意应用在较长时段(若干帧范围)内的过渡特征(如音调轮廓特征、倒谱过渡特征等)。这些过渡特征能较好地表征说话人个人的发音习惯，区别说话人。特征选取的准则：(1) 能有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定；(2) 不易被模仿；

6、(3) 尽量不随时间和空间而变化。说话人识别所用特征:I. 语音帧能量；3.帧短时谱特征；5.共振峰频率及带宽；7.谱相关特征；9. LPC倒谱；II. KL特征。2.基音周期；4.线性预测系数LPC；6.鼻音联合特征；8.相对发音速率特征;10.音调轮廓特征；说话人特征大体可归为下述几类：谱包络参数:语音信息通过滤波器组输出，以合适的速率对滤波器输出抽样，并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹:这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。11线性预测系数使用线性预测系数是语音信号处理中的一次飞跃，以线性预测导出的各种参数，如线性预测系数、自相关

7、系数、反射系数、对数面积比、线性预测残差及其组合等参数，作为识别特征，可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数，如美尔倒谱系数、感知线性预测等。此外，人们还通过对不同特征参量的组合来提高实际系统的性能，当各组合参量间相关性不大时，会有较好的效果，因为它们分别反映了语音信号的不同特征。特征参量的评价方法选取两种分布的方差之比（F比）：_不同说话人特征参数均值的方差_ .同一说话人特征方差的均值 F.F比大表示有效。式中：指对说话人作平均；指对某说话人的各次语音特征作平均；为第Z个说话人的第a次语音；u

8、. =第z个说话人的各次特征的估计平均值。 I将所有说话人的H平均所得的均值。17可以把F比的概念推广到多个特征参量构成的多维特征矢量。定义说话人内特征矢量的协方差矩阵W和说话人间特征矢量的协方差矩阵B分别为：炉=aj由此得到可分性测度(D比)的定义；D =zD比可以评价多维特征矢量的有效性。说话人识别中判别方法和阈值的选取即根据匹配计算的结果,采用慕种判决准则判定说话人是否是所步称的说话人（说话人确认丿或说话人到底是谁（说话人辨认丿。性能的评价A评价说话人识别糸统性能的指标有很多，例如糸统的识别率，训练肘间的长短和训练语料的数量、帜别响应肘间、话者集规模、说话方式要求以及加格等。

9、A此如说，步控门锁识别响应肘间要求很严格，但可获得充足的训练语料。司法鉴定，对识别响应肘I可的要求可以相对放松，但由于训练数据的充足性无法櫟证。A说话人辨认糸统常用的是识别率，以及错誤率（谋识率丿。说话人确认糸统，则常用两个错誤率来表示：错誤拒识率(False rejection,简称FR),错誤接收率(False acceptance,简称 FA)。判决门限11错误概率 C#状态s（本人）n（他人）判定s（接受）;P（S I s）P（s I n）N（拒绝）:P（N I s）：P（N I n）说话人确认有四种可能的组合，上表表示这四种组合所发生概率的定义。当未知语音确实是本人语音

10、时，状态定义为S,当未知语音为非本人语音时，状态定义为n。若对上述两种状态接受时定义为S,若不接受而拒绝时定义为N,则四种可能的组合为P（S、P（S /n）、P（N /s）、 P（N /n） oP(S/s)表示正确接受的概率；P(S / n)表示错误接受的概率，称为错误接受率，用FA表示(false acceptance)。错误接受即是将冒名顶替者作为真正的说话人加以接受；P(N/s)表示错误拒绝的概率，称为错误拒绝率，用FR表示(false rejection)0错误拒绝即是将真正的说话人当成冒名顶替者加以拒绝；P(N/n) 表示正确拒绝的概率。这时存在如下关系:P(S I s

11、) + P(N I 5)= 1P(S I n) + P(N I n) = 1190f0月刃)1若只采用P(S、P(S /n),就可以评价这个识别系统。若将P(S/s)、P(S /n)作为横坐标和纵坐标，并改变阈值，则对各识别系统就能获得上面左图的ROC曲线。方法B始终优于方法A,而D相当于没有识别能力的场合。说话人识别的几种方法1 .模板匹配法:模板匹配法的要点是：在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量，这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词，数字串或句子中提取在测试阶段，从说春人发出的语音信号中按同样的处理方法

12、提取测试模板，并且与其相应的参考模板相比较。常用的有动态时间规整和矢量量化方法。2.概率统计方法:语音中说话人信息在短时内较为平稳，通过对稳态特征如基音、声门增益、低阶反射系数的统计分析，可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整，比较适合文本无关的说话人识别。常用的有隐马尔可夫模型和高斯混合模型。3.模式分类方法包括人工神经网络和支持向量机方法。人工神经网络在某种程度上模拟了生物的感知特性，它是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类

13、器。B心其缺点是训练时间长动态时间规整能力弱，网络规模随说话人数目增加时可能大到难以训练的程度。234.混合方法把以上分类方法与不同特征进行有机组合。如NTT实验室的T. Matsui和S. Furui使用倒谱、差分倒谱、基音和差分基音，采用VQ与HMM混和的方法得到99.3%的说话人确认率。与丈本有关的枳别方法A识别肘可以同肘使用语音信号中的语义特征和说话人特征，所以即使利用比较短的语料，也能从中提取出较稳定的说话人特征。与丈本有关的说话人识别方法与语音识别的方法十分相似，最常用的也是基于DTW的方法和基于HMM方法o与丈本无关的帜别方法常用的有：基于VQ的方法；基于HMM的方出

14、; 基于人工神经网络的方由，以及基于语音识别的方法等。近年来，當斯混合模型（Gaussian Mixture Model,简称GMM丿的方法受到了研克者的普遍重视，它的教学模型卖质上对应于一个状态的连续H MMo丈本提示型说话人识别语音输入8. 3隐马尔可夫模型方法隐马尔可夫模型是一种基于转移概率和传输概率的随机模型，最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用HMM识别时，为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判边i ri/Com HMM不需要时间规整，可节约判决时的计算时间和存储量, 在目前被广泛应用。缺点是训练时计算量较大。3应用DTW的说话人确认系统日凉曇者ItakuTa瘠幼态规型DP的概念用子解决紙垦词很别时说话速走亲畅方岡瑋麵，提出了著名的幼态时同伸病篇法，简祀參DTW (DYNAMICTIME WARPING的信傅丿。当彳司范素辍小一起各个词条未易于混淆时，这个篇法取得了很丈麻功，以而1)

展开阅读全文