第14章说话人识别－金锄头文库

资源描述

《第14章说话人识别》由会员分享，可在线阅读，更多相关《第14章说话人识别（20页珍藏版）》请在金锄头文库上搜索。

1、 1 第十四章第十四章说话人识别说话人识别 14 1 概述概述说话人识别和指纹识别虹膜识别等一样属于生物识别的一种被认为是最自然的生物特征识别身份鉴定方式因此又被称为声纹识别生物识别 Biometric Recognition 也称为生物特征识别生物测定学生物认证是指通过人体显著的生物或行为特征来自动识别所测定人的身份的方法适合生物识别的特征应该符合以下的几个性质通用性每个人都具有独特性每个人都不一样恒定性不随时间而变化可收集性可定量测量准确性准确性通常随量的增加而降低高可采用性人们易于接受和低欺骗性不易被欺骗 1 语音不仅具有上

2、述的性质而且与其他的生物测定技术如指纹虹膜和人脸识别等比较声纹识别具有很大的优势语音是个人所固有的特征人的语音可以非常自然地产生训练和识别时并不需要特别的输入设备诸如个人电脑普遍配置的麦克风和到处都有的电话都可以作为输入设备因此说话人识别系统的价格也较低上述原因促使语音成为人们愿意接受的一种生物特征说话人识别 Speaker Recognition 按照任务可以分为两个范畴即说话人辨认 Speaker Identification 和说话人确认 Speaker Verification 说话人辨认是指通过一段语音从注册的有限说话人集合中分辨出其身份的过程是多

3、选一的问题说话人辨认系统的性能将随着说话人集合的规模增大而降低说话人确认是证实某一说话人是否与他所声称的身份一致的过程系统只需给出接受或拒绝两种选择是一对一判别的问题因此说话人确认系统的性能是与说话人集合的规模无关的另外与其他生物识别技术类似若考虑待识别的说话人是否在注册的说话人集合内则说话人辨认分为开集 Open set 辨认和闭集 Close set 辨认即开集辨认比闭集辨认多一个确认过程显而易见闭集辨认的结果要好于开集辨认但开集辨认与实际情况更为接近目前的说话人识别方法按照语音的内容可分为与文本相关 Text Dependent 的规定语

4、音内容即注册和识别时说同样的话与文本无关 Text Independent 的不规定语音内容即注册和识别时可以说任意的话文本提示 Text Prompt 的从大数据库中提示用户说一小段话也可以归为与文本相关的说话人识别最初的应用是在法庭上 1660 年语音被用于查尔斯一世之死一案罪犯判定的关键证据自动说话人识别的研究始于 20 世纪 60 年代 Bell 实验室的 S Pruzansky 1 提出了基于模式匹配和概率统计方差分析的声纹识别方法引起信号处理领域许多学者的关注形成了说话人识别研究的一个高潮在以后的几十年中研究人员不断在特征提取模型匹配对环境

5、的适应性等方面深入研究说话人识别技术也从小型的实验室条件下受控制的系统向实用化发展如今说话人识别技术已逐渐走入实际应用 AT L iiii allstatei sequences p xLMp xs p ss 14 4 5 这只是理论意义上的得分基于 HMM 模型的方法与基于 VQ 的方法在与文本无关的说话人识别上具有相似的性能 HMM 模型同样广泛用于与文本相关的说话人识别中并且比传统的方法有着更好的性能 HMM 不需要时间规整可节约判决时的计算时间和存储量在目 6 前被广泛应用缺点是训练时计算量较大二高斯混合模型二高斯混合模型 GMM 高斯混合模型本质上是

6、一种多维概率密度函数可以用来表示语音特征矢量的概率密度函数通过对特征矢量进行聚类把每一类看作是一个多维高斯分布函数然后求出每一类的均值协方差矩阵和出现的概率将此作为每个人的训练模板最后将观测序列代入每个人的模板找到最大的后验概率即对应所识别的人 GMM 模型的优点是可以平滑地逼近任意形状的概率密度函数并且是个易于处理的参数模型相当稳定 14 4 3 辨别分类器方法辨别分类器方法一人工神经网络一人工神经网络 ANN 方法方法 7 10 人工神经网络在某种程度上模拟了生物的感知特性它是一种分布式并行处理结构的网络模型具有自组织和自学习能力很强的复杂分

7、类边界区分能力以及对不完全信息的鲁棒性其性能近似理想的分类器其缺点是训练时间长动态时间规整能力弱网络规模随说话人数目增加时可能大到难以训练的程度目前常用的神经网络有多层感知器 MLP 时间延迟神经网络 TDNN 径向基函数 RBF 网络和自组织映射 SOM 网络等二支持向量机二支持向量机 SVM 方法方法支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的根据有限的样本信息在模型的复杂性即对特定训练样本的学习精度 Accuracy 和学习能力即无错误地识别任意样本的能力之间寻求最佳折衷以期获得最好的推广能力 Generaliza

8、tion Ability 支持向量机方法的几个主要优点有它是专门针对有限样本情况的其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值算法最终将转化成为一个二次型寻优问题从理论上说得到的将是全局最优点解决了在神经网络方法中无法避免的局部极值问题算法将实际问题通过非线性变换转换到高维的特征空间 Feature Space 在高维空间中构造线性判别函数来实现原空间中的非线性判别函数特殊性质能保证机器有较好的推广能力同时它巧妙地解决了维数问题其算法复杂度与样本维数无关 SVM 已经成功地应用到模式识别领域中并表现出良好的性能成为研究的新热点 14 4

9、 4 混合方法混合方法把以上分类方法与不同特征进行有机组合可显著提高说话人识别的性能如 NTT 实验室的 T Matsui 和 S Furui 使用倒谱差分倒谱基音和差分基音采用 VQ 与 HMM 混合的方法得到 99 3 的说话人确认率 8 采用多种特征和分类器进行识别对最终的各个结果进行融合可以提高系统的识别率总的说来一个成功的说话人识别系统应该做到以下几点 1 能够有效地区分不同的说话人但又能在同一说话人语音发生变化时保持相对的稳定如感冒等情况 2 不易被他人模仿或能够较好地解决被他人模仿问题 3 在声学环境变化时能够保持一定的稳定性即抗噪声抗信道变化的

10、性能要好 14 5 判决规则与性能评价标准判决规则与性能评价标准对于说话人辨认系统其性能的评价主要是正确识别率而对于说话人确认系统表征其性能的最重要的两个参量是错误拒绝率和错误接受率前者是拒绝真实的说话人而造成的错误后者是接受假冒者而造成的错误二者与阈值的设定相关说话人辨认系统的性能与用户数目有关并随着用户数目的增加系统的性能会不断下降而说话人确认系统的错误率与用户数目无关 7 性能评价具有多种意义主要是对研究思想的评价还可以用来对不同的系统进行比较评价某项技术对特定应用的效果用于投资方的市场调查和产品对用户的销售性能评价应该具有清楚和易于理解的特点

11、选用错误率要比选用正确率的效果要更好一些比如错误率从 10 减少到 5 表示系统的性能提高显著而用正确率从 90 提高到 95 来表示同样的情况就没有那么直观了 14 5 1 说话人辨认说话人辨认说话人辨认系统的性能可以直接用错误率 ID E或正确率 ID C来表示 IDerrtot Enn 14 5 1 IDcortot Cnn 14 5 2 这里 tot n err n和 cor n分别表示总测试数错误数和正确数不同的说话人和不同的环境下的错误率可能会不同但是基本的性能评价是一致的 14 5 2 说话人确认检测说话人确认检测说话人确认实际上是检测问题因此存在许多

12、评价检测系统性能的约定和方法一漏警和虚警一漏警和虚警检测系统的性能通常用两种错误来表征即漏警错误率和虚警错误率分别表示当目标说话人存在时未能检测出的概率 miss E和当目标说话人不存在时错误检测出的概率 fa E 这些评价可以由下面的公式来计算 arg missmisstet Enn 14 5 3 这里 argtet n和 miss n分别为目标说话人实验的次数和目标说话人未被检出的次数 fafaimposter Enn 14 5 4 这里 imposter n和 fa n分别为非目标说话人实验的次数和目标说话人被错误检出的次数二错误率二错误率漏警错误率和虚警错误率虽

13、然可以较好地表示系统的性能但是并不能提供一个单一的数字来表示性能等错误率 EER 将漏警和虚警率结合起来成为一个单一数字通过寻找二者相等的点的判决阈值的方法当然该方法只在判决阈值可调的情况下适用三检测代价三检测代价另外一个用单一数值表示系统性能的方法是构造检测代价函数该代价函数用虚警和漏警率的算术加权来实现该方法的优点是对实际应用情况进行了建模所产生的数值对实际应用具有直接的意义检测代价 C 通常被定义为漏警和虚警的后验概率加权和 detargarg 1 missmisstetfafatet CcEPcEp 14 5 5 这里 miss c和 fa c分别表示

14、漏警和虚警的代价 argtet p为目标说话人的先验概率上面定义的检测代价函数看起来是个很好的评价标准因为它对实际应用中的技术进行了量化在许多应用中说话人识别的代价被证明可以采用这种检测代价函数来很好地表示然而这种抽象的表示方法并没有被科学界所广泛接受研究人员更容易理解的是漏警和虚警错误之间的折衷表示方法四四 DET 图图漏警和虚警错误率之间的关系可以由传统的接收机工作特性 Receiver Operating Characteristic ROC 曲线来表示它将正确检测概率表示为虚警错误率的函数关系另外一个对 ROC 曲线的发展称之为检测错误折衷 Detectio

15、n Error Tradeoff DET 曲线由美国国家标准协会 NIST 引入作为说话人确认的检测标准 DET 图根据漏警和虚警错误率相应的高斯偏离程度而不是直接根据概率本身来绘出 DET 曲线并且取对数坐标的形式这种做法 8 将导致非线性的概率尺度但优点是该曲线将更为直观尤其是当错误概率的分布服从高斯分布时这时得到的检测错误折衷曲线将为一条直线曲线之间的距离大小将更有效地描述不同系统之间性能差异的大小 DET 图的示意图见图 14 5 1 可以看出 DET 图清楚地表示出了错误拒绝率漏警率和错误接受率虚警率之间的关系 DET 图中还表明了等错误率 Equa

16、l Error Rate EER 的点表示 FR FA 时的说话人确认系统的性能图 14 5 1 中呈 45 倾斜向上的直线即为 EER 点构成的一般来讲 EER 值越小系统性能越好图 14 5 1 说话人识别 DET 示意图五判决五判决说话人识别技术的处理结论该工作很简单通过人的声音来决定说话人的身份看起来很明显但是实际上如何设定说话人识别的判决门限却常常被忽视随着应用的发展如何进行判决被认为是不具备挑战性的问题实际上当我们去配置一个真实的系统时却发现这个问题变得极具挑战性在说话人合作的情况下系统性能对不同的说话人变化很大但是系统对所有人都应该具有均一的性能即应该具有较低的漏警率因此研究者致力于分别校准系统对每一个说话人的性能但是却发现训练时的观察往往在实用中是有害的即说话人归一化会导致更差的性能六合并数据六合并数据合并数据的问题与设置阈值和判决问题相关对不同的目标说话人进行数据合并是件很困难的事情因为由说话人相关的阈值所带来的好的性能数据合并后采用混合的阈值的性能就要降低了解决这个问题的办法是找到每个目标

展开阅读全文

第14章 说话人识别

第14章说话人识别