第14章 说话人识别

上传人:我*** 文档编号:133319687 上传时间:2020-05-26 格式:PDF 页数:20 大小:464.26KB
返回 下载 相关 举报
第14章 说话人识别_第1页
第1页 / 共20页
第14章 说话人识别_第2页
第2页 / 共20页
第14章 说话人识别_第3页
第3页 / 共20页
第14章 说话人识别_第4页
第4页 / 共20页
第14章 说话人识别_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《第14章 说话人识别》由会员分享,可在线阅读,更多相关《第14章 说话人识别(20页珍藏版)》请在金锄头文库上搜索。

1、 1 第十四章第十四章 说话人识别说话人识别 14 1 概述概述 说话人识别和指纹识别 虹膜识别等一样 属于生物识别的一种 被认为是最自然的生 物特征识别身份鉴定方式 因此又被称为 声纹 识别 生物识别 Biometric Recognition 也称为生物特征识别 生物测定学 生物认证 是指通过人体显著的生物或行为特征来自动 识别所测定人的身份的方法 适合生物识别的特征应该符合以下的几个性质 通用性 每个 人都具有 独特性 每个人都不一样 恒定性 不随时间而变化 可收集性 可定量 测量 准确性 准确性通常随量的增加而降低 高可采用性 人们易于接受 和低欺骗 性 不易被欺骗 1 语音不仅具有上

2、述的性质 而且与其他的生物测定技术如指纹 虹膜 和人脸识别等比较 声纹识别具有很大的优势 语音是个人所固有的特征 人的语音可以非 常自然地产生 训练和识别时并不需要特别的输入设备 诸如个人电脑普遍配置的麦克风和 到处都有的电话都可以作为输入设备 因此说话人识别系统的价格也较低 上述原因促使语 音成为人们愿意接受的一种生物特征 说话人识别 Speaker Recognition 按照任务可以分为两个范畴 即说话人辨认 Speaker Identification 和说话人确认 Speaker Verification 说话人辨认是指通过一段语音从注册 的有限说话人集合中分辨出其身份的过程 是 多

3、选一 的问题 说话人辨认系统的性能将 随着说话人集合的规模增大而降低 说话人确认是证实某一说话人是否与他所声称的身份一 致的过程 系统只需给出接受或拒绝两种选择 是 一对一判别 的问题 因此 说话人确 认系统的性能是与说话人集合的规模无关的 另外 与其他生物识别技术类似 若考虑待识 别的说话人是否在注册的说话人集合内 则说话人辨认分为开集 Open set 辨认和闭集 Close set 辨认 即开集辨认比闭集辨认多一个确认过程 显而易见 闭集辨认的结果要 好于开集辨认 但开集辨认与实际情况更为接近 目前的说话人识别方法按照语音的内容可分为与文本相关 Text Dependent 的 规定语

4、音内容 即注册和识别时说同样的话 与文本无关 Text Independent 的 不规定语音内 容 即注册和识别时可以说任意的话 文本提示 Text Prompt 的 从大数据库中提示用 户说一小段话 也可以归为与文本相关的 说话人识别最初的应用是在法庭上 1660 年 语音被用于查尔斯一世之死一案罪犯判定 的关键证据 自动说话人识别的研究始于 20 世纪 60 年代 Bell 实验室的 S Pruzansky 1 提出 了基于模式匹配和概率统计方差分析的声纹识别方法 引起信号处理领域许多学者的关注 形成了说话人识别研究的一个高潮 在以后的几十年中 研究人员不断在特征提取 模型匹 配 对环境

5、的适应性等方面深入研究 说话人识别技术也从小型的 实验室条件下 受控制 的系统向实用化发展 如今 说话人识别技术已逐渐走入实际应用 AT L iiii allstatei sequences p xLMp xs p ss 14 4 5 这只是理论意义上的得分 基于 HMM 模型的方法与基于 VQ 的方法在与文本无关的说话人 识别上具有相似的性能 HMM 模型同样广泛用于与文本相关的说话人识别中 并且比传统 的方法有着更好的性能 HMM 不需要时间规整 可节约判决时的计算时间和存储量 在目 6 前被广泛应用 缺点是训练时计算量较大 二 高斯混合模型 二 高斯混合模型 GMM 高斯混合模型本质上是

6、一种多维概率密度函数 可以用来表示语音特征矢量的概率密度 函数 通过对特征矢量进行聚类 把每一类看作是一个多维高斯分布函数 然后求出每一类 的均值 协方差矩阵和出现的概率 将此作为每个人的训练模板 最后将观测序列代入每个 人的模板 找到最大的后验概率 即对应所识别的人 GMM 模型的优点是可以平滑地逼近 任意形状的概率密度函数 并且是个易于处理的参数模型 相当稳定 14 4 3 辨别分类器方法辨别分类器方法 一 人工神经网络 一 人工神经网络 ANN 方法 方法 7 10 人工神经网络在某种程度上模拟了生物的感知特性 它是一种分布式并行处理结构的网 络模型 具有自组织和自学习能力 很强的复杂分

7、类边界区分能力以及对不完全信息的鲁棒 性 其性能近似理想的分类器 其缺点是训练时间长 动态时间规整能力弱 网络规模随说 话人数目增加时可能大到难以训练的程度 目前常用的神经网络有多层感知器 MLP 时 间延迟神经网络 TDNN 径向基函数 RBF 网络和自组织映射 SOM 网络等 二 支持向量机 二 支持向量机 SVM 方法 方法 支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的 根 据有限的样本信息在模型的复杂性 即对特定训练样本的学习精度 Accuracy 和学习能力 即 无错误地识别任意样本的能力 之间寻求最佳折衷 以期获得最好的推广能力 Generaliza

8、tion Ability 支持向量机方法的几个主要优点有 它是专门针对有限样本情况的 其目标是得到 现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值 算法最终将转化成为一个二 次型寻优问题 从理论上说 得到的将是全局最优点 解决了在神经网络方法中无法避免的 局部极值问题 算法将实际问题通过非线性变换转换到高维的特征空间 Feature Space 在高 维空间中构造线性判别函数来实现原空间中的非线性判别函数 特殊性质能保证机器有较好 的推广能力 同时它巧妙地解决了维数问题 其算法复杂度与样本维数无关 SVM 已经成功 地应用到模式识别领域中 并表现出良好的性能 成为研究的新热点 14 4

9、 4 混合方法混合方法 把以上分类方法与不同特征进行有机组合可显著提高说话人识别的性能 如 NTT 实验 室的 T Matsui 和 S Furui 使用倒谱 差分倒谱 基音和差分基音 采用 VQ 与 HMM 混合的 方法得到 99 3 的说话人确认率 8 采用多种特征和分类器进行识别 对最终的各个结果进 行融合 可以提高系统的识别率 总的说来 一个成功的说话人识别系统应该做到以下几点 1 能够有效地区分不同的说话人 但又能在同一说话人语音发生变化时保持相对的稳 定 如感冒等情况 2 不易被他人模仿或能够较好地解决被他人模仿问题 3 在声学环境变化时能够保持一定的稳定性 即抗噪声 抗信道变化的

10、性能要好 14 5 判决规则与性能评价标准判决规则与性能评价标准 对于说话人辨认系统 其性能的评价主要是正确识别率 而对于说话人确认系统 表征 其性能的最重要的两个参量是错误拒绝率和错误接受率 前者是拒绝真实的说话人而造成的 错误 后者是接受假冒者而造成的错误 二者与阈值的设定相关 说话人辨认系统的性能与 用户数目有关 并随着用户数目的增加 系统的性能会不断下降 而说话人确认系统的错误 率与用户数目无关 7 性能评价具有多种意义 主要是对研究思想的评价 还可以用来对不同的系统进行比较 评价某项技术对特定应用的效果 用于投资方的市场调查和产品对用户的销售 性能评价应 该具有清楚和易于理解的特点

11、选用错误率要比选用正确率的效果要更好一些 比如错误率 从 10 减少到 5 表示系统的性能提高显著 而用正确率从 90 提高到 95 来表示同样的情 况就没有那么直观了 14 5 1 说话人辨认说话人辨认 说话人辨认系统的性能可以直接用错误率 ID E或正确率 ID C来表示 IDerrtot Enn 14 5 1 IDcortot Cnn 14 5 2 这里 tot n err n和 cor n分别表示总测试数 错误数和正确数 不同的说话人和不同的环境 下的错误率可能会不同 但是基本的性能评价是一致的 14 5 2 说话人确认 检测 说话人确认 检测 说话人确认实际上是检测问题 因此存在许多

12、评价检测系统性能的约定和方法 一 漏警和虚警一 漏警和虚警 检测系统的性能通常用两种错误来表征 即漏警错误率和虚警错误率 分别表示当目标 说话人存在时未能检测出的概率 miss E和当目标说话人不存在时错误检测出的概率 fa E 这些 评价可以由下面的公式来计算 arg missmisstet Enn 14 5 3 这里 argtet n和 miss n分别为目标说话人实验的次数和目标说话人未被检出的次数 fafaimposter Enn 14 5 4 这里 imposter n和 fa n分别为非目标说话人实验的次数和目标说话人被错误检出的次数 二 错误率二 错误率 漏警错误率和虚警错误率虽

13、然可以较好地表示系统的性能 但是并不能提供一个单一的 数字来表示性能 等错误率 EER 将漏警和虚警率结合起来成为一个单一数字 通过寻找 二者相等的点的判决阈值的方法 当然 该方法只在判决阈值可调的情况下适用 三 检测代价三 检测代价 另外一个用单一数值表示系统性能的方法是构造检测代价函数 该代价函数用虚警和漏 警率的算术加权来实现 该方法的优点是对实际应用情况进行了建模 所产生的数值对实际 应用具有直接的意义 检测代价 C 通常被定义为漏警和虚警的后验概率加权和 detargarg 1 missmisstetfafatet CcEPcEp 14 5 5 这里 miss c和 fa c分别表示

14、漏警和虚警的代价 argtet p为目标说话人的先验概率 上面定义的检测代价函数看起来是个很好的评价标准 因为它对实际应用中的技术进行 了量化 在许多应用中 说话人识别的代价被证明可以采用这种检测代价函数来很好地表示 然而这种抽象的表示方法并没有被科学界所广泛接受 研究人员更容易理解的是漏警和虚警 错误之间的折衷表示方法 四 四 DET 图图 漏警和虚警错误率之间的关系可以由传统的接收机工作特性 Receiver Operating Characteristic ROC 曲线来表示 它将正确检测概率表示为虚警错误率的函数关系 另外一 个对 ROC 曲线的发展称之为检测错误折衷 Detectio

15、n Error Tradeoff DET 曲线 由美国国 家标准协会 NIST 引入作为说话人确认的检测标准 DET 图根据漏警和虚警错误率相应的 高斯偏离程度而不是直接根据概率本身来绘出 DET 曲线 并且取对数坐标的形式 这种做法 8 将导致非线性的概率尺度 但优点是该曲线将更为直观 尤其是当错误概率的分布服从高斯 分布时 这时得到的检测错误折衷曲线将为一条直线 曲线之间的距离大小将更有效地描述 不同系统之间性能差异的大小 DET 图的示意图见图 14 5 1 可以看出 DET 图清楚地表示 出了错误拒绝率 漏警率 和错误接受率 虚警率 之间的关系 DET 图中还表明了等错误 率 Equa

16、l Error Rate EER 的点 表示 FR FA 时的说话人确认系统的性能 图 14 5 1 中呈 45 倾斜向上的直线即为 EER 点构成的 一般来讲 EER 值越小 系统性能越好 图 14 5 1 说话人识别 DET 示意图 五 判决五 判决 说话人识别技术的处理结论 该工作很简单 通过人的声音来决定说话人的身份 看 起来很明显 但是实际上如何设定说话人识别的判决门限却常常被忽视 随着应用的发展 如何进行判决被认为是不具备挑战性的问题 实际上当我们去配置一 个真实的系统时 却发现这个问题变得极具挑战性 在说话人合作的情况下 系统性能对不 同的说话人变化很大 但是系统对所有人都应该具有均一的性能 即应该具有较低的漏警率 因此研究者致力于分别校准系统对每一个说话人的性能 但是却发现训练时的观察往往在实 用中是有害的 即说话人归一化会导致更差的性能 六 合并数据六 合并数据 合并数据的问题与设置阈值和判决问题相关 对不同的目标说话人进行数据合并是件很 困难的事情 因为由说话人相关的阈值所带来的好的性能 数据合并后 采用混合的阈值的 性能就要降低了 解决这个问题的办法是找到每个目标

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号