声纹识别原理、技术及应用

资源描述

《声纹识别原理、技术及应用》由会员分享，可在线阅读，更多相关《声纹识别原理、技术及应用（78页珍藏版）》请在金锄头文库上搜索。

1、声纹识别原理、技术及应用洪青阳副教授洪青阳副教授厦门大学信息科学与技术学院厦门大学信息科学与技术学院 E-mail: 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容生物识别技术当今信息社会中，在国家安全、金融、司法等社会各个领域均需要个人身份验证。生物特征识别(Biometrics Authentification) 技术是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合，利用人体固有的生理特性（如指纹、人脸、虹膜、声音等）来进行个人身份的鉴定。生物

2、特征识别技术比传统的身份鉴定方法更具安全、保密和方便性，且具有不易遗忘、防伪性能好、不易伪造或被盗、随身“携带”和随时随地可用等优点。生物识别技术图图1 各类认证技术比较各类认证技术比较生物识别技术你是谁你有什么你知道什么生物识别技术生物识别技术 U盾盾/密保卡等密保卡等文本密码文本密码生物识别技术市场机密机密 6 错误接受率错误接受率错误拒绝率错误拒绝率容易实用性容易实用性处理速度处理速度/ /人人指纹识别指纹识别很低较低好 2s-5s 掌纹识别掌纹识别低 5% 使用困难 5s-10s 人脸识别人脸识别低接受宣称说话人模型对比是XX的声音

3、吗？分类方式二按说话内容分类文本无关（Text-Independent）不限定说什么文本语种无关（Language-Independent）语种相关（Language-Dependent）文本相关（Text-Dependent）要求说特定的文本（与训练阶段一致，或现场提示）必定是语种相关的性能评价标准对于说话人辨认系统，其性能的评价标准主要是正确识别率。对于说话人确认(SV)系统，其最重要的两个指标是错误拒绝率(FRR)与错误接受率(FAR)，前者是拒绝真实的说话人，又称“拒真率”，后者是接受冒认者而造成的错误，又称“认假率”，两者均与阈值的设定相关。等错率

4、(EER)：FRR与FAR相等。 DET曲线图文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容声纹识别基本原理特征提取过程 MFCC参数计算过程参数计算过程分帧预加重加窗FFT MEL滤波器logDCT 语音信号 MFCC 声纹建模方法类型类型主要算法主要算法文本相关文本相关 SCHMM(半连续隐马尔科夫模型) GMM-UBM 文本无关文本无关 GMM-UBM GMM-SVM(支持向量机) GMM-UBM-LFA i-vector/PLDA 文本提示文本提示 HMM(自适应算法ML

5、LR/MAP) GMM-UBM GMM-UBM说话人确认系统经典方法(GMM-UBM) 说话人需要建立自己的模型时，就可以通过MAP自适应 UBM来得到个性特征，即修正后的参数，从而得到自己的 GMM。高斯混合模型(GMM) GMM本质上是一种多维概率密度函数本质上是一种多维概率密度函数 M 阶阶GMM的概率密度的概率密度函数如下：函数如下： M 阶阶GMM是用是用M个单高斯分布的线性组合来描述。个单高斯分布的线性组合来描述。 Dim 1 Dim 2 Model ( | )px MM ii ixP i cixPxP 11 ),|()|,()|( M i i c 1 1其中其中 2 )( 1

6、 )( exp 2/1 2/ )2( 1 ),|( i x i T i x i K ixP Parameters i i Dim 1 Dim 2 ( )p x Nicolas Malyska, Sanjeev Mohindra, Karen Lauro, Douglas Reynolds, and Jeremy Kepner 高斯混合模型(GMM) ci UBM UBM通用背景模型通用背景模型 UBM也是一个也是一个GMM，只是这个，只是这个GMM需要用大量的需要用大量的不同说话人的语音数据经过训练来表示说话不同说话人的语音数据经过训练来表示说话人无关的人无关的特征分布，这种特征是大多数

7、说话人的共性特征。特征分布，这种特征是大多数说话人的共性特征。 UBM采用比较大的高斯混合数采用比较大的高斯混合数(M阶阶) NIST评测：评测：2048 mixtures 实网应用：实网应用：512 mixtures 手机应用：手机应用：64128mixtures GMM优缺点 GMMGMM优点优点：概率统计模型，通过大量训练语音数据集的统计分布进行描述，可较好地刻画目标话者不同情况下的特点，具有良好的鲁棒性。同信道效果很好，已可实用。 GMMGMM缺点缺点：有限的数据不一定能充分代表说话人的真实特征分布；只考虑某一类的模型参数和本类训练数据之间的相似程度，而没有考虑与其他类别

8、之间的区分性。跨信道性能急剧下降！文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容基于GMM的文本相关声纹识别基于GMM的文本相关声纹识别固定口令固定口令(09) 采用采用Znorm得分归一化得分归一化 EER3% 技术已经成熟可商用。技术已经成熟可商用。文本相关文本相关0909口令口令文本相关声纹识别的应用电话银行账户交易各类账户密码重设司法矫正智能终端隐私保护文本相关应用设计及案例（1）声纹识别的应用设计声纹识别的应用设计数据安全性前向兼容能力操作点

9、设置模型库备份及恢复交互流程应用设计及案例（2）应用实例应用实例司法社区矫正中的应用司法社区矫正，是指将社区矫正对象置于社区内，由专门的国家机关负责并组织社会力量对其采取监督管理、教育、帮助措施，矫正其犯罪心理和行为恶习，促进其顺利回归社会的非监禁刑罚执行活动。声纹识别主要用来解决其“人机分离”的难题。智能移动终端上的应用 SIVI声纹锁是一款安卓（Android）操作系统上的智能手机应用，用于保护手机的上的应用软件。 SIVI声纹锁 SIVI声纹锁文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5

10、总结及展望 6 主要内容研究热点技术难题：跨信道、噪声实验室理想条件实验室理想条件实际应用场合（跨信道、噪声背景）实际应用场合（跨信道、噪声背景）训练阶段训练阶段识别阶段识别阶段跨信道因素跨信道因素类型类型采集设备采集设备座式麦克风、头戴式麦克风、计算机内置麦克风、录音笔、手机、固定电话传输信道传输信道移动传输信道：GSM、CDMA2000、WCDMA、 TD-SCDMA、LTE等固定电话传输信道：IP、PSTN等表表1 1 语音采集设备类型和传输信道类型语音采集设备类型和传输信道类型跨信道解决办法主要方法主要方法特征域特征域倒谱均值减(CMS)、倒谱

11、方差归一化(CMN)、 RASTA滤波、特征弯折(Feature Warping)等模型域模型域支持向量机（SVM）有害因子映射（NAP）潜在因子分析（LFA），又称本征信道 i-Vector/PLDA 迁移学习（Transfer Learning）得分域得分域 Znorm用在训练阶段 Tnorm用在测试阶段 SVMSVM的核心思想的核心思想：分类间隔越大，则推广能力（泛化能力）越好。 SVM（1）线性可分 SVM（2）线性可分凸二次规划：可行域为凸集，且目标函数又是w的二次函数。（规划=寻找最优解）定理：凸二次规划有唯一的全局最优解。 SVM（3）核函数线性不可分线

12、性不可分线性可分线性可分(曲线上下曲线上下) 红线在曲线上方红线在曲线上方黑线在曲线下方黑线在曲线下方黑线在曲线下方黑线在曲线下方 SVM表达式： SVM（4）核函数核函数：使低维空间线性不可分的数据在高维空间线性可分线性可分或近似线性可分近似线性可分。常用核函数： SVM（5）核函数 GSV生成 Gaussian Supervector(GSV)的获取过程的获取过程提取语音特征说话人模型高斯超向量 GSV 通用背景模型语音 MAP GSV训练过程特征矢量到超矢量的映射信道补偿特征矢量到超矢量的映射信道补偿特征矢量到超矢量的映射信道补偿 . SVM训练

13、目标说话人目标说话人超向量超向量（+1）背景模型背景模型超向量超向量（-1）特征矢量到超矢量的映射信道补偿 . . . 目标说话人目标说话人训练语音训练语音背景模型背景模型训练语音训练语音超平面超平面 X X XX X X GSV训练训练(包含包含NAP信道补偿信道补偿) GMM-NAP-SVM-Tnorm系统实验数据以NIST评测中2006年的男性数据作为测试集，以SRE04的数据作为UBM 的开发集，以SRE08年的数据作为有害因子映射和潜在因子分析的训练集和T-norm的开发集，同样也作为SVM负例的数据。测试集来源于SRE06的core-core对，有两

14、种类型，由表2给出：一种是同信道训练测试对1conv4w-1conv4w，另一种是跨信道测试对 1conv4w-1convmic。跨信道测试对中，训练数据来自电话信道，而测试数据来自麦克风。训练-测试环境模型数正例测试次数负例测试次数 1conv4w-1conv4w 351 1595 24945 1conv4w-1convmic 351 1159 9398 表表2 SRE06训练测试集训练测试集 GMM-SVM的EER 训练测试对/系统 GMM-SVM GMM-SVM-Tnorm GMM-SVM-Tnorm-NAP 1conv4w-1conv4w 8% 7% 6.5% 1conv4

15、w-1convmic 10.2% 9.8% 7.8% SVM优缺点 SVMSVM优点优点：区分性模型，只着眼于两类数据的边界描述，不注重某类数据内部的分布，具有良好的区分性。高斯超向量GSV比较采用点积，运算速度快，适合于大范围的声纹鉴别(1:N)任务。 SVMSVM缺点缺点：对于文本无关的说话人确认，采用SVM模型时，需要较长的语音，因此我们将面临着特征矢量样本数量大、目标话者和冒认话者训练样本数极不平衡等一系列问题。对短语音(10s以内)效果不好！ LFA(潜在因子分析) LFA分解式：mspk=mubm+Ux(h)+Vy(s) spk=Vy(s) channel=Ux(

16、h) U为信道空间载荷矩阵，V为话者空间载荷矩阵。均需要大量的语音来训练得到：V可以由UBM的协方差矩阵来间接求得；因此训练一个好的训练一个好的U U成为成为LFALFA的关键的关键。训练U对数据的要求：有大量的不同话者，每个话者尽可能的覆盖多种信道下的语音，以便更加完整的刻画信道空间。U的训练过程是计算零阶、一阶和二阶统计量以及EM 迭代过程。 GMM-UBM-LFA系统实验结果(EER) 训练测试对 UBM-GMM LFA 1conv4w-1conv4w 10.3% 10% 1conv4w-1convmic 15.2% 10% LFA对对1conv4w-1conv4w提升幅度不明显，而对提升幅度不明显，而对跨信道测试集跨信道测试集1c

展开阅读全文