声纹识别原理、技术及应用

上传人:suns****4568 文档编号:88919814 上传时间:2019-05-13 格式:PDF 页数:78 大小:2.91MB
返回 下载 相关 举报
声纹识别原理、技术及应用_第1页
第1页 / 共78页
声纹识别原理、技术及应用_第2页
第2页 / 共78页
声纹识别原理、技术及应用_第3页
第3页 / 共78页
声纹识别原理、技术及应用_第4页
第4页 / 共78页
声纹识别原理、技术及应用_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《声纹识别原理、技术及应用》由会员分享,可在线阅读,更多相关《声纹识别原理、技术及应用(78页珍藏版)》请在金锄头文库上搜索。

1、声纹识别原理、技术及应用 洪青阳副教授洪青阳副教授 厦门大学信息科学与技术学院厦门大学信息科学与技术学院 E-mail: 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容 生物识别技术 当今信息社会中,在国家安全、金融、司法等 社会各个领域均需要个人身份验证。 生物特征识别(Biometrics Authentification) 技术是通过计算机与光学、声学、生物传感器 和生物统计学原理等高科技手段密切结合,利 用人体固有的生理特性(如指纹、人脸、虹膜、 声音等)来进行个人身份的鉴定。 生物

2、特征识别技术比传统的身份鉴定方法更具 安全、保密和方便性,且具有不易遗忘、防伪 性能好、不易伪造或被盗、随身“携带”和随 时随地可用等优点。 生物识别技术 图图1 各类认证技术比较各类认证技术比较 生物识别技术 你是谁 你有什么 你知道什么 生物识别技术生物识别技术 U盾盾/密保卡等密保卡等 文本密码文本密码 生物识别技术市场 机密机密 6 错误接受率错误接受率 错误拒绝率错误拒绝率 容易实用性容易实用性 处理速度处理速度/ /人人 指纹识别指纹识别 很低 较低 好 2s-5s 掌纹识别掌纹识别 低 5% 使用困难 5s-10s 人脸识别人脸识别 低 接受 宣称说话人模型 对比 是XX的 声音

3、吗? 分类方式二 按说话内容分类 文本无关(Text-Independent) 不限定说什么文本 语种无关(Language-Independent) 语种相关(Language-Dependent) 文本相关(Text-Dependent) 要求说特定的文本(与训练阶段一致,或现场提示) 必定是语种相关的 性能评价标准 对于说话人辨认系统,其性能的评价标准主要是 正确识别率。 对于说话人确认(SV)系统,其最重要的两个指标 是错误拒绝率(FRR)与错误接受率(FAR),前者是 拒绝真实的说话人,又称“拒真率”,后者是接 受冒认者而造成的错误,又称“认假率”,两者 均与阈值的设定相关。 等错率

4、(EER):FRR与FAR相等。 DET曲线图 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容 声纹识别基本原理 特征提取过程 MFCC参数计算过程参数计算过程 分帧预加重加窗FFT MEL滤波器logDCT 语音信号 MFCC 声纹建模方法 类型类型 主要算法主要算法 文本相关文本相关 SCHMM(半连续隐马尔科夫模型) GMM-UBM 文本无关文本无关 GMM-UBM GMM-SVM(支持向量机) GMM-UBM-LFA i-vector/PLDA 文本提示文本提示 HMM(自适应算法ML

5、LR/MAP) GMM-UBM GMM-UBM说话人确认系统 经典方法(GMM-UBM) 说话人需要建立自己的模型时,就可以通过MAP自适应 UBM来得到个性特征,即修正后的参数,从而得到自己的 GMM。 高斯混合模型(GMM) GMM本质上是一种多维概率密度函数本质上是一种多维概率密度函数 M 阶阶GMM的概率密度的概率密度函数如下:函数如下: M 阶阶GMM是用是用M个单高斯分布的线性组合来描述。个单高斯分布的线性组合来描述。 Dim 1 Dim 2 Model ( | )px MM ii ixP i cixPxP 11 ),|()|,()|( M i i c 1 1其中其中 2 )( 1

6、 )( exp 2/1 2/ )2( 1 ),|( i x i T i x i K ixP Parameters i i Dim 1 Dim 2 ( )p x Nicolas Malyska, Sanjeev Mohindra, Karen Lauro, Douglas Reynolds, and Jeremy Kepner 高斯混合模型(GMM) ci UBM UBM通用背景模型通用背景模型 UBM也是一个也是一个GMM,只是这个,只是这个GMM需要用大量的需要用大量的 不同说话人的语音数据经过训练来表示说话不同说话人的语音数据经过训练来表示说话 人无关的人无关的 特征分布,这种特征是大多数

7、说话人的共性特征。特征分布,这种特征是大多数说话人的共性特征。 UBM采用比较大的高斯混合数采用比较大的高斯混合数(M阶阶) NIST评测:评测:2048 mixtures 实网应用:实网应用:512 mixtures 手机应用:手机应用:64128mixtures GMM优缺点 GMMGMM优点优点: 概率统计模型,通过大量训练语音数据集的统 计分布进行描述,可较好地刻画目标话者不同 情况下的特点,具有良好的鲁棒性。 同信道效果很好,已可实用。 GMMGMM缺点缺点: 有限的数据不一定能充分代表说话人的真实特 征分布;只考虑某一类的模型参数和本类训练 数据之间的相似程度,而没有考虑与其他类别

8、 之间的区分性。 跨信道性能急剧下降! 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容 基于GMM的文本相关声纹识别 基于GMM的文本相关声纹识别 固定口令固定口令(09) 采用采用Znorm得分归一化得分归一化 EER3% 技术已经成熟可商用。技术已经成熟可商用。 文本相关文本相关0909口令口令 文本相关声纹识别的应用 电话银行 账户交易 各类账户 密码重设 司法矫正 智能终端 隐私保护 文本相关 应用设计及案例(1) 声纹识别的应用设计声纹识别的应用设计 数据安全性 前向兼容能力 操作点

9、设置 模型库备份及恢复 交互流程 应用设计及案例(2) 应用实例应用实例 司法社区矫正中的应用 司法社区矫正,是指将社区矫正对象置于社区内,由专门的国家机关负责并组织社会力量对其 采取监督管理、教育、帮助措施,矫正其犯罪心理和行为恶习,促进其顺利回归社会的非监禁 刑罚执行活动。 声纹识别主要用来解决其“人机分离”的难题。 智能移动终端上的应用 SIVI声纹锁是一款安卓(Android)操作系统上的智能手机应用,用于保护手机的上的应用软 件。 SIVI声纹锁 SIVI声纹锁 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5

10、 总结及展望 6 主要内容 研究热点 技术难题:跨信道、噪声 实验室理想条件实验室理想条件 实际应用场合(跨信道、噪声背景)实际应用场合(跨信道、噪声背景) 训练阶段训练阶段 识别阶段识别阶段 跨信道因素跨信道因素 类型类型 采集设备采集设备 座式麦克风、头戴式麦克风、计算机内置麦克风、 录音笔、手机、固定电话 传输信道传输信道 移动传输信道:GSM、CDMA2000、WCDMA、 TD-SCDMA、LTE等 固定电话传输信道:IP、PSTN等 表表1 1 语音采集设备类型和传输信道类型语音采集设备类型和传输信道类型 跨信道 解决办法 主要方法主要方法 特征域特征域 倒谱均值减(CMS)、倒谱

11、方差归一化(CMN)、 RASTA滤波、特征弯折(Feature Warping)等 模型域模型域 支持向量机(SVM) 有害因子映射(NAP) 潜在因子分析(LFA),又称本征信道 i-Vector/PLDA 迁移学习(Transfer Learning) 得分域得分域 Znorm用在训练阶段 Tnorm用在测试阶段 SVMSVM的核心思想的核心思想:分类间隔越大,则推广能 力(泛化能力)越好。 SVM(1) 线性可分 SVM(2) 线性可分 凸二次规划:可行域为凸集,且目标函数又 是w的二次函数。(规划=寻找最优解) 定理:凸二次规划有唯一的全局最优解。 SVM(3) 核函数 线性不可分线

12、性不可分 线性可分线性可分(曲线上下曲线上下) 红线在曲线上方红线在曲线上方 黑线在曲线下方黑线在曲线下方 黑线在曲线下方黑线在曲线下方 SVM表达式: SVM(4) 核函数 核函数:使低维空间线性不可分的数据在高维 空间线性可分线性可分或近似线性可分近似线性可分。 常用核函数: SVM(5) 核函数 GSV生成 Gaussian Supervector(GSV)的获取过程的获取过程 提取语音特征说话人模型 高斯超向量 GSV 通用背景模型 语音 MAP GSV训练过程 特征矢量到超 矢量的映射 信道补偿 特征矢量到超 矢量的映射 信道补偿 特征矢量到超 矢量的映射 信道补偿 . SVM训练

13、目标说话人目标说话人 超向量超向量 (+1) 背景模型背景模型 超向量超向量 (-1) 特征矢量到超 矢量的映射 信道补偿 . . . 目标说话人目标说话人 训练语音训练语音 背景模型背景模型 训练语音训练语音 超平面超平面 X X XX X X GSV训练训练(包含包含NAP信道补偿信道补偿) GMM-NAP-SVM-Tnorm系统 实验数据 以NIST评测中2006年的男性数据作为测试集,以SRE04的数据作为UBM 的开发集,以SRE08年的数据作为有害因子映射和潜在因子分析的训 练集和T-norm的开发集,同样也作为SVM负例的数据。 测试集来源于SRE06的core-core对,有两

14、种类型,由表2给出:一种 是同信道训练测试对1conv4w-1conv4w,另一种是跨信道测试对 1conv4w-1convmic。跨信道测试对中,训练数据来自电话信道,而测 试数据来自麦克风。 训练-测试环境 模型数 正例测试次数 负例测试次数 1conv4w-1conv4w 351 1595 24945 1conv4w-1convmic 351 1159 9398 表表2 SRE06训练测试集训练测试集 GMM-SVM的EER 训练测试对/系统 GMM-SVM GMM-SVM-Tnorm GMM-SVM-Tnorm-NAP 1conv4w-1conv4w 8% 7% 6.5% 1conv4

15、w-1convmic 10.2% 9.8% 7.8% SVM优缺点 SVMSVM优点优点: 区分性模型,只着眼于两类数据的边界描述,不 注重某类数据内部的分布,具有良好的区分性。 高斯超向量GSV比较采用点积,运算速度快,适合 于大范围的声纹鉴别(1:N)任务。 SVMSVM缺点缺点: 对于文本无关的说话人确认,采用SVM模型时,需 要较长的语音,因此我们将面临着特征矢量样本 数量大、目标话者和冒认话者训练样本数极不平 衡等一系列问题。 对短语音(10s以内)效果不好! LFA(潜在因子分析) LFA分解式:mspk=mubm+Ux(h)+Vy(s) spk=Vy(s) channel=Ux(

16、h) U为信道空间载荷矩阵,V为话者空间载荷矩阵。均需要大 量的语音来训练得到:V可以由UBM的协方差矩阵来间接求 得;因此训练一个好的训练一个好的U U成为成为LFALFA的关键的关键。 训练U对数据的要求:有大量的不同话者,每个话者尽可 能的覆盖多种信道下的语音,以便更加完整的刻画信道空 间。U的训练过程是计算零阶、一阶和二阶统计量以及EM 迭代过程。 GMM-UBM-LFA系统 实验结果(EER) 训练测试对 UBM-GMM LFA 1conv4w-1conv4w 10.3% 10% 1conv4w-1convmic 15.2% 10% LFA对对1conv4w-1conv4w提升幅度不明显,而对提升幅度不明显,而对 跨信道测试集跨信道测试集1c

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号